少妇流白浆普通话对白,亚洲成人片高澎,男女进式猛XⅩ〇〇,99人妻无码一区二区三区免费

每日經(jīng)濟(jì)新聞
今日報(bào)紙

每經(jīng)網(wǎng)首頁 > 今日報(bào)紙 > 正文

每經(jīng)記者實(shí)測馬斯克“地表最強(qiáng)AI”Grok 3:速度稱王,數(shù)學(xué)亮眼,但邏輯能力不敵DeepSeek

每日經(jīng)濟(jì)新聞 2025-02-25 22:36:18

每經(jīng)記者|岳楚鵬    每經(jīng)編輯|高涵    

近日,人工智能初創(chuàng)公司xAI(馬斯克成立的人工智能公司)發(fā)布了更新版Grok 3(模型名)大模型,埃隆·馬斯克稱之為“地球上最聰明的人工智能”。

根據(jù)官方公開的測試結(jié)果,Grok 3在包括AIME(美國數(shù)學(xué)邀請賽)和 GPQA(研究生水平的專家推理)等基準(zhǔn)測試中,表現(xiàn)遠(yuǎn)超GPT-4o(模型名)、Gemini-2Pro(模型名)、DeepSeek V3(模型名)、Claude 3.5 Sonnet(模型名)等。

在大模型競技場Chatbot Arena(一個(gè)通過人類評估人工智能的開源平臺)測試中,xAI工程師表示,早期版本的Grok 3獲得了第一的成績,達(dá)到了140分,超越了Gemini 2.0 Flash Thinking(模型名)實(shí)驗(yàn)版本、GPT-4o最新版本以及最近大火的DeepSeek-R1(模型名,以下簡稱R1)等。

然而,有些用戶在體驗(yàn)后卻對Grok 3的能力產(chǎn)生了質(zhì)疑,他們認(rèn)為Grok 3的能力并沒有馬斯克宣稱的那么強(qiáng)大。OpenAI(一家開放人工智能研究和部署公司)應(yīng)用研究主管Boris Power(人名)則對Grok團(tuán)隊(duì)在模型評估中的行為表示失望,指出其存在作弊和欺騙動(dòng)機(jī)。Boris Power提到,o3mini(模型名)在各項(xiàng)評估中均優(yōu)于Grok 3。

真相到底如何,馬斯克吹牛了嗎?《每日經(jīng)濟(jì)新聞》記者測試發(fā)現(xiàn),Grok 3確實(shí)是世界頂級模型,但并沒有和其他模型拉開太大差距,唯一拉開差距的是它極快的響應(yīng)速度。

輕松拿下數(shù)字比大小

Grok 3是由馬斯克旗下的人工智能公司xAI發(fā)布的最新一代AI(人工智能)模型。馬斯克在發(fā)布會(huì)上稱其為“地球上最聰明的人工智能”,并表示Grok 3的能力比前代產(chǎn)品Grok 2高出一個(gè)數(shù)量級,具備更強(qiáng)的推理、計(jì)算和適應(yīng)能力。

在新聞發(fā)布會(huì)上,馬斯克宣稱Grok 3在數(shù)學(xué)、科學(xué)和編程等基準(zhǔn)測試中表現(xiàn)出色,超越了谷歌的Gemini、DeepSeek的V3模型、Anthropic(一家美國人工智能企業(yè))的Claude(模型名)和OpenAI的GPT-4o等競爭對手。

Grok 3在發(fā)布后僅48小時(shí)內(nèi),xAI宣布將其免費(fèi)開放給所有用戶,直至服務(wù)器負(fù)載達(dá)到極限。目前用戶每天可以體驗(yàn)十條“思考模式”Grok 3及不限量免費(fèi)普通Grok 3。

《每日經(jīng)濟(jì)新聞》記者在Grok 3發(fā)布后也親自進(jìn)行了測試,看看Grok 3是否真有馬斯克宣傳的那么厲害。

首先,從最經(jīng)典的基礎(chǔ)問題開始:9.9和9.11誰大?

這個(gè)問題毫無難度,Grok 3輕松拿下。

邏輯思考能力并不突出

馬斯克在發(fā)布會(huì)上自豪的一點(diǎn)是,Grok 3“思考模型”下的邏輯推理能力。他聲稱,Grok 3(思考模式)學(xué)會(huì)了改進(jìn)其解決問題的策略,通過回溯糾正錯(cuò)誤,簡化步驟,并利用其在預(yù)訓(xùn)練期間獲得的知識。就像人類在解決復(fù)雜問題時(shí)一樣,Grok 3(思考模式)可以花費(fèi)幾秒鐘到幾分鐘的時(shí)間進(jìn)行推理,通常會(huì)考慮多種方法,驗(yàn)證自己的解決方案,并評估如何精確滿足問題的要求。

記者用弱智吧的問題來檢驗(yàn)一下它的邏輯是不是真的過關(guān)。“弱智吧”是百度貼吧的一個(gè)子論壇。在這個(gè)論壇中,用戶經(jīng)常發(fā)布包含雙關(guān)語、多義詞、因果倒置和諧音詞等具有挑戰(zhàn)性的內(nèi)容,很多內(nèi)容設(shè)計(jì)有邏輯陷阱,即使對人類來說也頗具挑戰(zhàn)。

第一個(gè)問題:用水來兌水,得到的是濃水還是稀水?

Grok 3答對了問題,并且還指出這是一個(gè)文字游戲。而OpenAI的o1就在這道題上敗下陣來,認(rèn)為水兌水后得到的是稀水。當(dāng)然除了o1,其他大模型諸如Gemini和R1都答對了這道問題。所以這并不足以證明Grok的推理模式就是第一的水平,還得加大難度。

下一題:未來的某天,李同學(xué)在實(shí)驗(yàn)室制作神秘材料時(shí),意外發(fā)現(xiàn)實(shí)驗(yàn)室的老鼠在空中飛。分析發(fā)現(xiàn),是因?yàn)槔鲜蟛恍⌒某粤松衩夭牧稀5诙?,李同學(xué)又發(fā)現(xiàn)實(shí)驗(yàn)室的蛇也在空中飛,分析發(fā)現(xiàn),是因?yàn)樯叱粤死鲜蟆5谌?,李同學(xué)又發(fā)現(xiàn)實(shí)驗(yàn)室的老鷹也在空中飛,你認(rèn)為原因是什么?

很可惜,這道題Grok 3沒有答對,它在思維鏈里面已經(jīng)想到了老鷹本身就會(huì)飛的可能性,但是沒有在最后的輸出結(jié)果里體現(xiàn)出來。其他大模型里只有R1成功答對了問題,且考慮了兩種情況。

記者還進(jìn)行了多次類似問題的測試,發(fā)現(xiàn)Grok 3對中文的理解和邏輯推理能力確實(shí)明顯高于其他國外模型,但還是不如R1。

數(shù)學(xué)能力未拉開差距

既然邏輯思考無法奪魁,那么在基準(zhǔn)測試?yán)锓肿罡叩臄?shù)學(xué)項(xiàng)目,Grok 3能不能扳回一局呢?

題目如下:三個(gè)人打臺球,兩人對局一人觀戰(zhàn),輸?shù)娜讼聢鰮Q觀戰(zhàn)的人上場,如此往復(fù),最終,A輸了6局,B輸了8局,C輸了10局,問各贏多少局?

這道題只有Grok 3和OpenAI的o1答對。不過,Grok 3只用了1分15秒就得出了答案,o1使用了2分53秒。

再進(jìn)一步加大難度看看能不能分出高下。下面是一道群論問題:有幾個(gè)階為147的非同構(gòu)群。

在這個(gè)問題上,Grok 3雖然答對了具體的數(shù)量6個(gè),但是中間的具體群卻錯(cuò)了一個(gè)。而其他模型只找到了5個(gè)正確的非同構(gòu)群。這意味著,在數(shù)學(xué)能力方面,Grok 3確實(shí)是最好的,但是好得有限,并沒有與其他同等級模型拉開顯著差距。

編程能力險(xiǎn)勝o1

針對編程能力,《每日經(jīng)濟(jì)新聞》記者借用了Kcores(公司名)聯(lián)合創(chuàng)始人karminski-牙醫(yī)(網(wǎng)名)的測評結(jié)果。

karminski-牙醫(yī)復(fù)現(xiàn)了馬斯克在發(fā)布會(huì)上對于火星發(fā)射計(jì)劃的代碼模擬,并測試了多個(gè)模型進(jìn)行比較。

在這次測試中,表現(xiàn)最好的是Grok 3的推理模型(思考模式),雖然在最后著陸時(shí),動(dòng)畫火箭沒有與火星重疊,但軌道需求計(jì)算得很好。但是始終沒有復(fù)現(xiàn)出馬斯克在發(fā)布會(huì)時(shí)所展現(xiàn)的那么完美的軌道計(jì)算和動(dòng)畫。Grok 3最后綜合得分排在了第一,再之后是OpenAI的o1,兩者的綜合得分差距不大。

結(jié)合所有測試來看,Grok 3確實(shí)是世界頂尖的AI模型,不愧于20萬張GPU(圖形處理器)的身價(jià)。但是,實(shí)際測試效果并沒有馬斯克在發(fā)布會(huì)上展示的那么夸張,馬斯克所說的世界上最“聰明”的模型,可能還值得商榷。

在實(shí)測中,《每日經(jīng)濟(jì)新聞》記者發(fā)現(xiàn),Grok 3模型能力并沒有像基準(zhǔn)測試得分那樣遠(yuǎn)遠(yuǎn)甩開對手一大截,唯一甩開競爭對手的一點(diǎn)是它的響應(yīng)速度,它得出結(jié)果的速度相較于其他同等級的大模型來說是最快的。

如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

Grok 3 模型 馬斯克 Ai

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

0

0

91香蕉视频污污| 三级片丝袜网站| 104看人妻| 亚洲aⅤ精品无码一区二区| 综合图区无码图| 久久久亚洲欧洲日产国码二区| 九热这里有精品| 日本爱爱综合色一区| 黄色网久久久| 一级做a爰片久久一区二区| 天天爱天天做天天艹| av开心色。com| 成a∧人片在线观看无码| 国产精品午夜一区二区三区| 黄色三级片地址| 国产激情一区二区三区| 野外被三个男人躁爽白浆| www国产一区二| A区无码色电影| 精品丰满少妇久久久久| 男女男精品网站| 久久99精品国产| 九九热九九热| 97就爱干| 另类国产精品一区二区| av一区第七章| 国产一区二区三无码| 日韩精品一区二区亚洲tV| 中文字幕97超碰大香小说| 国内色视频| 厕所无码一区二区| 国产av无码专区亚洲av毛片搜| 亚洲第一区第二区| 国产精品野外天堂| 99国产精品视频69v精品| 99久久久国产精品99综合无码| 在线无码最新精品| 亚洲一区二区精品| 午夜精品一区二区三区文| 欧美丰满久久久久久| 懂色蜜桃极品少妇淫语|