少妇流白浆普通话对白,亚洲成人片高澎,男女进式猛XⅩ〇〇,99人妻无码一区二区三区免费

每日經(jīng)濟新聞

今日報紙

每經(jīng)網(wǎng)首頁 > 今日報紙 > 正文

每經(jīng)記者實測馬斯克“地表最強AI”Grok 3：速度稱王，數(shù)學亮眼，但邏輯能力不敵DeepSeek

每日經(jīng)濟新聞 2025-02-25 22:36:18

每經(jīng)記者｜岳楚鵬每經(jīng)編輯｜高涵

近日，人工智能初創(chuàng)公司xAI（馬斯克成立的人工智能公司）發(fā)布了更新版Grok 3（模型名）大模型，埃隆·馬斯克稱之為“地球上最聰明的人工智能”。

根據(jù)官方公開的測試結果，Grok 3在包括AIME（美國數(shù)學邀請賽）和 GPQA（研究生水平的專家推理）等基準測試中，表現(xiàn)遠超GPT-4o（模型名）、Gemini-2Pro（模型名）、DeepSeek V3（模型名）、Claude 3.5 Sonnet（模型名）等。

在大模型競技場Chatbot Arena（一個通過人類評估人工智能的開源平臺）測試中，xAI工程師表示，早期版本的Grok 3獲得了第一的成績，達到了140分，超越了Gemini 2.0 Flash Thinking（模型名）實驗版本、GPT-4o最新版本以及最近大火的DeepSeek-R1（模型名，以下簡稱R1）等。

然而，有些用戶在體驗后卻對Grok 3的能力產生了質疑，他們認為Grok 3的能力并沒有馬斯克宣稱的那么強大。OpenAI（一家開放人工智能研究和部署公司）應用研究主管Boris Power（人名）則對Grok團隊在模型評估中的行為表示失望，指出其存在作弊和欺騙動機。Boris Power提到，o3mini（模型名）在各項評估中均優(yōu)于Grok 3。

真相到底如何，馬斯克吹牛了嗎？《每日經(jīng)濟新聞》記者測試發(fā)現(xiàn)，Grok 3確實是世界頂級模型，但并沒有和其他模型拉開太大差距，唯一拉開差距的是它極快的響應速度。

輕松拿下數(shù)字比大小

Grok 3是由馬斯克旗下的人工智能公司xAI發(fā)布的最新一代AI（人工智能）模型。馬斯克在發(fā)布會上稱其為“地球上最聰明的人工智能”，并表示Grok 3的能力比前代產品Grok 2高出一個數(shù)量級，具備更強的推理、計算和適應能力。

在新聞發(fā)布會上，馬斯克宣稱Grok 3在數(shù)學、科學和編程等基準測試中表現(xiàn)出色，超越了谷歌的Gemini、DeepSeek的V3模型、Anthropic（一家美國人工智能企業(yè)）的Claude（模型名）和OpenAI的GPT-4o等競爭對手。

Grok 3在發(fā)布后僅48小時內，xAI宣布將其免費開放給所有用戶，直至服務器負載達到極限。目前用戶每天可以體驗十條“思考模式”Grok 3及不限量免費普通Grok 3。

《每日經(jīng)濟新聞》記者在Grok 3發(fā)布后也親自進行了測試，看看Grok 3是否真有馬斯克宣傳的那么厲害。

首先，從最經(jīng)典的基礎問題開始：9.9和9.11誰大？

這個問題毫無難度，Grok 3輕松拿下。

邏輯思考能力并不突出

馬斯克在發(fā)布會上自豪的一點是，Grok 3“思考模型”下的邏輯推理能力。他聲稱，Grok 3（思考模式）學會了改進其解決問題的策略，通過回溯糾正錯誤，簡化步驟，并利用其在預訓練期間獲得的知識。就像人類在解決復雜問題時一樣，Grok 3（思考模式）可以花費幾秒鐘到幾分鐘的時間進行推理，通常會考慮多種方法，驗證自己的解決方案，并評估如何精確滿足問題的要求。

記者用弱智吧的問題來檢驗一下它的邏輯是不是真的過關。“弱智吧”是百度貼吧的一個子論壇。在這個論壇中，用戶經(jīng)常發(fā)布包含雙關語、多義詞、因果倒置和諧音詞等具有挑戰(zhàn)性的內容，很多內容設計有邏輯陷阱，即使對人類來說也頗具挑戰(zhàn)。

第一個問題：用水來兌水，得到的是濃水還是稀水？

Grok 3答對了問題，并且還指出這是一個文字游戲。而OpenAI的o1就在這道題上敗下陣來，認為水兌水后得到的是稀水。當然除了o1，其他大模型諸如Gemini和R1都答對了這道問題。所以這并不足以證明Grok的推理模式就是第一的水平，還得加大難度。

下一題：未來的某天，李同學在實驗室制作神秘材料時，意外發(fā)現(xiàn)實驗室的老鼠在空中飛。分析發(fā)現(xiàn)，是因為老鼠不小心吃了神秘材料。第二天，李同學又發(fā)現(xiàn)實驗室的蛇也在空中飛，分析發(fā)現(xiàn)，是因為蛇吃了老鼠。第三天，李同學又發(fā)現(xiàn)實驗室的老鷹也在空中飛，你認為原因是什么？

很可惜，這道題Grok 3沒有答對，它在思維鏈里面已經(jīng)想到了老鷹本身就會飛的可能性，但是沒有在最后的輸出結果里體現(xiàn)出來。其他大模型里只有R1成功答對了問題，且考慮了兩種情況。

記者還進行了多次類似問題的測試，發(fā)現(xiàn)Grok 3對中文的理解和邏輯推理能力確實明顯高于其他國外模型，但還是不如R1。

數(shù)學能力未拉開差距

既然邏輯思考無法奪魁，那么在基準測試里分最高的數(shù)學項目，Grok 3能不能扳回一局呢？

題目如下：三個人打臺球，兩人對局一人觀戰(zhàn)，輸?shù)娜讼聢鰮Q觀戰(zhàn)的人上場，如此往復，最終，A輸了6局，B輸了8局，C輸了10局，問各贏多少局？

這道題只有Grok 3和OpenAI的o1答對。不過，Grok 3只用了1分15秒就得出了答案，o1使用了2分53秒。

再進一步加大難度看看能不能分出高下。下面是一道群論問題：有幾個階為147的非同構群。

在這個問題上，Grok 3雖然答對了具體的數(shù)量6個，但是中間的具體群卻錯了一個。而其他模型只找到了5個正確的非同構群。這意味著，在數(shù)學能力方面，Grok 3確實是最好的，但是好得有限，并沒有與其他同等級模型拉開顯著差距。

編程能力險勝o1

針對編程能力，《每日經(jīng)濟新聞》記者借用了Kcores（公司名）聯(lián)合創(chuàng)始人karminski-牙醫(yī)（網(wǎng)名）的測評結果。

karminski-牙醫(yī)復現(xiàn)了馬斯克在發(fā)布會上對于火星發(fā)射計劃的代碼模擬，并測試了多個模型進行比較。

在這次測試中，表現(xiàn)最好的是Grok 3的推理模型（思考模式），雖然在最后著陸時，動畫火箭沒有與火星重疊，但軌道需求計算得很好。但是始終沒有復現(xiàn)出馬斯克在發(fā)布會時所展現(xiàn)的那么完美的軌道計算和動畫。Grok 3最后綜合得分排在了第一，再之后是OpenAI的o1，兩者的綜合得分差距不大。

結合所有測試來看，Grok 3確實是世界頂尖的AI模型，不愧于20萬張GPU（圖形處理器）的身價。但是，實際測試效果并沒有馬斯克在發(fā)布會上展示的那么夸張，馬斯克所說的世界上最“聰明”的模型，可能還值得商榷。

在實測中，《每日經(jīng)濟新聞》記者發(fā)現(xiàn)，Grok 3模型能力并沒有像基準測試得分那樣遠遠甩開對手一大截，唯一甩開競爭對手的一點是它的響應速度，它得出結果的速度相較于其他同等級的大模型來說是最快的。

如需轉載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權，嚴禁轉載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

Grok 3 模型馬斯克 Ai

上一篇文章

美股三大指數(shù)開盤漲跌不一納斯達克中國金龍指數(shù)漲0.56%

返回每經(jīng)網(wǎng)首頁

下一篇文章

海南出臺創(chuàng)新容錯機制，為科技創(chuàng)新“松綁”

相關文章

熱文精選

點擊排行

歡迎關注每日經(jīng)濟新聞APP

每經(jīng)經(jīng)濟新聞官方APP

相關信息
關于我們
版權聲明

關注我們
辟謠專區(qū)

Copyright ? 2025 每日經(jīng)濟新聞報社版權所有，未經(jīng)許可不得轉載使用，違者必究。

廣告熱線? 北京: 010-57613265，?上海: 021-61283008，?廣州: 020-84201861，?深圳: 0755-83520159，?成都: 028-86512112

網(wǎng)絡社會征信網(wǎng)

兒童色情信息舉報專區(qū)

成都市互聯(lián)網(wǎng)不良與違法信息舉報中心

四川省互聯(lián)網(wǎng)舉報中心

中國互聯(lián)網(wǎng)舉報中心

每日經(jīng)濟新聞互聯(lián)網(wǎng)不良與違法信息舉報中心

互聯(lián)網(wǎng)新聞信息服務許可證：51120190017 網(wǎng)站備案號：蜀ICP備19004508號-3 川公網(wǎng)安備 51019002002026號

新聞職業(yè)道德監(jiān)督熱線：400 889 0008 郵箱：zbb@nbd.com.cn

日本AⅤ一级中文字幕| 东京热黄色av| 欧美视频777| 东京热无码视频播放一区| 久久r热这里有精品视频| 超碰中文字幕在线观看| 激情综合五月开心| 青青草原一区二区| 亚精品免费久久人人| 91久久夜夜操| 久久精品一区二区伦理片| 无码人妻精品一区二区三区99不...| 狼友视频官网| 日本午夜精品理论片A级APP发...| 亚洲AV无码尤物网站| 国产囗交| 精品伦理一区二区三区| 在线视频亚洲专区| 免费A级毛片无码A∨中文字幕下... | 少妇无码aV专区影片| 欧美精品﹣色哟哟| 少妇浪潮AV| 亚洲天堂成人三级| 日韩欧美亚洲区| 7777精品伊人久久久大香线蕉| 无码专区日韩精品| 亚洲成人一区二区电影| 亚洲午夜尤物在线观看| 激情AV五月| 无码精品视频免费观看| 亚洲中文自拍另类aⅴ片| 跳舞久久精品福利| 亚洲中文字幕久久无码精品A| 午夜黄色电影9| 产后奶水无码| 视频二区中文字幕| 国产欧美精品一区二区三区四区| 9999午夜视频| 国产精品艹| 97av麻豆蜜桃一区二区| 18岁禁止污网站|