少妇流白浆普通话对白,亚洲成人片高澎,男女进式猛XⅩ〇〇,99人妻无码一区二区三区免费

每日經(jīng)濟(jì)新聞
要聞

每經(jīng)網(wǎng)首頁(yè) > 要聞 > 正文

WWDC前夕,蘋果論文“炮轟”AI推理模型“假思考”,測(cè)試方法遭質(zhì)疑

每日經(jīng)濟(jì)新聞 2025-06-09 19:01:49

近日,蘋果機(jī)器學(xué)習(xí)研究中心發(fā)表論文指出,現(xiàn)有的推理模型看似會(huì)“思考”,但其實(shí)并沒有穩(wěn)定、可理解的思維過(guò)程,所謂的推理思考只是一種“幻象”。這一觀點(diǎn)引發(fā)AI圈熱議,有研究人員認(rèn)為蘋果的測(cè)試方法存在問題,輸出token限制可能是推理模型表現(xiàn)不佳的原因。也有部分觀點(diǎn)指責(zé)蘋果因其AI進(jìn)展不順,“吃不到葡萄說(shuō)葡萄酸”。

每經(jīng)記者|宋欣悅    每經(jīng)編輯|高涵    

當(dāng)?shù)貢r(shí)間6月6日,蘋果機(jī)器學(xué)習(xí)研究中心發(fā)表論文《思考的幻象:通過(guò)問題復(fù)雜性的視角理解推理模型的優(yōu)勢(shì)與局限》。論文作者包括谷歌大腦聯(lián)合創(chuàng)始人Samy Bengio(圖靈獎(jiǎng)得主Yoshua Bengio的弟弟)。

該論文認(rèn)為,現(xiàn)有的推理模型看似會(huì)“思考”,但其實(shí)并沒有穩(wěn)定、可理解的思維過(guò)程,所謂的推理思考只是一種“幻象”。

論文發(fā)布后引發(fā)AI圈熱議,被部分觀點(diǎn)解讀為“蘋果否定所有大模型的推理能力”。也有研究人員提出反駁,認(rèn)為蘋果的測(cè)試方法存在問題。AI研究者Lisan al Gaib在復(fù)現(xiàn)論文中的漢諾塔測(cè)試后發(fā)現(xiàn),模型根本不是因?yàn)橥评砟芰Σ患讯?,而是因?yàn)檩敵鰐oken限制。

圖片來(lái)源:論文《思考的幻象:通過(guò)問題復(fù)雜性的視角理解推理模型的優(yōu)勢(shì)與局限》

蘋果“炮轟”AI推理模型:所謂的思考只是一種“幻象”

論文指出,OpenAI、Anthropic、谷歌和DeepSeek等公司紛紛推出帶有“鏈?zhǔn)剿伎?rdquo;(Chain-of-Thought,CoT)能力的模型,并聲稱它們更接近“類人思維”。

然而,該論文認(rèn)為,現(xiàn)有的推理模型看似會(huì)“思考”,但其實(shí)并沒有穩(wěn)定、可理解的思維過(guò)程,所謂的推理思考只是一種“幻象”。

蘋果團(tuán)隊(duì)認(rèn)為,在實(shí)驗(yàn)設(shè)計(jì)上,現(xiàn)有評(píng)估主要集中在既定的數(shù)學(xué)和編碼基準(zhǔn)上,通過(guò)判斷模型最終答案是否正確來(lái)評(píng)估其能力,這種方式可能存在數(shù)據(jù)污染,即模型在訓(xùn)練時(shí)可能見過(guò)類似題目。此外,這些評(píng)估大都缺乏對(duì)“思考過(guò)程質(zhì)量”的分析。

為此,蘋果團(tuán)隊(duì)設(shè)計(jì)了四類謎題環(huán)境,包括漢諾塔、跳棋交換、過(guò)河問題和積木世界,通過(guò)精確控制謎題難度,來(lái)測(cè)試推理模型的推理能力。

圖片來(lái)源:《思考的幻象:通過(guò)問題復(fù)雜性的視角理解推理模型的優(yōu)勢(shì)與局限》

推理模型并未解決模型能力瓶頸

實(shí)驗(yàn)結(jié)果顯示,面對(duì)低復(fù)雜度任務(wù),非推理模型比與之對(duì)應(yīng)的推理模型更準(zhǔn)確高效。當(dāng)問題復(fù)雜度適度增加,推理模型優(yōu)勢(shì)顯現(xiàn),性能超過(guò)非推理模型。

當(dāng)問題難度超過(guò)一定臨界點(diǎn)時(shí),兩類模型性能均嚴(yán)重下降,準(zhǔn)確率為零。這表明,推理模型并沒有實(shí)際性地解決模型的能力瓶頸。

圖片來(lái)源:《思考的幻象:通過(guò)問題復(fù)雜性的視角理解推理模型的優(yōu)勢(shì)與局限》

面對(duì)難題,直接“躺平”

同時(shí),研究還發(fā)現(xiàn),隨著問題復(fù)雜度的增加,推理模型在初期會(huì)投入更多的思考token。然而,當(dāng)問題難度達(dá)到某個(gè)臨界點(diǎn)時(shí),模型推理能力就會(huì)發(fā)生崩潰,思考不增反降。

這表明,推理模型似乎存在一個(gè)內(nèi)在的“縮放限制”。當(dāng)它預(yù)感到問題過(guò)于困難無(wú)法解決時(shí),即便有充足的計(jì)算預(yù)算(token limit),它也會(huì)選擇“躺平”,減少思考的努力。

過(guò)度思考,連“抄作業(yè)”都不會(huì)

此外,研究人員不僅關(guān)注最終答案,還分析了推理痕跡——即給出答案之前生成的逐步“思考”過(guò)程。他們發(fā)現(xiàn),在簡(jiǎn)單的問題中,模型往往在早期就找到了正確的解決方案,但隨后繼續(xù)進(jìn)行不必要的思考。

在中等復(fù)雜度的問題中,模型往往在推理過(guò)程中走錯(cuò)路徑,最終在“思考”的后期才找到正確的答案。但在高復(fù)雜度的問題中,準(zhǔn)確度為零,推理變得混亂或不連貫。

更令人擔(dān)憂的是,在漢諾塔任務(wù)中,研究人員直接在提示詞中提供了完整的解題算法,要求模型僅僅是“執(zhí)行”這個(gè)算法。但模型的表現(xiàn)沒有任何改善,依然在相同的復(fù)雜度上崩潰。

蘋果論文引爭(zhēng)議:測(cè)試設(shè)計(jì)存在缺陷?

蘋果此次發(fā)布的論文在AI圈引發(fā)了不小的爭(zhēng)議。

AI研究者Lisan al Gaib在復(fù)現(xiàn)論文中的漢諾塔測(cè)試后發(fā)現(xiàn),模型根本不是因?yàn)橥评砟芰Σ患讯?,而是因?yàn)檩敵鰐oken限制。

也就是說(shuō),不是模型不會(huì)解答,而是無(wú)法輸出如此多的內(nèi)容。

GitHub軟件工程師Sean Goedecke稱,存在復(fù)雜性閾值并不意味著推理模型“實(shí)際上并不推理”。

Sean表示,即使沒有推理到第十一步,但前十步仍是在推理。“根據(jù)我自己測(cè)試的結(jié)果,模型很早就決定數(shù)百個(gè)算法步驟太多了,根本無(wú)法嘗試,因此它們干脆不開始。”

Sean舉了一個(gè)例子,“有多少人能坐下來(lái)正確地算出一千步漢諾塔?有很多人能做到,但也有很多做不到。那么,那些算不出答案的人就沒有推理能力嗎?當(dāng)然有!他們只是沒有足夠的認(rèn)真和耐心去手動(dòng)完成一千次算法的迭代。”

著名AI越獄提示詞專家Plenny the Liberator直言,如果我是蘋果CEO,看到我的團(tuán)隊(duì)發(fā)表一篇只專注于記錄當(dāng)前方法局限性的論文,我會(huì)當(dāng)場(chǎng)解雇所有參與者。

AI博主henry表示,“蘋果作為世界上最富有的公司,擁有無(wú)與倫比的優(yōu)勢(shì),全力押注人工智能,許下無(wú)數(shù)承諾,但被所有人瞬間超越。賽程已進(jìn)行兩年,卻一無(wú)所獲,于是寫了這篇論文說(shuō)這一切都是不重要的。”

WWDC在即,蘋果“酸了”?

圖片來(lái)源:蘋果官網(wǎng)截圖

部分觀點(diǎn)認(rèn)為,蘋果發(fā)布質(zhì)疑推理模型能力的論文是“吃不到葡萄說(shuō)葡萄酸”。

北京時(shí)間6月10日凌晨1點(diǎn),蘋果年度開發(fā)者大會(huì)(WWDC 2025)即將拉開帷幕。然而,外界普遍認(rèn)為,這次活動(dòng)在AI方面的進(jìn)展可能有限,備受期待的Siri升級(jí)也將繼續(xù)缺席。

據(jù)外媒報(bào)道,此次WWDC上蘋果在AI方面的更新不會(huì)帶來(lái)太多驚喜。科技記者馬克·古爾曼發(fā)文透露,蘋果今年WWDC中關(guān)于AI的內(nèi)容預(yù)計(jì)會(huì)比較少,甚至可能“令人失望”

在去年WWDC上發(fā)布蘋果智能(Apple Intelligence)時(shí),蘋果曾高調(diào)宣布對(duì)語(yǔ)音助手Siri進(jìn)行“徹底重構(gòu)”,新Siri應(yīng)該更聰明、更懂用戶、能夠理解并執(zhí)行復(fù)雜任務(wù)。然而,一年過(guò)去,Siri的升級(jí)卻遲遲未見實(shí)質(zhì)性進(jìn)展。

據(jù)多位前蘋果員工透露,蘋果AI領(lǐng)域的進(jìn)展不順,部分原因在于公司內(nèi)部領(lǐng)導(dǎo)風(fēng)格的差異和組織間的協(xié)作問題

另一方面,蘋果在AI領(lǐng)域的探索,也受到了技術(shù)路線選擇和隱私政策帶來(lái)的雙重影響。蘋果一直以來(lái)引以為傲的“隱私至上”原則,在AI時(shí)代給其帶來(lái)了一些新的負(fù)擔(dān)。一位熟悉蘋果AI和軟件開發(fā)工作的人表示:“在蘋果公司開發(fā)AI的過(guò)程中,做任何事情都可能遇到很多‘不’,你必須與負(fù)責(zé)隱私的部門反復(fù)溝通協(xié)調(diào)才能推進(jìn)工作。”

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

模型 蘋果 Ai

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

2

0

久久青草精品一区二区三区| www.色日| 久久成年片色大黄全免费| 日韩人妖网站| 我想看色四虎影院| 色爱人妻| 91久久精品一区二区三区色欲| 国产成人精品视频男男| 熟女网1| 色欲精品国产综合久久久亚洲日韩| 国产中文字幕无码av天堂| 黄包久久久久久毛片| aaaa在线视频| 大香蕉超碰人人| 亚洲中文字幕小说网站| 精品国产三级av| 人妻 chrv| 精品乱伦一区二区三区| 天天做天天干天天射| 国产精品一区二区午夜在线观看| 蜜桃视频一区高清视频| 亚洲精品国际| 欧美日韩欧美A一区二区三区| 午夜电影网免费观看一区二区三区| 久久久久久国产精品无码超碰 | 亚洲天堂无码免费观看| 色八区人妻在线视频| 久久久久久久久93| 亚洲少妇三区| 男人天堂欧美| 日韩在线一区二区不卡视频| 日韩一二区精品无码毛片| 六月婷婷导航福利在线| 国产在线一区观看| 色爱总何网| 国产最新乱伦无码视频| 久久另类小说| 国产亚洲日韩av在线| 黄色网址网站观看| 九色视频媒国产| 黄色成人影院在线观看|