少妇流白浆普通话对白,亚洲成人片高澎,男女进式猛XⅩ〇〇,99人妻无码一区二区三区免费

每日經(jīng)濟新聞
要聞

每經(jīng)網(wǎng)首頁 > 要聞 > 正文

重磅!華為發(fā)布準萬億大模型

每日經(jīng)濟新聞 2025-05-30 19:34:51

華為近日推出參數(shù)規(guī)模高達7180億的盤古Ultra MoE模型,這是一個在昇騰AI計算平臺上訓練的準萬億MoE模型。針對訓練超大規(guī)模MoE模型的挑戰(zhàn),盤古團隊在模型架構(gòu)和訓練方法上進行了創(chuàng)新性設計,實現(xiàn)了全流程訓練。該模型的發(fā)布證明了華為在國產(chǎn)AI算力平臺上能高效、穩(wěn)定地訓練并優(yōu)化超大規(guī)模稀疏模型,實現(xiàn)了“全棧國產(chǎn)化”和“全流程自主可控”的閉環(huán)。業(yè)內(nèi)人士分析,這為中國人工智能產(chǎn)業(yè)的發(fā)展提供了有力支持。

每經(jīng)編輯|張錦河    

據(jù)證券時報5月30日消息,近日,華為在MoE模型訓練領域再進一步,推出參數(shù)規(guī)模高達7180億的全新模型——盤古Ultra MoE,這是一個全流程在昇騰AI計算平臺上訓練的準萬億MoE模型。華為同時發(fā)布盤古Ultra MoE模型架構(gòu)和訓練方法的技術報告,披露眾多技術細節(jié),充分體現(xiàn)了昇騰在超大規(guī)模MoE訓練性能上的跨越。

據(jù)悉,訓練超大規(guī)模和極高稀疏性的MoE模型極具挑戰(zhàn),訓練過程中的穩(wěn)定性往往難以保障。針對這一難題,盤古團隊在模型架構(gòu)和訓練方法上進行了創(chuàng)新性設計,成功地在昇騰平臺上實現(xiàn)了準萬億MoE模型的全流程訓練。

圖片來源:每日經(jīng)濟新聞 資料圖

券商中國報道,業(yè)內(nèi)人士分析,華為盤古Ultra MoE和盤古Pro MoE系列模型的發(fā)布,證明華為不僅完成了國產(chǎn)算力+國產(chǎn)模型的全流程自主可控的訓練實踐,同時在集群訓練系統(tǒng)的性能上也實現(xiàn)了業(yè)界領先。這意味著國產(chǎn)AI基礎設施的自主創(chuàng)新能力得到了進一步驗證,為中國人工智能產(chǎn)業(yè)的發(fā)展提供了一顆“定心丸”。

國產(chǎn)算力與國產(chǎn)模型重大突破

據(jù)悉,訓練超大規(guī)模和極高稀疏性的MoE模型極具挑戰(zhàn),訓練過程中的穩(wěn)定性往往難以保障。針對這一難題,華為盤古團隊在模型架構(gòu)和訓練方法上進行了創(chuàng)新性設計,成功地在昇騰平臺上實現(xiàn)了準萬億MoE模型的全流程訓練。

在模型架構(gòu)上,盤古團隊提出Depth-Scaled Sandwich-Norm(DSSN)穩(wěn)定架構(gòu)和TinyInit小初始化的方法,在昇騰平臺上實現(xiàn)了超過18TB數(shù)據(jù)的長期穩(wěn)定訓練。此外,他們還提出了EP loss負載優(yōu)化方法,這一設計不僅保證了各個專家之間的能保持較好的負載均衡,也提升了專家的領域特化能力。同時,盤古Ultra MoE使用了業(yè)界先進的MLA和MTP架構(gòu),在預訓練和后訓練階段都使用了Dropless訓練策略,實現(xiàn)了超大規(guī)模MoE架構(gòu)在模型效果與效率之間的最佳平衡。

在訓練方法上,華為團隊首次披露在昇騰CloudMatrix 384超節(jié)點上,高效打通大稀疏比MoE強化學習(RL)后訓練框架的關鍵技術,使RL后訓練進入超節(jié)點集群時代。同時,在5月初發(fā)布的預訓練系統(tǒng)加速技術基礎上,在不到一個月的時間內(nèi),華為團隊又完成了一輪迭代升級,包括:適配昇騰硬件的自適應流水掩蓋策略,進一步優(yōu)化算子執(zhí)行程序,進一步降低Host-Bound以及提升EP通信的掩蓋;自適應管理內(nèi)存優(yōu)化策略的開發(fā);數(shù)據(jù)重排實現(xiàn)DP間Attention負載均衡;以及昇騰親和的算子優(yōu)化,這些技術實現(xiàn)萬卡集群預訓練MFU由30%大幅提升至 41%。

此外,近期發(fā)布的盤古Pro MoE大模型,在參數(shù)量僅為720億、激活160億參數(shù)量的情況下,通過動態(tài)激活專家網(wǎng)絡的創(chuàng)新設計,實現(xiàn)了以小打大的優(yōu)異性能,甚至可以媲美千億級模型的性能表現(xiàn)。在業(yè)界權威大模型榜單SuperCLUE最新公布的2025年5月排行榜上,位居千億參數(shù)量以內(nèi)大模型排行并列國內(nèi)第一。

業(yè)內(nèi)人士分析,華為此舉的核心意義在于,證明了在國產(chǎn)AI算力平臺(昇騰)上,能夠高效、穩(wěn)定地訓練并優(yōu)化達到國際頂尖水平的超大規(guī)模稀疏模型(MoE),實現(xiàn)了從硬件到軟件、從訓練到優(yōu)化、從基礎研究到工程落地的“全棧國產(chǎn)化”和“全流程自主可控”的閉環(huán),并在關鍵性能指標上達到業(yè)界領先水平。

DeepSeek、騰訊大模型也有新消息

除了華為以外,其他國產(chǎn)大模型近日也傳來新消息。

5月29日凌晨,DeepSeek-R1-0528正式在Hugging Face平臺開源。此前一日(5月28日),DeepSeek官方宣布DeepSeek-R1模型已完成小版本試升級,用戶可通過官方網(wǎng)頁、App、小程序進行測試(打開深度思考),API接口和使用方式保持不變。

在此次更新中,模型代碼能力的提升最為顯著。知名代碼測試平臺LiveCodeBench顯示,更新后的R1性能可以媲美OpenAI o3模型的高版本。

除代碼能力外,R1新版本模型的文本理解與推理能力亦實現(xiàn)跨越式升級。其上下文長度拓展至128k,長文本提取的準確率也有顯著提升。

另據(jù)央廣網(wǎng),5月21日,在2025騰訊云AI產(chǎn)業(yè)應用峰會上,騰訊大模型戰(zhàn)略首次全景亮相,從自研的混元大模型、到AI云基礎設施,再到智能體開發(fā)工具、知識庫以及面向場景的應用,騰訊大模型矩陣產(chǎn)品全面升級。騰訊正通過持續(xù)打磨技術和產(chǎn)品能力,為企業(yè)和用戶在大模型時代打造真正“好用的 AI”。

騰訊集團高級執(zhí)行副總裁、云與智慧產(chǎn)業(yè)事業(yè)群CEO湯道生表示,隨著AI的持續(xù)落地,每個企業(yè)都將成為AI公司;每個人都將是AI加持的“超級個體”。

每日經(jīng)濟新聞綜合自證券時報、券商中國、央廣網(wǎng)、每日經(jīng)濟新聞(記者:宋欣悅

免責聲明:本文內(nèi)容與數(shù)據(jù)僅供參考,不構(gòu)成投資建議,使用前請核實。據(jù)此操作,風險自擔。

封面圖片來源:視覺中國-VCG211550173673

如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權,嚴禁轉(zhuǎn)載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

模型 Ai 華為

歡迎關注每日經(jīng)濟新聞APP

每經(jīng)經(jīng)濟新聞官方APP

0

0

AV无码一区二区乱子伦| 亚洲精品区中文字幕乱| 2020精品无码| 最新国产三级在线观看| 亚洲日本在线中文字幕dvd| 国产精品一区二区三区Av| 日韩欧美亚洲a| 爆乳波霸AV一区二区| 亚洲无码国产精品久久综合| 一区二区无码在线观看| 果冻国产成人AV在线| 综合在线网站国产欧美| 寂寞少妇一区二区三区| 四虎2021新入口| 外国毛片网| 久久免费观看激情一级视频| 综合日韩中文字幕| 思思re久久精品66在热线热| 四虎影院之中文字幕| 精品亚洲v国产房车在线观看| 欧美午夜精品久久久久免费视| 欧美一区艳情三纹| 最新国产精品美女av| 日韩国产欧美精品在线| 天天糙夜夜夜糙| 依人成人网站| 国外爽片免费| 一本一道久久a久久综合精品| 一牛影视一区视频在线| 奇米三区免费视频| 黑人黄片视频观看| 911A片成人久久影院| 国产欧美视频综合二区| 久久精品免费看国产一区| 久热爱视频| 国产精品v免费视频| 国产AV高清久久久精品| AV无码久久久久不卡网站下载 | 日韩av在线直接观看| 国产精品亚洲第一| 一本久道久久综合|