每日經(jīng)濟新聞 2025-02-14 21:17:20
2月10日,清華大學KVCache.AI團隊聯(lián)合趨境科技發(fā)布的KTransformers開源項目迎來重大更新,成功打破大模型推理算力門檻。此前,擁有671B參數(shù)的MoE架構(gòu)大模型DeepSeek-R1在推理時困難重重。推理服務器常因高負荷宕機,專屬版云服務器按GPU小時計費的高昂成本讓中小團隊無力承擔,而市面上的“本地部署”方案多為參數(shù)量大幅縮水的蒸餾版,在本地小規(guī)模硬件上運行滿血版 DeepSeek-R1 被認為幾乎不可能。
此次KTransformers項目更新帶來重大突破,支持在24G顯存(4090D)的設備上本地運行 DeepSeek-R1、V3的671B滿血版。其預處理速度最高可達286 tokens/s,推理生成速度最高能達到14 tokens/s。甚至有開發(fā)者借助這一優(yōu)化技術,在3090顯卡和200GB內(nèi)存的配置下,使Q2_K_XL模型的推理速度達到9.1 tokens/s,實現(xiàn)了千億級模型的 “家庭化” 運行。
此外,該項目v0.3預覽版還將整合Intel AMX指令集,進一步提升CPU預填充速度,最高至286 tokens/s,相比llama.cpp快了近28倍,為長序列任務帶來秒級響應。同時,KTransformers提供兼容Hugginface Transformers的API與ChatGPT式Web界面,降低上手難度,其基于YAML的“模板注入框架”可靈活切換多種優(yōu)化方式。
如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權,嚴禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關注每日經(jīng)濟新聞APP