DeepSeek,打破歷史!中國AI的“Nature時刻”
來源:證券時報網作者:周春媚2025-09-18 20:37

中國大模型,首登Nature封面。

9月17日,在最新一期的國際權威期刊Nature(自然)中,DeepSeek-R1推理模型研究論文登上了封面。該論文由DeepSeek團隊共同完成,梁文鋒擔任通訊作者,首次公開了僅靠強化學習就能激發大模型推理能力的重要研究成果。這是中國大模型研究首次登上Nature封面,也是全球首個經過完整同行評審并發表于權威期刊的主流大語言模型研究,標志著中國AI技術在國際科學界獲得最高認可。

Nature在其社論中評價道:“幾乎所有主流的大模型都還沒有經過獨立同行評審,這一空白終于被DeepSeek打破。”

中國AI大模型的“Nature時刻”

自大模型浪潮席卷全球以來,技術發布、性能榜單層出不窮,但始終缺乏一個權威的“科學認證”機制。OpenAI、谷歌等巨頭雖屢有突破,但其核心技術多以技術報告形式發布,未經獨立同行評審。

DeepSeek以其公開性和透明性打破了這一局面。DeepSeek-R1模型的研究論文最早于今年年初發布在預印本平臺arXiv上。自今年2月14日向Nature投遞論文至今,歷經半年,8位外部專家參與了同行評審,DeepSeek-R1推理模型研究論文終獲發表,完成了從預印本到Nature封面的“學術躍遷”。審稿人不僅關注模型性能,更對數據來源、訓練方法、安全性等提出嚴格質詢,這一過程是AI模型邁向更高的透明度和可重復性的可喜一步。

因此,Nature也對DeepSeek的開放模式給予高度評價,在其社論中評價道:“幾乎所有主流的大模型都還沒有經過獨立同行評審,這一空白終于被DeepSeek打破。”全球知名開源社區Hugging Face機器學習工程師Lewis Tunstall也是DeepSeek論文的審稿人之一,他強調:“這是一個備受歡迎的先例。如果缺乏這種公開分享大部分研發過程的行業規范,我們將很難評估這些系統的潛在風險。”

據了解,DeepSeek本次在Nature上發表的論文較今年年初的初版論文有較大改動,全文64頁,不僅首次披露了R1的訓練成本,而且透露了更多模型訓練的技術細節,包括對發布初期外界有關“蒸餾”方法的質疑作出了正面回應,提供了訓練過程中減輕數據污染的詳細流程,并對R1的安全性進行了全面評估。

其中,在訓練成本方面,R1-Zero和R1都使用了512張H800GPU,分別訓練了198個小時和80個小時,以H800每GPU小時2美元的租賃價格換算,R1的總訓練成本為29.4萬美元(約合人民幣209萬元)。不到30萬美元的訓練成本,與其他推理模型動輒上千萬美元的花費相比,可謂實現了極大的降本。

關于R1發布最初時所受到的“蒸餾”質疑,DeepSeek介紹,其使用的數據全部來自互聯網,雖然可能包含GPT-4生成的結果,但并非有意而為之,更沒有專門的蒸餾環節。所謂“蒸餾”,簡單理解就是用預先訓練好的復雜模型輸出的結果,作為監督信號再去訓練另外一個模型。R1發布時,OpenAI稱它發現DeepSeek使用了OpenAI專有模型來訓練自己的開源模型的證據,但拒絕進一步透露其證據的細節。

R2何時問世引發關注

自今年年初發布R1以來,DeepSeek在全球樹立了開源模型的典范,但過去數月,外界對于R2何時發布始終保持高度關注,相關傳言一直不斷。不過,R2的發布時間一再推遲,外界分析R2研發進程緩慢可能與算力受限有關。

值得注意的是,今年8月21日,DeepSeek正式發布DeepSeek-V3.1,稱其為“邁向Agent(智能體)時代的第一步”。據DeepSeek介紹,V3.1主要包含三大變化:一是采用混合推理架構,一個模型同時支持思考模式與非思考模式;二是具有更高的思考效率,能在更短時間內給出答案;三是具有更強的智能體能力,通過后訓練優化,新模型在工具使用與智能體任務中的表現有較大提升。

由于R1的基座模型為V3,V3.1的升級也引發了外界對于R2“在路上”的猜測。V3.1的升級更深刻的意義在于,DeepSeek強調DeepSeek-V3.1使用了UE8M0 FP8 Scale的參數精度,而UE8M0 FP8是針對即將發布的下一代國產芯片設計。這也表明未來基于DeepSeek模型的訓練與推理有望更多應用國產AI芯片,助力國產算力生態加速建設。這一表態一度帶動國產芯片算力股股價飆升。

中國銀河證券研報指出,DeepSeek從V3版本就開始采用FP8參數精度驗證了其訓練的有效性,通過降低算力精度,使國產ASIC芯片能在成熟制程(12-28nm)上接近先進制程英偉達GPU的算力精度,DeepSeek-V3.1使用UE8M0 FP8 Scale參數精度,讓軟件去主動擁抱硬件更喜歡的數據格式,“軟硬協同”的生態技術壁壘逐漸成為AI浪潮下新范式,未來國產大模型將更多擁抱FP8算力精度并有望成為一種新技術趨勢,通過軟硬件的協同換取數量級性能的提升,國產算力芯片將迎來變革。

來源:證券時報

責編:岳亞楠

校對:王朝全

責任編輯: 孫孝熙
聲明:證券時報力求信息真實、準確,文章提及內容僅供參考,不構成實質性投資建議,據此操作風險自擔
下載“證券時報”官方APP,或關注官方微信公眾號,即可隨時了解股市動態,洞察政策信息,把握財富機會。
網友評論
登錄后可以發言
發送
網友評論僅供其表達個人看法,并不表明證券時報立場
暫無評論
為你推薦
時報熱榜
換一換
    熱點視頻
    換一換
    激情五月中文不卡,欧美无砖专区一中文字,久久亚洲精品影院,免费99精品国产自在现线观看
    日韩中文字幕美少妇视频 | 中文有码国产精品欧美激情 | 亚洲一区二区三区中文字幕网 | 亚洲一线免费观看 | 亚洲综合天堂Av网站在线观看 | 一区二区三区国产日韩 |