&

公眾號(hào)

電子報(bào) 客戶端

DeepSeek論文登上《自然》封面，R1成為首個(gè)嚴(yán)格學(xué)術(shù)審查大模型

來源：界面新聞2025-09-18 10:24

9月18日，由DeepSeek（深度求索）團(tuán)隊(duì)共同完成、梁文鋒擔(dān)任通訊作者的DeepSeek-R1推理模型研究論文，登上了國(guó)際權(quán)威期刊《自然（Nature）》的封面。

DeepSeek R1成為首個(gè)通過同行評(píng)議的主要大語言模型，發(fā)表在《自然》雜志的新版DeepSeek-R1論文，與今年1月未經(jīng)同行評(píng)審的初版有較大差異。

在同行評(píng)議過程中，DeepSeek團(tuán)隊(duì)根據(jù)評(píng)審意見減少了對(duì)模型的擬人化描述，并增加了模型訓(xùn)練的技術(shù)細(xì)節(jié)說明，包括模型訓(xùn)練數(shù)據(jù)類型和安全性考慮等，并回應(yīng)了此前關(guān)于知識(shí)蒸餾的質(zhì)疑。

DeepSeek明確否認(rèn)了此前關(guān)于其使用OpenAI模型輸出進(jìn)行訓(xùn)練的質(zhì)疑。在長(zhǎng)達(dá)64頁的同行評(píng)審文件中，DeepSeek介紹，DeepSeek-V3 Base（DeepSeek-R1的基座模型）使用的數(shù)據(jù)全部來自互聯(lián)網(wǎng)，雖然可能包含GPT-4生成的結(jié)果，但絕非有意而為之，更沒有專門的蒸餾環(huán)節(jié)。

DeepSeek還透露，為了防止基準(zhǔn)測(cè)試數(shù)據(jù)污染，對(duì)DeepSeek-R1的預(yù)訓(xùn)練和后訓(xùn)練數(shù)據(jù)都實(shí)施了全面的去污染措施。

開源之后，R1在Hugging Face下載量破1090萬次，成為全球最受歡迎的開源推理模型。

DeepSeek首次公開了僅靠強(qiáng)化學(xué)習(xí)，就能激發(fā)大模型推理能力的重要研究成果，從而啟發(fā)全球AI研究者。DeepSeek R1的核心創(chuàng)新在于采用了“純強(qiáng)化學(xué)習(xí)”這一自動(dòng)化試錯(cuò)方法，R1通過獎(jiǎng)勵(lì)模型達(dá)到正確答案的行為來學(xué)習(xí)推理策略，而非傳統(tǒng)模仿人類預(yù)設(shè)的推理模式。

在補(bǔ)充材料中，DeepSeek團(tuán)隊(duì)還首次公開了R1訓(xùn)練成本僅為29.4萬美元。這個(gè)金額即使加上約600萬美元的基礎(chǔ)模型成本，也遠(yuǎn)低于OpenAI、谷歌訓(xùn)練AI的成本。

今年1月，當(dāng)DeepSeek R1模型發(fā)布時(shí)，其卓越的推理能力和極低的開發(fā)成本曾引發(fā)全球科技股大幅下跌。

作為全球首個(gè)通過同行評(píng)審的主流大語言模型，《自然》期刊不但將該篇論文作為封面論文，還在評(píng)論報(bào)道文章中用了“里程碑式論文揭示 DeepSeek AI 模型的秘密”、“創(chuàng)造歷史”表達(dá)贊賞和肯定，此次論文發(fā)表標(biāo)志著中國(guó)在大模型基礎(chǔ)研究領(lǐng)域取得重要突破。

在AI行業(yè)快速發(fā)展中，未經(jīng)證實(shí)的說法和炒作不在少數(shù)。《自然》雜志認(rèn)為，隨著AI技術(shù)日漸普及，大模型廠商們無法驗(yàn)證的宣傳可能對(duì)社會(huì)帶來真實(shí)風(fēng)險(xiǎn)。依靠獨(dú)立研究人員進(jìn)行的同行評(píng)審，是抑制AI行業(yè)過度炒作的一種有效方式。而DeepSeek所做的一切，是非常值得歡迎的先例。

8月21日，DeepSeek正式發(fā)布了最新大語言模型DeepSeek-V3.1。

據(jù)DeepSeek介紹，新升級(jí)版本的變化主要體現(xiàn)在三個(gè)方面：混合推理架構(gòu)、更高的思考效率、更強(qiáng)的Agent（智能體）能力。DeepSeek-V3.1實(shí)現(xiàn)了一個(gè)模型同時(shí)支持思考模式與非思考模式。

DeepSeek是2023年成立于杭州的人工智能公司，由幻方量化孵化。創(chuàng)始團(tuán)隊(duì)由梁文鋒領(lǐng)銜，成員來自頂尖高校與國(guó)際機(jī)構(gòu)技術(shù)專家。

責(zé)任編輯：陳勇洲

DeepSeek

梁文鋒

大語言模型

聲明：證券時(shí)報(bào)力求信息真實(shí)、準(zhǔn)確，文章提及內(nèi)容僅供參考，不構(gòu)成實(shí)質(zhì)性投資建議，據(jù)此操作風(fēng)險(xiǎn)自擔(dān)

下載“證券時(shí)報(bào)”官方APP，或關(guān)注官方微信公眾號(hào)，即可隨時(shí)了解股市動(dòng)態(tài)，洞察政策信息，把握財(cái)富機(jī)會(huì)。

網(wǎng)友評(píng)論

登錄后可以發(fā)言

發(fā)送