9月18日,由DeepSeek(深度求索)團(tuán)隊(duì)共同完成、梁文鋒擔(dān)任通訊作者的DeepSeek-R1推理模型研究論文,登上了國(guó)際權(quán)威期刊《自然(Nature)》的封面。
DeepSeek R1成為首個(gè)通過同行評(píng)議的主要大語言模型,發(fā)表在《自然》雜志的新版DeepSeek-R1論文,與今年1月未經(jīng)同行評(píng)審的初版有較大差異。
在同行評(píng)議過程中,DeepSeek團(tuán)隊(duì)根據(jù)評(píng)審意見減少了對(duì)模型的擬人化描述,并增加了模型訓(xùn)練的技術(shù)細(xì)節(jié)說明,包括模型訓(xùn)練數(shù)據(jù)類型和安全性考慮等,并回應(yīng)了此前關(guān)于知識(shí)蒸餾的質(zhì)疑。
DeepSeek明確否認(rèn)了此前關(guān)于其使用OpenAI模型輸出進(jìn)行訓(xùn)練的質(zhì)疑。在長(zhǎng)達(dá)64頁的同行評(píng)審文件中,DeepSeek介紹,DeepSeek-V3 Base(DeepSeek-R1的基座模型)使用的數(shù)據(jù)全部來自互聯(lián)網(wǎng),雖然可能包含GPT-4生成的結(jié)果,但絕非有意而為之,更沒有專門的蒸餾環(huán)節(jié)。
DeepSeek還透露,為了防止基準(zhǔn)測(cè)試數(shù)據(jù)污染,對(duì)DeepSeek-R1的預(yù)訓(xùn)練和后訓(xùn)練數(shù)據(jù)都實(shí)施了全面的去污染措施。
開源之后,R1在Hugging Face下載量破1090萬次,成為全球最受歡迎的開源推理模型。
DeepSeek首次公開了僅靠強(qiáng)化學(xué)習(xí),就能激發(fā)大模型推理能力的重要研究成果,從而啟發(fā)全球AI研究者。DeepSeek R1的核心創(chuàng)新在于采用了“純強(qiáng)化學(xué)習(xí)”這一自動(dòng)化試錯(cuò)方法,R1通過獎(jiǎng)勵(lì)模型達(dá)到正確答案的行為來學(xué)習(xí)推理策略,而非傳統(tǒng)模仿人類預(yù)設(shè)的推理模式。
在補(bǔ)充材料中,DeepSeek團(tuán)隊(duì)還首次公開了R1訓(xùn)練成本僅為29.4萬美元。這個(gè)金額即使加上約600萬美元的基礎(chǔ)模型成本,也遠(yuǎn)低于OpenAI、谷歌訓(xùn)練AI的成本。
今年1月,當(dāng)DeepSeek R1模型發(fā)布時(shí),其卓越的推理能力和極低的開發(fā)成本曾引發(fā)全球科技股大幅下跌。
作為全球首個(gè)通過同行評(píng)審的主流大語言模型,《自然》期刊不但將該篇論文作為封面論文,還在評(píng)論報(bào)道文章中用了“里程碑式論文揭示 DeepSeek AI 模型的秘密”、“創(chuàng)造歷史”表達(dá)贊賞和肯定,此次論文發(fā)表標(biāo)志著中國(guó)在大模型基礎(chǔ)研究領(lǐng)域取得重要突破。
在AI行業(yè)快速發(fā)展中,未經(jīng)證實(shí)的說法和炒作不在少數(shù)。《自然》雜志認(rèn)為,隨著AI技術(shù)日漸普及,大模型廠商們無法驗(yàn)證的宣傳可能對(duì)社會(huì)帶來真實(shí)風(fēng)險(xiǎn)。依靠獨(dú)立研究人員進(jìn)行的同行評(píng)審,是抑制AI行業(yè)過度炒作的一種有效方式。而DeepSeek所做的一切,是非常值得歡迎的先例。
8月21日,DeepSeek正式發(fā)布了最新大語言模型DeepSeek-V3.1。
據(jù)DeepSeek介紹,新升級(jí)版本的變化主要體現(xiàn)在三個(gè)方面:混合推理架構(gòu)、更高的思考效率、更強(qiáng)的Agent(智能體)能力。DeepSeek-V3.1實(shí)現(xiàn)了一個(gè)模型同時(shí)支持思考模式與非思考模式。
DeepSeek是2023年成立于杭州的人工智能公司,由幻方量化孵化。創(chuàng)始團(tuán)隊(duì)由梁文鋒領(lǐng)銜,成員來自頂尖高校與國(guó)際機(jī)構(gòu)技術(shù)專家。