5月15日,量化私募念空科技向國際頂會NIPS(Neural Information Processing Systems,神經信息處理系統大會)投遞了與上海交大計算機學院合作的大模型研究論文,有業內人士認為,這是中國量化機構首次在AI基礎研究領域挑戰全球頂級學術舞臺,標志著中國金融科技不止于“應用落地”,還具備“底層創新”能力。
(圖片來源:論文截圖)
大模型底層理論獲突破
據了解,念空科技成立于2015年,是市場上較早將AI應用于金融領域的量化私募,機器學習應用的數據范圍從期貨到股票,不斷地擬合、嘗試。2019年,幾乎全部轉向神經網絡算法,2020年起,念空科技在此基礎上搭建全流程投研平臺,次年管理規模已突破百億元。
事實上,2021年起,量化私募在幾家知名機構的引領下,越發被市場所熟知,實現從0到1的質變,AI模型與算力競爭正重塑著行業。
2023年,OpenAI的ChatGPT橫空出世,在念空科技創始人王嘯看來,與傳統機器學習和深度學習算法對金融數據進行擬合不同,大模型對下一個token的預測本質上是一個自回歸問題,大模型的出現提供了量化行業一個全新的算法工具。但ChatGPT的問題是使用成本較高,且使用權限較低,很難進行大規模訓練。
今年,DeepSeek因其開源的特征打破多種限制,實現“智能平權”,同時讓世人看到強化學習對大模型的推理能力至關重要。此前,DeepSeek將整個訓練過程被分成監督微調(sft)—強化學習(rl)—監督微調(sft)—強化學習(rl)四個過程,像是集中一段時間學習刷題(sft),在集中一段時間參加考試對考試結果進行思考總結(rl)。
念空科技所遞交的念空大模型論文的突破性成果在于,從人類的學習方法的經驗得到啟發,如果高頻的在少量刷題和小測試經驗總結之間切換,可能更有利于學習成績(推理能力)的提高,故設計了一種step by step切換sft和rl的訓練方法,在下一個step訓練之前根據設計的自適應的算法決定下一個step用sft還是rl,最終實驗發現,在三個不同的公開數據集上,念空科技提出的新的訓練框架明顯優于單獨的sft、單獨的rl以及簡單混合sft和rl,證明提出的新的框架是當下更優的后訓練方式。通俗的說,念空的研究成果可以幫助大模型在同等訓練量下變得更聰明。
(圖片來源:論文截圖)
不斷探索AI技術邊界
為了具體問題的技術研究和模型優化,王嘯在2025年成立了AllMind,專注于研究通用大語言模型(LLM)相關底層算法和工程技術。
據介紹,AllMind,全稱為“上海全頻思維人工智能科技有限公司”,簡稱“全頻思維”,是由一家量化私募孵化的在大模型領域產出真正研究成果團隊。AllMind致力于探索人工智能的前沿課題,主要研究方向為大模型底層技術研究和不限于金融場景的垂直應用。
與念空科技主攻金融垂直場景不同,AllMind的定位為高質量CoT數據生產方向的學術探索,包括大模型通用領域的研究工作也有金融場景的垂直應用,希望在AI的基礎研究有所突破從而輻射到包括金融在內的更多領域,為業務提供更多的可能性和想象空間。
此外,據介紹,念空是量化私募基金,盈利企業,而AllMind更著眼于大模型的基礎學術研究和應用,短期內并不以盈利為目的,且兩家公司工作內容完全不同。
國際AI格局有望重構
優秀的個人只能決定你的下限,而優秀的團隊才能決定你的上限,尤其是對于量化投資這種環節眾多、嚴謹的投研模式來說,團隊合作顯得尤為重要。在該投研體系下,念空科技的研究部門可以專心做研究工作,技術部門專心做IT工作,每個人都在自己的崗位上做深做細,共同推進整個公司研發能力。
值得一提的是,與一般的金融機構招聘不同,量化投資的門檻往往較高,通常是數學、統計學、金融學、計算機技術的結合,通過挖掘海量數據、尋找規律、作出預測,并使用這個規律進行自動的計算和決策,需要克服人性弱點。
對于核心人才的選擇,念空科技更愿意從零開始培養,公司團隊70%—80%的AI工程師都是從高校實習生或是應屆生招進來,在幾個月的時間里,他們會使用公司的體系、規則,公司逐步就能判斷這個人是否適合念空科技。
DeepSeek的開源讓大模型技術突破西方封鎖,讓“智能平權”。此次,念空科技與上海交大計算機學院合作的大模型研究論文,讓念空科技用實際行動再次證明量化團隊對AI算法的長期積累,具備大模型孵化器的能力,可以在AI領域貢獻一份力量,更多的量化團隊加入大模型的理論研究有助于提升中國在國際AI領域的話語權,也能為中國AI產業在全球競爭中贏得優勢奠定堅實的基礎。
未來,隨著念空科技持續加大在AI基礎研究與應用開發的投入,其在社會價值創造與國際科技競爭中的表現值得期待。念空科技正以創新為驅動,引領中國量化投資與AI技術走向更加輝煌的未來。(CIS)
校對:冉燕青