6月26日,科大訊飛語音合成技術迎來全新升級,一句話聲音復刻與超擬人合成兩大核心能力實現突破。專業測評數據顯示,公司一句話聲音復刻技術在相似度、準確度等維度處于行業領先水平。
科大訊飛研究院院長劉聰表示:“我們希望聲音不止于工具,更成為承載情感與個性的新維度,賦能更多場景行業、催生更多可能。”
2024年4月,訊飛星火APP上線“一句話聲音復刻”功能,廣受用戶好評。本次技術突破,除星火語音大模型底座的基礎和持續迭代外,還構建了一套三階段層次化語音建模框架:首先通過星火底座大模型精確捕捉發音規律和韻律特征;其次,在音色恢復階段解耦并重構聲學特征;最后,通過高精度聲碼器恢復高保真波形。
據悉,在智能語音領域,聲音復刻效果的核心指標圍繞相似度與準確度兩大維度展開。相似度決定“第一耳印象”,包含音色特質及風格韻味;準確度則關乎聲音復刻是否好用,確保發音標準、停頓自然、語氣連貫。
本次科大訊飛在聲音復刻場景針對性進行兩項關鍵技術的嘗試與突破,一是音色編碼增強,即在聲學模型中創新性地融合全局聲紋嵌入與局部幀級音色編碼,提取細粒度音色特征,并構建聲紋空間語義一致性損失函數,顯著提升音色恢復的相似度;二是強化學習,通過語音魯棒性評價模型和人工標注構建偏好數據集,采用基于DPO的強化學習策略,大幅提升合成語音的穩定性和自然流暢度。
從曾經要錄上數十個小時的語音素材,到錄入幾段話,再到現在僅用一句話就能復刻聲音,語音合成技術一直在向更快、更好、更易用的方向進階。業內人士表示,一句話復刻技術的突破,顯著降低了應用門檻,在AI賦能千行百業的大背景下,讓更多的場景和行業衍生出更多的個性化需求。
值得一提的是,在需要深入交流的場景里,僅有相似音色并不足夠。科大訊飛本次突破的超擬人合成技術,重點是賦予AI聲音以“上下文情商”。通過研發上下文感知的語音生成系統,融合歷史文本及對應音頻特征,實現跨模態編碼器分析上下文,讓AI聲音能像真人一般敏銳響應情緒轉變和話題轉換,整體自然度接近真人水平。
當前,科大訊飛AI語音技術已在各行各業落地生根,其中智能座艙領域應用成果最為顯著。今年初,蔚來在“Banyan 榕 3.1.0版本”中為NOMI助手引入的超擬人情感音色,正源于科大訊飛的深度賦能,搭載該技術的蔚來新車型(如ET9、新ES6/EC6/ET5系列等),成為行業首款應用AI生成式語音合成框架的車型。除蔚來外,奇瑞、廣汽、長城、日產、本田等主流車企均選擇了訊飛超擬人技術。
其他行業方面,星火語音大模型技術底座已服務全國5萬余所學校、600家醫院及眾多金融機構。
在教育領域,星火大模型賦能的AI學習機已能像真人教師般開展多輪對話診斷學情,為學生定制個性化學習路徑;在數字內容創作領域,訊飛智作平臺的超擬人數字人技術實現“一張照片+一句話錄音”定制專屬虛擬人,該技術已幫助天津大學教師打造慕課個人IP,簡化教學視頻制作流程;在醫療領域,搭載情感合成技術的導診機器人使用方言與老年患者交流時,對話自然度提升200%。