由DeepSeek團隊共同完成、梁文鋒擔任作者的DeepSeek-R1推理模型研究論文,登上國際權威期刊《自然》(Nature)的封面。DeepSeek-R1也是全球首個經同行評審的主流大語言模型。
2025年被業界稱為「AI智能體元年」。1月份,DeepSeek在arxiv平台公佈論文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》,40歲的DeepSeek創辦人梁文鋒是作者之一。
DeepSeek-R1推理模型研究論文,登上國際權威期刊《自然》(Nature)封面。
《自然》雜誌總結DeepSeek-R1帶來的進步,就是如果訓練出的大模型能夠規劃解決問題所需的步驟,那它們往往能更好地解決問題。這種「推理」與人類處理更複雜問題的方式類似,但對人工智能是極大挑戰,需人工干預來添加標籤和註釋。DeepSeek的研究人員揭示了他們如何能在極少的人工輸入下訓練一個模型,使其進行推理。
DeepSeek-R1模型採用強化學習進行訓練。在這種學習中,模型正確解答數學問題時會獲得高分獎勵,答錯則會受懲罰。最終它學會了推理——逐步解決問題,並揭示這些步驟,更有可能得出正確答案。這使得DeepSeek-R1能夠自我驗證和自我反思,在給出新問題的答案之前,檢查其性能,從而提高其在程式設計和研究生水平科學問題上的表現。
《自然》的社論指,大型語言模型需同儕審查,認為大型語言模型(LLMs)正迅速顛覆人類獲取知識的方式,但最廣泛使用的這些模型尚未在研究期刊中接受獨立同儕審查。同儕審查有助於澄清LLMs的工作原理,並幫助評估它們是否真正實現其聲稱的功能,但這情況隨著《自然》發表DeepSeek-R1模型細節而改變。
DeepSeek創辦人梁文鋒是論文作者之一。
《自然》指,自從1月在「開源模型集散地」Hugging Face上發布R1以來,DeepSeek-R1已奪得該平台複雜問題解決類模型下載量冠軍。現時該模型已由8位專家評審其工作的原創性、方法論和穩健性。該論文將與審查者報告和作者回應一同發表。
《自然》說:「這一切都是AI產業邁向透明度和可重複性的可喜一步」、「依賴獨立研究者的同儕審查是AI產業回擊炒作的一種方式。鑑於這項技術已變得如此普遍,無法驗證的聲明對社會構成真正風險,希望出於這原因,更多AI公司將提交其模型接受評審。」
論文摘要表示,推理能力作為人類智慧的基石,能夠支援從數學問題求解、邏輯演繹到程式編寫等複雜認知任務。人工智能領域的最新進展表明,當大型語言模型(LLMs)的規模達到足夠程度時,能展現出包括推理能力在內的湧現性特徵,然而要在預訓練階段實現這類能力,通常需耗費大量計算資源。
而其研究旨在探索大型語言模型在強化學習(RL)框架下,透過自我進化發展推理能力的潛力,同時最大限度地減少對人工標註的依賴。
具體而言,以DeepSeek-V3Base模型為基礎,採用群體相對策略最佳化(GRPO)作強化學習架構。獎勵訊號僅依據最終預測結果與真實答案的一致性來決定,不對推理過程本身施加任何約束。
在解決推理問題時,模型傾向於產生更長的反應內容,在每個回應中融入驗證、反思及對多種替代方法的探索,儘管未明確教授模型如何進行推理,但它透過強化學習,成功掌握更優的推理策略。
今年1月20日,DeepSeek推出大模型DeepSeek-R1引爆AI行業,作為一款開源模型,R1在數學、代碼、自然語言推理等任務上的性能,均能比媲美OpenAI o1模型正式版,並採用MIT許可協議,支持免費、任意修改和衍生開發等。
之後,國內多家產業龍頭均宣布接入DeepSeek。現時,DeepSeek已更新出R1以外的新版本,但萬眾期待的R2尚未面世。
DeepSeek今年8月發表V3.1,邁向智能體時代的第一步。
8月21日DeepSeek正式發表DeepSeek-V3.1,稱其為「邁向Agent(智能體)時代的第一步」。V3.1包含3大主要變化:首先,採用混合推理架構,一個模型同時支持思考與非思考模式;其次,V3.1具更高的思考效率,相比DeepSeek-R1-0528,DeepSeek-V3.1-Think能在更短時間內給出答案;第三,V3.1具更強的Agent能力,通過Post-Training優化,新模型在工具使用與智能體任務中的表現有較大提升。
DeepSeek表示,V3.1使用UE8M0FP8Scale的參數精確度,是針對即將發表的下一代國產芯片設計,這也顯示未來基於DeepSeek模型的訓練與推理有望更多應用國產AI芯片,助力國產算力生態加速建設。
據外媒報導,DeepSeek被曝光正開發具備更先進的AI智能體相關功能的人工智能模型,目的是與OpenAI等巨擘在技術新前沿展開競爭。目前梁文鋒計畫今年第四季發布相關智能體產品。
外媒又引述消息稱,DeepSeek正開發的智能體強調自主任務處理能力,與傳統聊天機器人不同,智能體能夠代表用戶在最少指令下完成多步驟複雜任務,並根據歷史操作持續學習和改進,減少人工干預需求。
毛拍手
** 博客文章文責自負,不代表本公司立場 **