Skip to Content Facebook Feature Image

DeepSeek研究論文登權威期刊《自然》封面 梁文鋒榜上有名

博客文章

DeepSeek研究論文登權威期刊《自然》封面 梁文鋒榜上有名
博客文章

博客文章

DeepSeek研究論文登權威期刊《自然》封面 梁文鋒榜上有名

2025年09月18日 16:31 最後更新:16:50

由DeepSeek團隊共同完成、梁文鋒擔任作者的DeepSeek-R1推理模型研究論文,登上國際權威期刊《自然》(Nature)的封面。DeepSeek-R1也是全球首個經同行評審的主流大語言模型。

2025年被業界稱為「AI智能體元年」。1月份,DeepSeek在arxiv平台公佈論文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》,40歲的DeepSeek創辦人梁文鋒是作者之一。

DeepSeek-R1推理模型研究論文,登上國際權威期刊《自然》(Nature)封面。

DeepSeek-R1推理模型研究論文,登上國際權威期刊《自然》(Nature)封面。

《自然》雜誌總結DeepSeek-R1帶來的進步,就是如果訓練出的大模型能夠規劃解決問題所需的步驟,那它們往往能更好地解決問題。這種「推理」與人類處理更複雜問題的方式類似,但對人工智能是極大挑戰,需人工干預來添加標籤和註釋。DeepSeek的研究人員揭示了他們如何能在極少的人工輸入下訓練一個模型,使其進行推理。

DeepSeek-R1模型採用強化學習進行訓練。在這種學習中,模型正確解答數學問題時會獲得高分獎勵,答錯則會受懲罰最終它學會了推理——逐步解決問題,並揭示這些步驟,更有可能得出正確答案。這使得DeepSeek-R1能夠自我驗證和自我反思,在給出新問題的答案之前,檢查其性能,從而提高其在程式設計和研究生水平科學問題上的表現。

《自然》的社論指,大型語言模型需同儕審查,認為大型語言模型(LLMs)正迅速顛覆人類獲取知識的方式,但最廣泛使用的這些模型尚未在研究期刊中接受獨立同儕審查。同儕審查有助於澄清LLMs的工作原理,並幫助評估它們是否真正實現其聲稱的功能,但這情況隨著《自然》發表DeepSeek-R1模型細節而改變。

DeepSeek創辦人梁文鋒是論文作者之一。

DeepSeek創辦人梁文鋒是論文作者之一。

《自然》指,自從1月在「開源模型集散地」Hugging Face上發布R1以來,DeepSeek-R1已奪得該平台複雜問題解決類模型下載量冠軍。現時該模型已由8位專家評審其工作的原創性、方法論和穩健性。該論文將與審查者報告和作者回應一同發表。

《自然》說:「這一切都是AI產業邁向透明度和可重複性的可喜一步」、「依賴獨立研究者的同儕審查是AI產業回擊炒作的一種方式。鑑於這項技術已變得如此普遍,無法驗證的聲明對社會構成真正風險,希望出於這原因,更多AI公司將提交其模型接受評審。」

論文摘要表示,推理能力作為人類智慧的基石,能夠支援從數學問題求解、邏輯演繹到程式編寫等複雜認知任務。人工智能領域的最新進展表明,當大型語言模型(LLMs)的規模達到足夠程度時,能展現出包括推理能力在內的湧現性特徵,然而要在預訓練階段實現這類能力,通常需耗費大量計算資源。

而其研究旨在探索大型語言模型在強化學習(RL)框架下,透過自我進化發展推理能力的潛力,同時最大限度地減少對人工標註的依賴。

具體而言,以DeepSeek-V3Base模型為基礎,採用群體相對策略最佳化(GRPO)作強化學習架構。獎勵訊號僅依據最終預測結果與真實答案的一致性來決定,不對推理過程本身施加任何約束。

在解決推理問題時,模型傾向於產生更長的反應內容,在每個回應中融入驗證、反思及對多種替代方法的探索,儘管未明確教授模型如何進行推理,但它透過強化學習,成功掌握更優的推理策略。

今年1月20日,DeepSeek推出大模型DeepSeek-R1引爆AI行業,作為一款開源模型,R1在數學、代碼、自然語言推理等任務上的性能,均能比媲美OpenAI o1模型正式版,並採用MIT許可協議,支持免費、任意修改和衍生開發等。

之後,國內多家產業龍頭均宣布接入DeepSeek。現時,DeepSeek已更新出R1以外的新版本,但萬眾期待的R2尚未面世。

DeepSeek今年8月發表V3.1,邁向智能體時代的第一步。

DeepSeek今年8月發表V3.1,邁向智能體時代的第一步。

8月21日DeepSeek正式發表DeepSeek-V3.1,稱其為「邁向Agent(智能體)時代的第一步」。V3.1包含3大主要變化:首先,採用混合推理架構,一個模型同時支持思考與非思考模式;其次,V3.1具更高的思考效率,相比DeepSeek-R1-0528,DeepSeek-V3.1-Think能在更短時間內給出答案;第三,V3.1具更強的Agent能力,通過Post-Training優化,新模型在工具使用與智能體任務中的表現有較大提升。

DeepSeek表示,V3.1使用UE8M0FP8Scale的參數精確度,是針對即將發表的下一代國產芯片設計,這也顯示未來基於DeepSeek模型的訓練與推理有望更多應用國產AI芯片,助力國產算力生態加速建設。

據外媒報導,DeepSeek被曝光正開發具備更先進的AI智能體相關功能的人工智能模型,目的是與OpenAI等巨擘在技術新前沿展開競爭。目前梁文鋒計畫今年第四季發布相關智能體產品。

外媒又引述消息稱,DeepSeek正開發的智能體強調自主任務處理能力,與傳統聊天機器人不同,智能體能夠代表用戶在最少指令下完成多步驟複雜任務,並根據歷史操作持續學習和改進,減少人工干預需求。




毛拍手

** 博客文章文責自負,不代表本公司立場 **

為慶祝國慶76周年及紀念民族英雄林則徐誕辰240周年,香港電台將於10月4日推出大型紀錄片《林則徐:虎門銷煙以外》,值得期待。

據介紹,紀錄片透過AI技術重演史實畫面,從香港出發,途經澳門、廣東、湖南、福建、浙江、河南、陝西、甘肅、新疆,更東渡日本,行程逾3萬公里,帶領觀眾深入探尋虎門銷煙之外那個更為真實、立體的林則徐。香港電台將於9月25日(星期四)下午5時至6時30分,於啟德MCL AIRSIDE戲院舉行首映禮。

虎門銷煙的壯舉固然永載史冊,但其實他也是香港史的重要人物。1839年,清廷派遣林則徐到廣東查禁鴉片,英國商船因而退出廣州,轉到香港尖沙咀停泊,期間一名酗酒的英國水手與尖沙咀村民發生衝突,打死村民林維喜,成為中英鴉片戰爭的導火線。

林則徐要求英國駐華商務總監義律交出兇手,義律卻私下輕判了事,令中英關係急速惡化。同年底,兩軍在香港爆發「官涌之戰」,英軍十天之內六度突襲,皆被擊退。事後林則徐在尖沙咀及官涌增建兩座炮台:分別是尖沙咀「懲膺炮台」(即如今的1881舊水警基地)和官涌「臨衝炮台」(珼址為佐敦佐治五世紀念公園),配置50多門大炮,以防英軍再犯。

林則徐抗英有功,卻在鴉片戰爭期間,遭投降派誣陷,被道光皇帝革除官職,於道光21年(1841年7月14日)被發配到新疆伊犁。

清廷戰情其後急轉直下,最終戰敗收場,英人更強迫將香港島割讓,喪權辱國。但失敗的責任明顯不在林則徐身上,綜觀其一生,處處維護國體和民生,稱其為民族英雄確是實至名歸。

林則徐其實也是一位深具遠見的務實改革家;一位興修水利、根治水患的水利學家;一位即使被貶新疆,仍開墾良田數十萬畝,以行動實踐出「苟利國家生死以」精神的政治家。

國家主席習近平過去在福州任職期間,保護了林則徐出生地的一系列遺跡。他先後多次引用林則徐「苟利國家生死以,豈因禍福避趨之」的名句,號召國人把林則徐的民族精神和優秀品格繼承發揚下去。

原來平時大家耳熟能詳的「海納百川,有容乃大」、「時事難從無過立,達官非自有生來」皆出自林則徐之口。此外,「豈能盡如人意,但求無愧我心」這句話是很多人的座右銘,據說林則徐曾將其寫成條幅,懸於室中,以激勵自己。

你 或 有 興 趣 的 文 章