由DeepSeek團隊共同完成、梁文鋒擔任作者的DeepSeek-R1推理模型研究論文,登上國際權威期刊《自然》(Nature)的封面。DeepSeek-R1也是全球首個經同行評審的主流大語言模型。
2025年被業界稱為「AI智能體元年」。1月份,DeepSeek在arxiv平台公佈論文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》,40歲的DeepSeek創辦人梁文鋒是作者之一。
DeepSeek-R1推理模型研究論文,登上國際權威期刊《自然》(Nature)封面。
《自然》雜誌總結DeepSeek-R1帶來的進步,就是如果訓練出的大模型能夠規劃解決問題所需的步驟,那它們往往能更好地解決問題。這種「推理」與人類處理更複雜問題的方式類似,但對人工智能是極大挑戰,需人工干預來添加標籤和註釋。DeepSeek的研究人員揭示了他們如何能在極少的人工輸入下訓練一個模型,使其進行推理。
DeepSeek-R1模型採用強化學習進行訓練。在這種學習中,模型正確解答數學問題時會獲得高分獎勵,答錯則會受懲罰。最終它學會了推理——逐步解決問題,並揭示這些步驟,更有可能得出正確答案。這使得DeepSeek-R1能夠自我驗證和自我反思,在給出新問題的答案之前,檢查其性能,從而提高其在程式設計和研究生水平科學問題上的表現。
《自然》的社論指,大型語言模型需同儕審查,認為大型語言模型(LLMs)正迅速顛覆人類獲取知識的方式,但最廣泛使用的這些模型尚未在研究期刊中接受獨立同儕審查。同儕審查有助於澄清LLMs的工作原理,並幫助評估它們是否真正實現其聲稱的功能,但這情況隨著《自然》發表DeepSeek-R1模型細節而改變。
DeepSeek創辦人梁文鋒是論文作者之一。
《自然》指,自從1月在「開源模型集散地」Hugging Face上發布R1以來,DeepSeek-R1已奪得該平台複雜問題解決類模型下載量冠軍。現時該模型已由8位專家評審其工作的原創性、方法論和穩健性。該論文將與審查者報告和作者回應一同發表。
《自然》說:「這一切都是AI產業邁向透明度和可重複性的可喜一步」、「依賴獨立研究者的同儕審查是AI產業回擊炒作的一種方式。鑑於這項技術已變得如此普遍,無法驗證的聲明對社會構成真正風險,希望出於這原因,更多AI公司將提交其模型接受評審。」
論文摘要表示,推理能力作為人類智慧的基石,能夠支援從數學問題求解、邏輯演繹到程式編寫等複雜認知任務。人工智能領域的最新進展表明,當大型語言模型(LLMs)的規模達到足夠程度時,能展現出包括推理能力在內的湧現性特徵,然而要在預訓練階段實現這類能力,通常需耗費大量計算資源。
而其研究旨在探索大型語言模型在強化學習(RL)框架下,透過自我進化發展推理能力的潛力,同時最大限度地減少對人工標註的依賴。
具體而言,以DeepSeek-V3Base模型為基礎,採用群體相對策略最佳化(GRPO)作強化學習架構。獎勵訊號僅依據最終預測結果與真實答案的一致性來決定,不對推理過程本身施加任何約束。
在解決推理問題時,模型傾向於產生更長的反應內容,在每個回應中融入驗證、反思及對多種替代方法的探索,儘管未明確教授模型如何進行推理,但它透過強化學習,成功掌握更優的推理策略。
今年1月20日,DeepSeek推出大模型DeepSeek-R1引爆AI行業,作為一款開源模型,R1在數學、代碼、自然語言推理等任務上的性能,均能比媲美OpenAI o1模型正式版,並採用MIT許可協議,支持免費、任意修改和衍生開發等。
之後,國內多家產業龍頭均宣布接入DeepSeek。現時,DeepSeek已更新出R1以外的新版本,但萬眾期待的R2尚未面世。
DeepSeek今年8月發表V3.1,邁向智能體時代的第一步。
8月21日DeepSeek正式發表DeepSeek-V3.1,稱其為「邁向Agent(智能體)時代的第一步」。V3.1包含3大主要變化:首先,採用混合推理架構,一個模型同時支持思考與非思考模式;其次,V3.1具更高的思考效率,相比DeepSeek-R1-0528,DeepSeek-V3.1-Think能在更短時間內給出答案;第三,V3.1具更強的Agent能力,通過Post-Training優化,新模型在工具使用與智能體任務中的表現有較大提升。
DeepSeek表示,V3.1使用UE8M0FP8Scale的參數精確度,是針對即將發表的下一代國產芯片設計,這也顯示未來基於DeepSeek模型的訓練與推理有望更多應用國產AI芯片,助力國產算力生態加速建設。
據外媒報導,DeepSeek被曝光正開發具備更先進的AI智能體相關功能的人工智能模型,目的是與OpenAI等巨擘在技術新前沿展開競爭。目前梁文鋒計畫今年第四季發布相關智能體產品。
外媒又引述消息稱,DeepSeek正開發的智能體強調自主任務處理能力,與傳統聊天機器人不同,智能體能夠代表用戶在最少指令下完成多步驟複雜任務,並根據歷史操作持續學習和改進,減少人工干預需求。
毛拍手
** 博客文章文責自負,不代表本公司立場 **
解放軍東部戰區圍台軍演,並於昨晚(29日)發佈影片《這麼近那麼美 隨時到台北》,最後幾秒出現台北地標101大樓,引發熱議。
對於今次圍台軍演,民進黨當局渲染「軍事威脅」,惟美國總統特朗普淡化軍演帶來的所謂「威脅」,回應稱不擔心台海周邊局勢,相信中方不會對台開展軍事行動。不過,台島內輿論認為,從解放軍拍得的畫面可見101大樓,代表解放軍無人偵察機真的可進入台北市,如入無人之境,「拍到就打到!」
東部戰區昨晚(29日)發佈影片《這麼近那麼美 隨時到台北》,出現台北地標101大樓,引起台島內輿論恐慌。
路透社12月29日報道,特朗普在美國佛羅里達州對記者表示,並不擔心台海周邊局勢,自己與中方關係很好,相信中方不會對台開展軍事行動,「沒有什麽讓我擔心的,什麽都沒有。他們在那一帶開展海軍演習已經有20年了。」
報道指,在軍演的11天前,美國政府宣布將向台灣地區出售價值超過111億美元的軍備,是美國有史以來最大宗的對台軍售,引發中方強烈不滿。彭博社直言,特朗普的最新對台軍售計劃明顯觸及中方紅線。
特朗普表示不擔心台海周邊局勢,自己與中方關係很好,相信中方不會對台開展軍事行動。AP資料圖片
國防部新聞發言人張曉剛29日嚴正表示,「台獨」同台海和平水火不容,外部勢力縱容支持「台獨」只會引火燒身、自食惡果,敦促有關國家放棄「以台制華」幻想,停止在台灣問題上拱火滋事,不要挑戰中方維護自身核心利益的決心意志;正告民進黨當局「倚外謀獨」注定失敗、「以武拒統」死路一條。中國人民解放軍打「獨」促統決不手軟,將持續組織反分裂反干涉行動,堅決維護國家主權、統一、領土完整。
縱然特朗普刻意淡化,惟這次軍演迅速引發台島內熱議。
據觀察者網綜合報道,親綠的《自由時報》以「突襲式」形容東部戰區宣布將針對台灣舉行環島軍演,名為「正義使命-2025」,演訓範圍包含台灣本島的東南西北。中央社則直接點名演習涉及島內地區,據公布的坐標位置以及圖片,共5個區塊,分別在基隆以北、台東以東、屏東以南、澎湖西南海域,以及桃園西北至馬祖的台灣海峽範圍,呈「包圍」台灣的態勢。
軍演的坐標位置及圖片,共5個區塊,呈「包圍」台灣的態勢。
台防務部門智庫「國防安全研究院」(INDSR)研究員揭仲指,大陸正在「對外部干涉釋放強烈信號」,已「完全切斷」台灣北部三個區域與日本的海空聯繫。
還有人炒作稱,解放軍的演習正日益模糊日常軍事訓練與可能為攻擊做準備之間的界限,意在讓美國及其盟友幾乎沒預警時間的策略。
外界更關注解放軍發布的視頻,展示自動化人形機械人、微型無人機和武裝機械狗實施攻擊的畫面,這些都是中方此前從未公開展示過的未來技術。
軍事評論員施洋表示,演習表明解放軍有能力對台島各種軍事目標進行立體、精確、毀滅性打擊,也能夠有效奪取台海周邊的戰場制權,挫敗境外勢力干預兩岸局勢,阻撓祖國統一的意圖。
台退役將領栗正傑指,從解放軍拍得的照片,包括101大樓,是台北地標,代表可對這個地方進行攻擊,代表他可到這個地方來,「這是告訴大家我真的可以做得到,無人偵察機真可以進入台北市,如入無人之境。」
台資深媒體人謝寒冰也驚呼,「基本上從這角度看過去,就是在台北的大概差不多是東半部地方,畫面又有飛機起降,證明離松山機場不是很遠,因飛機能夠拍那麼大,那就表示他已經進來了…這已經不是距離幾海浬的問題,他根本就已經在台北了。」
有分析指,海報中的兩面盾牌,大的位在台灣東北方,針對日本首相高市早苗,而小盾牌則位於巴士海峽入口處,象徵不讓美軍支援台灣。
栗正傑表示,這次解放軍演習的相關海報上,有一大一小兩面盾牌,其中大的位在台灣東北方位,而日本就在台灣北方,故是針對日本與日本首相高市早苗的;至於小盾牌則位於巴士海峽入口處,如果美軍要馳援台灣或進入南海,就勢必要通過台灣海峽,故小盾牌象徵不讓美軍支援台灣。
栗指,這次軍演規模明顯比前幾次大很多,首先在時間方面,挑選周一進行演習,是個很標準的「奇襲作戰」;其次,這次5大演習區域的範圍比過去都大,其中台灣北方的演習區域是針對日本與封鎖基隆港,西北的是封鎖台灣海峽北口、台北港;西南的針對進入台灣海峽的美國與其盟友艦隊、封鎖台灣海峽南口與高台鎖港;西南的針對進入台灣海峽的美國與其盟友艦隊、封鎖台灣海峽和高門安全港。
而在力道方面,栗也指,今次演習除有制空、制海、制電磁,還和先前幾次不同,進行了實彈演習,會否像2022年環台軍演時,進行短程彈道飛彈試射,值得台灣關注。
台灣網紅Cheap也分析說,賴清德28日說大陸因「實力不夠沒有越雷池一步」,但29日解放軍就立刻宣布軍演,「以前他們要跨海,你有幾小時準備,變成現在他就在門口,可能只有幾分鐘讓你穿褲子」。他認為,「圍台軍演」目的還有實地勘查,不但堵住基隆港、高雄港,實測海床參數、洋流數據,順便測試台灣的雷達參數,還有「測試台灣會不會怕,商船敢不敢過。」他還嘲諷賴清德說,大陸2027年要「武統」台灣,花大錢買來救命的F-16V,但要2028年才會到貨,「這數學是體育老師教的嗎」?
台灣戰略學者張競認為,「台海舞劍,意在高市」?這次軍演所有對外航路都被卡關,唯獨通往日本與琉球的空中航路未受影響,換言之,就是當「台灣有事」時,到底日本要否將此當作「立存事態」,假若日本也認為「有事」,請問日方要如何應對?高市早苗又要如何表態呢?
東部戰區新聞發言人施毅陸軍大校此前表示,此次演習是對「台獨」分裂勢力和外部干涉勢力的嚴重警告,是捍衛國家主權、維護國家統一的正當必要行動。