由DeepSeek團隊共同完成、梁文鋒擔任作者的DeepSeek-R1推理模型研究論文,登上國際權威期刊《自然》(Nature)的封面。DeepSeek-R1也是全球首個經同行評審的主流大語言模型。
2025年被業界稱為「AI智能體元年」。1月份,DeepSeek在arxiv平台公佈論文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》,40歲的DeepSeek創辦人梁文鋒是作者之一。
DeepSeek-R1推理模型研究論文,登上國際權威期刊《自然》(Nature)封面。
《自然》雜誌總結DeepSeek-R1帶來的進步,就是如果訓練出的大模型能夠規劃解決問題所需的步驟,那它們往往能更好地解決問題。這種「推理」與人類處理更複雜問題的方式類似,但對人工智能是極大挑戰,需人工干預來添加標籤和註釋。DeepSeek的研究人員揭示了他們如何能在極少的人工輸入下訓練一個模型,使其進行推理。
DeepSeek-R1模型採用強化學習進行訓練。在這種學習中,模型正確解答數學問題時會獲得高分獎勵,答錯則會受懲罰。最終它學會了推理——逐步解決問題,並揭示這些步驟,更有可能得出正確答案。這使得DeepSeek-R1能夠自我驗證和自我反思,在給出新問題的答案之前,檢查其性能,從而提高其在程式設計和研究生水平科學問題上的表現。
《自然》的社論指,大型語言模型需同儕審查,認為大型語言模型(LLMs)正迅速顛覆人類獲取知識的方式,但最廣泛使用的這些模型尚未在研究期刊中接受獨立同儕審查。同儕審查有助於澄清LLMs的工作原理,並幫助評估它們是否真正實現其聲稱的功能,但這情況隨著《自然》發表DeepSeek-R1模型細節而改變。
DeepSeek創辦人梁文鋒是論文作者之一。
《自然》指,自從1月在「開源模型集散地」Hugging Face上發布R1以來,DeepSeek-R1已奪得該平台複雜問題解決類模型下載量冠軍。現時該模型已由8位專家評審其工作的原創性、方法論和穩健性。該論文將與審查者報告和作者回應一同發表。
《自然》說:「這一切都是AI產業邁向透明度和可重複性的可喜一步」、「依賴獨立研究者的同儕審查是AI產業回擊炒作的一種方式。鑑於這項技術已變得如此普遍,無法驗證的聲明對社會構成真正風險,希望出於這原因,更多AI公司將提交其模型接受評審。」
論文摘要表示,推理能力作為人類智慧的基石,能夠支援從數學問題求解、邏輯演繹到程式編寫等複雜認知任務。人工智能領域的最新進展表明,當大型語言模型(LLMs)的規模達到足夠程度時,能展現出包括推理能力在內的湧現性特徵,然而要在預訓練階段實現這類能力,通常需耗費大量計算資源。
而其研究旨在探索大型語言模型在強化學習(RL)框架下,透過自我進化發展推理能力的潛力,同時最大限度地減少對人工標註的依賴。
具體而言,以DeepSeek-V3Base模型為基礎,採用群體相對策略最佳化(GRPO)作強化學習架構。獎勵訊號僅依據最終預測結果與真實答案的一致性來決定,不對推理過程本身施加任何約束。
在解決推理問題時,模型傾向於產生更長的反應內容,在每個回應中融入驗證、反思及對多種替代方法的探索,儘管未明確教授模型如何進行推理,但它透過強化學習,成功掌握更優的推理策略。
今年1月20日,DeepSeek推出大模型DeepSeek-R1引爆AI行業,作為一款開源模型,R1在數學、代碼、自然語言推理等任務上的性能,均能比媲美OpenAI o1模型正式版,並採用MIT許可協議,支持免費、任意修改和衍生開發等。
之後,國內多家產業龍頭均宣布接入DeepSeek。現時,DeepSeek已更新出R1以外的新版本,但萬眾期待的R2尚未面世。
DeepSeek今年8月發表V3.1,邁向智能體時代的第一步。
8月21日DeepSeek正式發表DeepSeek-V3.1,稱其為「邁向Agent(智能體)時代的第一步」。V3.1包含3大主要變化:首先,採用混合推理架構,一個模型同時支持思考與非思考模式;其次,V3.1具更高的思考效率,相比DeepSeek-R1-0528,DeepSeek-V3.1-Think能在更短時間內給出答案;第三,V3.1具更強的Agent能力,通過Post-Training優化,新模型在工具使用與智能體任務中的表現有較大提升。
DeepSeek表示,V3.1使用UE8M0FP8Scale的參數精確度,是針對即將發表的下一代國產芯片設計,這也顯示未來基於DeepSeek模型的訓練與推理有望更多應用國產AI芯片,助力國產算力生態加速建設。
據外媒報導,DeepSeek被曝光正開發具備更先進的AI智能體相關功能的人工智能模型,目的是與OpenAI等巨擘在技術新前沿展開競爭。目前梁文鋒計畫今年第四季發布相關智能體產品。
外媒又引述消息稱,DeepSeek正開發的智能體強調自主任務處理能力,與傳統聊天機器人不同,智能體能夠代表用戶在最少指令下完成多步驟複雜任務,並根據歷史操作持續學習和改進,減少人工干預需求。
毛拍手
** 博客文章文責自負,不代表本公司立場 **
27歲張文上周五(19日)在台北街頭涉隨機殺人,造成包括他自己在內的4死11傷,震驚兩岸。台北是其中一個鄰近的港人旅遊熱點,據台媒報道,案發當日一對香港夫婦恰巧在誠品南西店逛街,當中便曾跟疑兇張文擦身而過,險些成為刀下亡魂。而綜合連日來媒體報道及網絡起底,有分析認為,張文國中時成績不錯,只是個性較孤僻,但關鍵轉折點是2022年因酒駕被抓,而被台軍方勒令提前退伍,期間有2年未返老家與家人見面,惟期間母親仍擔心其生活而有小額匯款給兒子。
一對港人夫婦指事發當日,他們進入誠品不到10秒,便聽見後方傳來驚叫聲,太太眼見張文朝她揮一刀,幸揮了空,逃過一劫。網上片段截圖
據台媒《東森新聞》報道,昨(21)有不少民眾到慘劇發生的誠品南西店外致意,其中有一對香港夫婦,原來他們案發當天也在現場。這對港人夫婦現時仍心有餘悸,指事發當日,他們比疑兇張文早一點進入誠品,進入商場門口不到10秒,便聽見後方傳來驚叫聲,太太眼見張文朝她揮一刀,所幸揮空,隨後便目睹他往樓上走去,「我很清楚看見刀很長。」夫婦倆刀口逃生後,便膽戰心驚步出誠品,出來就看見一名死者倒在地上。
兩人在搭飛機返回香港前,特意重返現場悼念亡者,衷心祈禱「希望台灣沒有其他這麼危險的情況再發生,因為都覺得很無辜。」
回顧案件經過,張文19日下午5時24分,帶著大批自製汽油彈前往捷運北車M7出口,丟出4顆煙霧彈且意圖引燃汽油彈,一名余姓男子見狀上前制止,遭張文持刀刺殺,送院搶救不治;張文返回旅館重整裝備,傍晚6時38分,再度前往北捷中山站發動第二次攻擊,先在南京西路上丟擲煙霧彈,隨後闖入人群中當街揮刀砍人,又持刀跑進誠品南西店內隨機殺人,並一路往百貨頂樓狂奔,最終於晚上7時42分畏罪墜樓重傷,送醫治療不治。
警方連日來從張文遺留在旅館的平板電腦,發現其作儲存在雲端上的作案計劃書,自10月份開始製作,當中顯示他自去年起陸續在網購平台,以不同名字購買煙霧彈、防毒面具等。但他殺人使用的長刀並非網購;另有詳盡地圖與犯案時間表,明確標註「先丟煙霧彈、縱火、如何砍人」的流程。
此外,警方發現,張文曾有大量瀏覽和紀錄有關北捷鄭捷的隨機殺人案件資訊。台警指,張文想模仿鄭捷在台北捷運板南線車廂內持刀隨機攻擊乘客的模式,故選定在北捷板南線的M7出入口啟動其隨機殺人模式,但他並未完全模仿,因張文認為鄭捷在捷運的封閉式車廂內作案,根本無法逃逸,等於自尋死路,故張文選擇在台北車站外、中山捷運站外作案,方便趁亂逃逸,也代表他還是有求生意念,且手法非常縝密。
鄭捷2014年持水果刀與瑞士刀在台北捷運板南線列車上隨機襲擊乘客,造成4人死24人傷。台灣最高法院判處鄭捷四項死刑,他在2016年被執行槍決。
張文在台北車站丟煙霧彈,再成功「扮路人」逃去。網上片段截圖
張文的父母在警方做筆錄時透露,張文已很久並未返回桃園老家,父母亦不清楚兒子的動向,與兒子約2年未曾見面或聯絡,平時並不清楚其近況,無法理解其犯案原因;而張文有一名哥哥在高雄工作,警方指兄弟平日互動不多、感情不密切,哥哥表示對張文的生活與心理狀況亦不知情。
至於沒工作的張文,何有錢可以購買煙霧彈,警方目前正和金融單位協調要追查其金流,初步調查顯示,張文的母親會固定「小額匯款」給他,每季約3萬元,目前尚未發現有其他外人資助,因張文一個月房租就高達1萬7千元,若以母親匯款的金額,根本入不敷出,故警方將進一步追查錢包、虛擬貨幣,看背後是否有人支援。
而張文的背景亦陸續被「起底」。警方調查,發現他2023年6月至2024年6月在某家大型保全公司任職,月薪連加班津貼等月入約4萬台幣,不過張文只做了1年便離職,之後再也沒薪資紀錄,且自2023年12月至2025年12月整整2年都沒醫療紀錄。
張文高中讀桃園楊梅的永平高中,就讀「餐飲科建教班」,成績算不錯。網上圖片
綜合台媒資料,張文高中讀桃園楊梅的永平高中,就讀「餐飲科建教班」,高三則全班進入三井集團旗下餐廳實習。其學期平均成績85分以上,3年拿了4次小功、25次嘉獎,校方評價是「積極正向、沒有偏差行為」,還當過班幹部。有同學說他當時「個性孤僻」、「不太參加同學活動」,但也說「如果同學有困難,他不會拒絕幫忙」,同學還說:「不知道這幾年發生什麼,讓一個人改變如此巨大。」
高中畢業後,張文讀雲林縣虎尾科技大學資訊工程系,在校期間操行和課業成績表現均正常,並無不良紀錄,還於2020年7月1日至2021年2月28日期間參與一項「人臉辨識輔助課堂點名」的研究計畫,還曾獲台灣政府科技部補助。
2018到2022年他去當志願兵役,在空軍通訊中隊。但2022年,他在休假期間因酒駕被抓,被軍方汰除,提前退伍。從2022年被汰除到2025年犯案,這3年間,張文從桃園搬到台北中山區租屋,切斷了原有的地域連結,他長期沒回家,到2025年7月他逃教召被通緝,開始完全孤立——沒有學校、沒有工作、沒有家庭、沒有朋友。所有的系統都斷了。
犯罪科學者認為,張文在南京西路路正中的煙霧彈投擲,表演傾向明顯。網上片段截圖
中正大學犯罪防治系教授戴伸峰在臉書發文指,從影像以及嫌疑人身份初步確認,其「自我顯示欲」的犯罪動機可能性高,比對鄭捷犯案的公眾隨機攻擊事件,這次的案件嫌疑人在「演出性」方面,比鄭捷更周全。
他表示,煙霧彈為遠距攻擊效果,意圖造成恐慌;而從攻擊道具的多樣化、路線的設定、逃亡墜樓路線,一氣呵成;另在馬路正中「表演」,在南京西路路正中的煙霧彈投擲,表演傾向明顯。另疑犯全套戰鬥服裝,隱含其對於戰鬥身份演示的欲望,而選擇墜樓則具有造成更大恐慌的演出動機,認為這樣的執行度代表了相比鄭捷案,是更加成熟。
另戴伸峰認為,雖然本件攻擊看似大費周章,但在實際生活中已然邊緣化、無法取得關注的疑犯身上,犯罪是最廉價的博取眼球「低成本製作」。
至於大家擔心的模仿犯是否可能出現,他認為,以犯罪的模仿效應來說,兩周內會產生漣漪現象,的確可能觸發,但本件犯罪高度縝密,類似手法應不容易再現。