OpenAI新模型o1表現接近理化博士生水平能解決83%國際奧數問題

博客文章

OpenAI新模型o1表現接近理化博士生水平能解決83%國際奧數問題

2024年09月13日 12:45 最後更新：12:56

深喉

生成式人工智慧領域領導公司OpenAI，在美國時間9月12日發布擁有深度思考能力的o1 預覽模型，OpenAI稱，這是未來一系列的「用於解決更難問題的推理模型」的一部分，測試後發現新模型的表現已接近物理、化學和生物方面的博士生水平，能解決國際數學奧賽測驗資格考試83%的問題。今次也顯示OpenAI未來趨勢，除針對ChatGPT等廣泛人群的聊天應用，也將精力放在處理和解決專業領域問題的能力上。

OpenAI強調，新模型將「花更多的時間」對涉及科學、程式設計和數學方面的複雜問題和任務去「思考」。OpenAI表示，這些模型的思考過程「更像人」，在面對複雜問題時，會花更多的時間去思考而不是立即做出回應。透過訓練，模型將學會如何進一步改善思考過程，嘗試不同的策略以及認識到先前的錯誤。

OpenAI稱，測試後發現新模型的表現已經接近物理、化學和生物方面的博士生水平，這些測試也發現在程式設計和數學方面展現出更非凡的能力。

對比之下，對國際數學奧賽（IMO）測驗的資格考試，GPT-4o只能解決13%的問題，但最新的推理模型能夠解決83%的問題。新模型的程式設計能力在相關的程式測試中，達到超出89%其他模型的水平。

但OpenAI方面也強調，作為早期的預覽版模型，新推理模型還不能像ChatGPT那樣解決更全面的問題，例如透過瀏覽網頁尋找資訊、上傳文件和圖像等，換句話說，推理模型的主要能力體現在深度思考上，而非其他廣泛的淺層應用。

在安全性方面，在新模型的訓練方面採取了新的訓練路徑，使得模型依照安全和利益一致性的指導進行。由於推理模型能夠理解安全條例的上下文，所以能夠更有效率地應用它們。

OpenAI稱，衡量安全性的一個測試方法是，使用者透過不斷嘗試繞過安全條款（又被稱為「越獄」）的情況下，模型能否繼續遵循安全條款輸出結果。在最嚴苛的類似測試下，在滿分100分的情況下，GPT-4o拿到了22分，但新的o1預覽模型則取得了84分。

OpenAI稱，新的推理模型強化的推理能力對於在科學、程式設計、數學和其他專業領域方面顯得更有用，例如o1模型能夠被醫療研究人員用於註釋細胞序列數據，也能夠被物理學家用於生成複雜的數學公式，並被各個領域的開發人員用於建立和執行多步驟的工作流程。

從OpenAI最新發布的推理模型可以看出，對於新推出的一系列推理模型，OpenAI將精力放在了模型處理和解決專業領域問題的能力上，而非更廣泛的能力；也反映出未來進一步趨勢，既針對廣泛人群和用戶的ChatGPT人工智慧聊天應用，有解決圖像、視訊的DallE、Sora模型，也有剛推出的針對專業領域、需要深度思考和問題解決能力的o1 preview。

深喉

** 博客文章文責自負,不代表本公司立場 **

往下看更多文章

美軍將在日部署中程導彈系統？扎哈羅娃警告若美日來犯「中俄將聯手回擊」

就美國在日本軍事部署新動作，俄羅斯外交部發言人扎哈羅娃表示，若美日來犯，俄羅斯和中國將做出「雙重回擊」，且不僅限於政治層面。

據《觀察者網》援引俄羅斯塔斯社和路透社報道，在當地時間9月11日的記者會上，當被問及美國可能在日本部署中程導彈系統（又稱「提豐」或「颱風」中程導彈系統）時，扎哈羅娃回應稱：「我想提醒你，莫斯科和北京將以『雙重回擊』回應美國的『雙重遏制』」，且這一回擊絕不僅限於政治層面。

她表示：「顯然，中俄都將對更多、非常嚴重的導彈威脅的出現作出反應，且反應遠非政治層面。這一點得到了兩國的反復證實。」她補充說，兩國不會允許美國的此類行動導致自身國家安全和防禦能力被削弱。

扎哈羅娃繼續强調，美國在他國部署導彈的目的很明顯，除針對中俄外，同時也在向其他國家施壓以達成自己的目的。她指出：「在我看來，後果同樣顯而易見。這些舉措對美國自身來說顯然具有破壞性，而且對地區也具有破壞性，將會加劇地區局勢緊張。」

此外，扎哈羅娃重申，中俄戰略夥伴關係不存在「侵略性質」。她說：「我們的關係不針對第三國……雙重回擊與此並不矛盾。這是一個防禦立場，不是針對其他國家的倡議。但如果一個國家正對我們實施一種咄咄逼人的攻擊政策，我們為什麽不集中我們的潜力，給予適當的反擊呢？」

近年來，美國持續向域外地區投射軍事力量。今年4月，美國陸軍宣布「歷史性首次」在菲律賓部署「中程能力」發射系統，並稱此舉「具有里程碑意義」。

在扎哈羅娃發表上述回應之前，9月7日，日本英語媒體《日本時報》報道稱，美國陸軍部長克里斯蒂娜•沃爾穆斯早些時候在一次活動中說，她上個月訪問日本時討論了部署陸軍多域特遣部隊的問題。據介紹，多領域特遣部隊是一支擁有「中程能力導彈系統」的新部隊。

7月28日，美日兩國外長（外相）和防長（防相）在東京舉行所謂的「2+2會談」，確認調整日本自衛隊和駐日美軍的指揮統制框架，以及强化在防衛裝備品等安全保障領域的合作。

在聯合聲明中，美日確認駐日美軍將設立「統合軍司令部」，以配合日本將在明年早些時候設立統一指揮陸海空自衛隊的常設機構「統合作戰司令部」。此外，美日還召開了美國通過核武器戰力參與日本防衛的「延伸威懾」首次部長會議，向國內外展示旨在提高同盟威懾力與應對力的緊密合作。

對此，中國外交部發言人林劍回應指出，日美口口聲聲促進地區和平安全、維護基於規則的國際秩序，實則拉幫結夥搞「小圈子」，操弄集團政治，製造陣營對抗，破壞地區和平、安全與穩定。日美强化「延伸威懾」這一冷戰産物，謀求所謂「核遏制力」，加劇地區緊張，引發核擴散與核衝突風險。

據中國國防部9日發布消息，俄羅斯軍隊本月將派出海空力量參加中方在日本海、鄂霍次克海相關海空域舉行的「北部•聯合-2024」演習。此次演習旨在深化中俄兩軍戰略協作水平，增强共同應對安全威脅的能力。9日16時許，中方參演艦艇編隊抵達預定海域與俄方參演兵力會合，為下一步按計劃開展演習做好準備。

另據日本統合幕僚監部9日晚間發布消息，7號到8號，中國海軍794號電子偵察船、055型導彈驅逐艦「無錫」艦（舷號104）、052D型導彈驅逐艦「西寧」艦（舷號117）、054A型護衛艦「臨沂」艦（舷號547）和903A型綜合補給艦「太湖」艦（舷號889）組成的艦艇編隊先後通過對馬海峽進入日本海活動。

9月11日，外交部發言人毛寧舉行例行記者會。日本廣播協會記者提問，此前中國宣布將與俄羅斯舉行海空聯合演習，請問這次演習是否已經開始？能否進一步說明這次演習的具體目的和意圖？