Skip to Content Facebook Feature Image

OpenAI新模型o1表現接近理化博士生水平 能解決83%國際奧數問題    

博客文章

OpenAI新模型o1表現接近理化博士生水平  能解決83%國際奧數問題     
博客文章

博客文章

OpenAI新模型o1表現接近理化博士生水平 能解決83%國際奧數問題    

2024年09月13日 12:45 最後更新:12:56

生成式人工智慧領域領導公司OpenAI,在美國時間9月12日發布擁有深度思考能力的o1 預覽模型,OpenAI稱,這是未來一系列的「用於解決更難問題的推理模型」的一部分,測試後發現新模型的表現已接近物理、化學和生物方面的博士生水平,能解決國際數學奧賽測驗資格考試83%的問題。今次也顯示OpenAI未來趨勢,除針對ChatGPT等廣泛人群的聊天應用,也將精力放在處理和解決專業領域問題的能力上。

OpenAI強調,新模型將「花更多的時間」對涉及科學、程式設計和數學方面的複雜問題和任務去「思考」。OpenAI表示,這些模型的思考過程「更像人」,在面對複雜問題時,會花更多的時間去思考而不是立即做出回應。透過訓練,模型將學會如何進一步改善思考過程,嘗試不同的策略以及認識到先前的錯誤。

OpenAI稱,測試後發現新模型的表現已經接近物理、化學和生物方面的博士生水平,這些測試也發現在程式設計和數學方面展現出更非凡的能力。

對國際數學奧賽測驗的資格考試,GPT-4o只能解決13%的問題,但最新推理模型o1能夠解決83%的問題。

對國際數學奧賽測驗的資格考試,GPT-4o只能解決13%的問題,但最新推理模型o1能夠解決83%的問題。

對比之下,對國際數學奧賽(IMO)測驗的資格考試,GPT-4o只能解決13%的問題,但最新的推理模型能夠解決83%的問題。新模型的程式設計能力在相關的程式測試中,達到超出89%其他模型的水平。

但OpenAI方面也強調,作為早期的預覽版模型,新推理模型還不能像ChatGPT那樣解決更全面的問題,例如透過瀏覽網頁尋找資訊、上傳文件和圖像等,換句話說,推理模型的主要能力體現在深度思考上,而非其他廣泛的淺層應用。

OpenAI強調,新模型將「花更多的時間」對涉及科學、程式設計和數學方面的複雜問題和任務去「思考」,過程「更像人」 。AP圖片

OpenAI強調,新模型將「花更多的時間」對涉及科學、程式設計和數學方面的複雜問題和任務去「思考」,過程「更像人」 。AP圖片

在安全性方面,在新模型的訓練方面採取了新的訓練路徑,使得模型依照安全和利益一致性的指導進行。由於推理模型能夠理解安全條例的上下文,所以能夠更有效率地應用它們。

OpenAI稱,衡量安全性的一個測試方法是,使用者透過不斷嘗試繞過安全條款(又被稱為「越獄」)的情況下,模型能否繼續遵循安全條款輸出結果。在最嚴苛的類似測試下,在滿分100分的情況下,GPT-4o拿到了22分,但新的o1預覽模型則取得了84分。

OpenAI稱,新的推理模型強化的推理能力對於在科學、程式設計、數學和其他專業領域方面顯得更有用,例如o1模型能夠被醫療研究人員用於註釋細胞序列數據,也能夠被物理學家用於生成複雜的數學公式,並被各個領域的開發人員用於建立和執行多步驟的工作流程。

OpenAI的未來趨勢,除針對ChatGPT等聊天應用,也將精力放在處理和解決專業領域問題的能力上。

OpenAI的未來趨勢,除針對ChatGPT等聊天應用,也將精力放在處理和解決專業領域問題的能力上。

從OpenAI最新發布的推理模型可以看出,對於新推出的一系列推理模型,OpenAI將精力放在了模型處理和解決專業領域問題的能力上,而非更廣泛的能力;也反映出未來進一步趨勢,既針對廣泛人群和用戶的ChatGPT人工智慧聊天應用,有解決圖像、視訊的DallE、Sora模型,也有剛推出的針對專業領域、需要深度思考和問題解決能力的o1 preview。




深喉

** 博客文章文責自負,不代表本公司立場 **

往下看更多文章

深入敵後互爆猛料!美國大選進入「最後的瘋狂」

2024年10月08日 09:17 最後更新:09:25

距美國大選不足一個月,在決定勝負的7個關鍵「搖擺州」,賀錦麗和特朗普的民調支持率極其接近。兩人現已全力衝刺「搖擺州」——賀錦麗深入「紅縣」挖牆腳,特朗普則在城郊擴展勢力,爭奪異常激烈。

新華社引述美國選舉信息網站數據指,截至10月4日,賀錦麗在威斯康星、密歇根、內華達三州平均支持率分別領先特朗普0.8個、0.7個和1.1個百分點;在賓夕法尼亞州,兩人平均支持率持平;在北卡羅來納、佐治亞和亞利桑那三州,特朗普分別領先0.6個、1.5個和1.7個百分點。鑒於民調通常有3個百分點左右的誤差,從當前的民調數據很難明確判斷誰將最終勝選。

新華社圖片

新華社圖片

在2016年的選舉中,號稱民主黨「藍牆」的威斯康星、密歇根和賓夕法尼亞三州被特朗普攻陷,被認為是時任民主黨總統候選人希拉里敗北的重要原因。在2020年選舉中,拜登奪回這三州。今年選舉,這三州被視作民主黨的必保之地。然而,從目前民調數據看,賀錦麗在威斯康星、密歇根兩州的平均支持率領先優勢不足1個百分點;而在賓夕法尼亞州,與特朗普支持率持平。

上述選情,令賀錦麗落後差距相對較小的北卡羅來納州成為民主黨必須力拼的關鍵所在。新華社注意到,該州少數族裔人口較多,尤其是非裔人口佔比約20%,這對賀錦麗選情有利。不過,北卡羅來納州也有大片人口稀少、白人聚居的農村地區和小城鎮,屬於特朗普的「鐵桿票倉」。特朗普在2016年、2020年總統選舉中都以微弱優勢拿下該州。

北卡羅來納州共和黨選民喬伊納表示,他最關注的議題是醫療保險、通貨膨脹、非法移民問題,這三個問題也是困擾美國社會的重大問題,而對於這些問題,拜登政府處理得一團糟。民主黨選民帕特里西婭則表示,特朗普「讓美國再次偉大」的口號讓她感到恐慌,因為這意味著少數族裔的權利將被剝奪,美國可能倒退到上世紀60年代民權運動之前。

近日,颶風「海倫妮」重創北卡羅來納州,賀錦麗與特朗普均前往該州,前者想表現賑災有力,後者則攻擊政府應對遲緩。兩人的訪問遭一些媒體批評是將災難「政治化」,為自身競選謀利的意圖明顯。

隨著選期臨近,賀錦麗和特朗普加緊在「搖擺州」為自己造勢。賀錦麗陣營試圖在傳統傾向共和黨的農村「紅縣」追趕特朗普。按其競選顧問說法,如能把特朗普在「紅縣」的領先優勢從70%縮小至60%或65%,對一個州的選情就會產生顯著影響。以賓夕法尼亞州為例,賀錦麗上月在費城與特朗普辯論後即深入該州偏遠地區,試圖在特朗普的「鐵桿票倉」挖牆腳。

特朗普陣營也不示弱,積極在民調支持率異常膠著的「搖擺州」佈局。雖然特朗普7月13日曾在賓夕法尼亞州巴特勒市的競選集會遭「未遂刺殺」,但他日前重返巴特勒競選,有美國媒體評論說,此舉顯然是想進一步放大「未遂刺殺」事件的「外溢效應」,為其競選加分。此外,在弗吉尼亞州部分城郊地區出現大量支持特朗普競選的標牌,不難看出特朗普陣營也已將攻勢擴展到民主黨「票倉」。

影片截圖

影片截圖

隨著選戰進入衝刺階段,雙方陣營也利用各種資源相互「曝醜」「揭短」。

負責調查特朗普涉嫌干預2020年總統選舉案的司法部特別檢察官史密斯日前公布新證據,指認特朗普明知2020年總統選舉失利,仍計劃推翻選舉結果並為此進行各種努力,包括開除不能幫助他顛覆選舉結果的律師。輿論認為,史密斯此時公布本案新證據,似乎有意為賀錦麗陣營選情「助力」。此外,也有媒體以匿名人士為信源報道,賀錦麗的丈夫埃姆霍夫2012年康城電影節期間打他的前女友,對此埃姆霍夫已出面否認。

用「黑料」來打壓對手可謂美國總統選舉的「傳統項目」,此時爆料也在一定程度上反映出在選戰進入最後階段之際,雙方選情依舊相當膠著,需要加大對對手的「曝醜」力度,以打擊對方支持率、提升自身選情。

皮尤研究中心上月發布的調查顯示,經濟是美國選民最關注的議題,超過八成選民認為經濟形勢對於選舉投票選擇非常重要。對兩黨選民而言,其他主要議題的排序則有很大差異。特朗普支持者中,經濟、移民、暴力犯罪是最重要的三大議題;賀錦麗支持者中,醫保、聯邦最高法院法官任命、經濟則是最重要的三大議題。此外,墮胎權議題的重要性也較高。

布魯金斯學會高級研究員韋斯特表示,目前看,特朗普在處理移民和犯罪問題上有支持率優勢,賀錦麗則在處理墮胎權和保護民主方面表現強勁。特朗普曾在經濟方面擁有更大優勢,但賀錦麗縮小了這一差距。上月美國就業數據體現出就業市場依然穩健,這對民主黨選情有利。

馬里蘭大學國際和安全研究中心研究員拉姆齊表示,賀錦麗的主要優勢在於她是「新面孔」和意外之選,有助於向選民傳遞「帶來改變」的信息。特朗普的主要優勢在於許多人對新冠疫情前和通脹前美國經濟有著積極印象,並將此歸功於特朗普。拉姆齊說,除非發生重大意外,否則兩人選情將繼續非常接近,民調幾乎無法為預測選舉結果提供有效參考。

在美國政治極化持續加劇的背景下,輿論普遍擔憂今年總統選舉期間會出現更多政治暴力,特朗普兩次遭遇「未遂刺殺」、賀錦麗競選團隊辦公室遭槍擊已不啻於「預警」。來自紐約布魯克林的民主黨選民彼得森表示,當前美國最需要的是「團結」。「我們需要一個不再試圖分裂我們,而是努力讓我們團結在一起,並且關心我們的掌權者。」

你 或 有 興 趣 的 文 章