Skip to Content Facebook Feature Image

OpenAI推多模態AI模型GPT-4 可支援圖片輸入及以文字解釋圖像等

大視野

OpenAI推多模態AI模型GPT-4 可支援圖片輸入及以文字解釋圖像等
大視野

大視野

OpenAI推多模態AI模型GPT-4 可支援圖片輸入及以文字解釋圖像等

2023年03月15日 16:19 最後更新:18:12

以開發出聊天機械人ChatGPT聞名的OpenAI,周二發布名為GPT-4的最新人工智能 (AI) 模型,除了準確度、創造力和協作性更高之外,GPT-4還可支援圖片輸入功能,並以文字來解釋圖像內容,甚至回答問題;甚至輸入一張手繪設計草圖就能自動產生對應的網頁程式碼。

GPT-4可以用來解釋組合圖,各圖的重點,該圖為「VGA轉接頭接上iPhone手機」。OpenAI

GPT-4可以用來解釋組合圖,各圖的重點,該圖為「VGA轉接頭接上iPhone手機」。OpenAI

更多相片
GPT-4可以用來解釋組合圖,各圖的重點,該圖為「VGA轉接頭接上iPhone手機」。OpenAI

以開發出聊天機械人ChatGPT聞名的OpenAI,周二發布名為GPT-4的最新人工智能 (AI) 模型,除了準確度、創造力和協作性更高之外,GPT-4還可支援圖片輸入功能,並以文字來解釋圖像內容,甚至回答問題;甚至輸入一張手繪設計草圖就能自動產生對應的網頁程式碼。

GPT-4可解讀分析圖表內容。OpenAI

https://youtu.be/outcGtbnMuQ

GPT-4可以看圖找出問題的答案。OpenAI

OpenAI透過網誌表示,使用微軟的Azure訓練GPT-4模型,相較於前一版的GPT-3.5,GPT-4有了巨幅改進,又指新模型將產生更少的錯誤答案、減少偏離軌道和談論禁忌話題的頻率。

問及圖中異常之處,GPT-4也可以找出。

在模擬美國法學院畢業生參加律師考試的實測中,GPT-4的分數可達到前10%左右,GPT-3.5卻只能落在最底的10%。在SAT數學測驗或GRE測驗等30多項不同學科的主流檢定測驗上,GPT-4都大勝3.5版。

迷因圖片也難不到GPT-4,而且不失幽默。OpenAI

迷因圖片也難不到GPT-4,而且不失幽默。OpenAI

GPT-4可以分解解讀漫畫的重點。OpenAI

OpenAI說,雖然在一般對話中,GPT-3.5和GPT-4兩種版本模型的生成內容相當類似,但是當任務的複雜度達到一定門檻時,差異就會浮現,GPT-4更有能力處理更細膩的指令。

多模態AI模型GPT-4,可支援圖片輸入,可解釋還能生成網頁程式碼。OpenAI

多模態AI模型GPT-4,可支援圖片輸入,可解釋還能生成網頁程式碼。OpenAI

https://youtu.be/outcGtbnMuQ

報道指,現時的ChatGPT屬於GPT-3.5版本,其於文字及圖片上的表現已相當出色,吸引眾多科企將旗下產品加入該技術。而GPT-4是一個多模態的AI模型,除了文字輸入以外,還可透過圖像輸入來生成內容。

GPT-4會以文字來解釋圖片內容,並且符合文字任務的要求。輸入的圖片可以是照片、圖表或螢幕截圖。舉例來說,如果用家發送雪櫃內部的圖片,GPT-4不僅能正確識別有甚麼,還會調製可以用這些材料製成的東西。

未來,GPT-4還將持續強化解圖能力,例如可以輸入多組圖片範例,或是提供分解動作解釋的解圖能力。

GPT-4可解讀分析圖表內容。OpenAI

GPT-4可解讀分析圖表內容。OpenAI

OpenAI透過網誌表示,使用微軟的Azure訓練GPT-4模型,相較於前一版的GPT-3.5,GPT-4有了巨幅改進,又指新模型將產生更少的錯誤答案、減少偏離軌道和談論禁忌話題的頻率。

較早前,在與ChatGPT或Bing的的互動中,傳出許多用家被呈現謊言、侮辱或其他所謂的「幻覺」。OpenAI表示:「我們花了6個月的時間使GPT-4更安全、更一致。GPT-4回應不允許內容請求降低了82%,產生事實回應的可能性增加了40%」。

GPT-4可以看圖找出問題的答案。OpenAI

GPT-4可以看圖找出問題的答案。OpenAI

在模擬美國法學院畢業生參加律師考試的實測中,GPT-4的分數可達到前10%左右,GPT-3.5卻只能落在最底的10%。在SAT數學測驗或GRE測驗等30多項不同學科的主流檢定測驗上,GPT-4都大勝3.5版。

OpenAI宣稱,GPT-4英文答題的正確率達到80.5%,高於3.5版的70.1%,甚至也高於Google日前的PaLM模型英文答題的69.3%正確率。不過,PaLM答題正確率是OpenAI自行實測的結果,而非Google官方數據。值得注意的是,GPT-4對翻譯成中文版的MMLU答題正確率也達到了80.1%,日語和韓語版也都有70至80%的正確率。

問及圖中異常之處,GPT-4也可以找出。

問及圖中異常之處,GPT-4也可以找出。

迷因圖片也難不到GPT-4,而且不失幽默。OpenAI

迷因圖片也難不到GPT-4,而且不失幽默。OpenAI

OpenAI說,雖然在一般對話中,GPT-3.5和GPT-4兩種版本模型的生成內容相當類似,但是當任務的複雜度達到一定門檻時,差異就會浮現,GPT-4更有能力處理更細膩的指令。

根據OpenAI,摩根士丹利正在使用 GPT-4 來整理數據,電子支付商Stripe也在測試是否可利用GPT-4來杜絕詐騙,其他客戶還包含線上語言學習 App「Duolingo」、線上學習平台可汗學院 (Khan Academy) 以及冰島政府。

GPT-4目前先開放了文字輸入功能予ChatGPT Plus付費用戶,特定合作夥伴可優先排入試用新版。至於圖片輸入功能目前仍在預覽階段。

GPT-4可以分解解讀漫畫的重點。OpenAI

GPT-4可以分解解讀漫畫的重點。OpenAI

多模態AI模型GPT-4,可支援圖片輸入,可解釋還能生成網頁程式碼。OpenAI

多模態AI模型GPT-4,可支援圖片輸入,可解釋還能生成網頁程式碼。OpenAI

往下看更多文章

世界首屆「AI小姐」選美大賽五月舉行 三標準作評判依據評審團含AI網紅

2024年04月18日 10:20 最後更新:11:52

社交訂閱平台Fanvue將於五月舉辦世界首屆「AI小姐」選美大賽,參賽者都是AI生成的美女模特,評審將以美貌、技術和社交媒體影響力三個標準作為評判依據。

Fanvue聯合創始人:希望活動成為「人工智能創造者經濟領域的奧斯卡獎」

Fanvue表示,預計將有數千名AI佳麗參賽,首先選出最後的十強,然後在下個月10日公布最終冠亞季軍的結果。Fanvue聯合創始人Will Monanage表示,希望這個活動能成為「人工智能創造者經濟領域的奧斯卡獎」。

評審將以美貌、技術和社交媒體影響力三個標準作為評判依據

Fanvue在聲明中表示:「AI小姐是世界上第一個為AI生成模特兒設計的選美大賽。評判準則將根據美貌、技術和社交媒體影響力來評判,具備這些條件的AI佳麗將有機會贏得AI小姐的冠軍。」最終獲得冠軍的AI佳麗將獲得13,000美元的獎金,亞軍和季軍分別獲得5,000美元和2,000美元的獎金。然而,實際享受這些獎金的是AI小姐背後的創作者。

評審團由兩位AI美女網紅和兩位真人組成

評審團由兩位AI美女網紅和兩位真人組成。其中,AI美女網紅包括Aitana Lopez和Emily Pellegrini。Lopez是一位25歲的AI健身模特兒,在Instagram上擁有超過306,000名粉絲。Pellegrini則是Fanvue創作者設計的性感AI模特。另外兩位人類評審是英國唯一的選美歷史學家Sally Ann Fawcett和公關顧問Andrew Bloch。

Emily Pellegrini(IG圖片)

Emily Pellegrini(IG圖片)

選美過程將與其他選美比賽非常相似

在許多方面,整個選美過程將與其他任何選美比賽非常相似。參賽者提交的圖像將根據美麗和平衡等多個方面進行評判。

Aitana Lopez(IG圖片)

Aitana Lopez(IG圖片)

Fawcett表示:「作為世界上唯一的選美歷史學家之一,能夠參與這個充滿未來感的獎項真是令人興奮。有趣的是,現實生活中的選美佳麗和人工智能創造的佳麗以及它們與觀眾的互動方式有很多相似之處。」

你 或 有 興 趣 的 文 章