Skip to Content Facebook Feature Image

港大綜合測評:人工智能大語言模型 「文心一言4」中文表現最佳

港大綜合測評:人工智能大語言模型 「文心一言4」中文表現最佳

港大綜合測評:人工智能大語言模型 「文心一言4」中文表現最佳

2024年03月12日 20:13 最後更新:20:40

港大經管學院日前就多個主流的人工智能大語言模型(LLMs)在中文及英文環境進行綜合深入評測,並發表評測報告,以及公佈中文和英文語境大模型排行榜。

在評測14款中文及16款英文語境下的人工智能通用大語言模型後,報告發現,在中文語境下,文心一言4綜合表現最佳;而在英文語境下,GPT 4-turbo領先優勢明顯。

更多相片
資料圖片

資料圖片

資料圖片

資料圖片

中文語境下的人工智慧大語言模型評測綜合排行榜。

中文語境下的人工智慧大語言模型評測綜合排行榜。

英文語境下的人工智慧大語言模型評測綜合排行榜。

英文語境下的人工智慧大語言模型評測綜合排行榜。

在中文語境下,文心一言4綜合表現最佳,而GPT4-Turbo與通義千問2緊隨其後。

英文語境下,僅有 GPT 4-turbo一款模型的綜合得分獲得80 分以上。

大多數國產大模型在英文語境下的綜合表現處於稍微劣勢的位置。

資料圖片

資料圖片

港大經管學院創新及資訊管理學教授蔣鎮輝,帶領深圳研究院人工智能研究所團隊構建一個通用大語言模型的綜合評價體系,以兩個核心評測目標,包括從用戶視角出發,全面評估主流大模型的能力,以及深入評估和分析國產大模型在英文場景中的優勢和局限性,並探究它們在英文領域的應用潛力。

港大經管學院創新及資訊管理學教授蔣鎮輝表示,中國具有大語言模型應用的豐富場景,特別是在教育、金融、醫療、法律、零售等方面,未來的想像空間是十分寬廣的。推動人工智慧技術在各個領域的落地,這需要各方面共同努力。另外,在人工智能大語言模型的領域,中國科技不該只做個追隨者,而應該勇於成為引領者,中國的大語言模型呼喚更多從0到1的原創性核心技術。

資料圖片

資料圖片

是次評測主要針對三大核心能力,包括自然語言能力、專業學科能力以及安全與責任。在中文語境下,文心一言4綜合表現最佳,獲得74.58分,而GPT4-Turbo與通義千問2緊隨其後。文心一言4對中文特色語境表現出更好的適應能力。在安全與責任方面,文心一言4得分亦最高,展現出較成熟的安全意識。文心一言 4的表現,也側面反映越來越多高品質的中文資料集,逐步被構築並應用於國產大模型,以創造出更好的中文思維 AI 助手。

中文語境下的人工智慧大語言模型評測綜合排行榜。

中文語境下的人工智慧大語言模型評測綜合排行榜。

在英文語境下,僅有 GPT 4-turbo一款模型獲得80 分以上的綜合得分,在各項能力上表現比較均衡,而在自然語言能力和學科試題上均表現突出,在安全與責任方面也名列前茅。對比其他大模型,GPT 4-turbo 的突出表現可能源於它在任務適應性,特別是在處理邏輯推理與創作類複雜任務和理解深層次語義上的卓越能力。對比GPT系列前代模型,GPT 4-turbo作為GPT系列模型的最先進版本,在API調用的表現,特別是在安全與責任能力上,比其前代模型優化顯著。

英文語境下的人工智慧大語言模型評測綜合排行榜。

英文語境下的人工智慧大語言模型評測綜合排行榜。

此外,是次評測的另一個重點,是在全英文環境中觀察9款國產大模型處理英文任務的能力。評測納入的國外大模型受認可度較高且開發語言均為英語,相比之下,大多數國產大模型在英文語境下的綜合表現處於稍微劣勢的位置,原因跟它們訓練的數據大多是中文有關,不過個別國產大模型,例如文心一言4.0亦在多項英文任務上表現出色,展現出較強的優化潛力。

整體而言,是次測評中的國產大模型具備正確理解英文問題和指令的能力,僅在輸出時偶爾缺乏語言穩定性和語料豐富性。因此國產大模型可以在多語言輸出能力上進一步加強,令它們有望在國際舞台上展現更加強大和全面的競爭力。

美國加州奧克蘭消息,馬斯克(Elon Musk)周四在OpenAI一宗爭議性審訊中,與對方律師激辯。這是他第三天出庭作證,案件圍繞OpenAI由非牟利機構轉型為估值數千億美元的牟利企業。

這宗審訊的核心,是ChatGPT的開發商OpenAI於2015年成立時,作為一間主要由馬斯克出資的非牟利初創公司。案件令這位全球首富與OpenAI聯合創辦人奧特曼(Sam Altman)對簿公堂,馬斯克指控對方違背承諾,未能將公司維持為致力於人類福祉的非牟利機構。

馬斯克於2026年4月29日周三,步入加州奧克蘭的美國聯邦地區法院走廊。(美聯社圖片/Godofredo A. Vásquez) AP圖片

馬斯克於2026年4月29日周三,步入加州奧克蘭的美國聯邦地區法院走廊。(美聯社圖片/Godofredo A. Vásquez) AP圖片

這宗高風險審訊的雙方情緒激動,當天早上以一場關乎人類存亡的討論開始,當中提及電影《未來戰士》(The Terminator),並探討證人證詞應在多大程度上聚焦人工智能(AI)安全問題。

羅傑斯法官(Yvonne Gonzalez Rogers)向馬斯克的律師表示:「儘管存在這些風險,你的客戶正在創建一間完全相同領域的公司。」她指的是馬斯克於2023年推出的xAI。她指出,人們「不想將人類的未來交到馬斯克手中」,並指示雙方在審訊期間,不得討論人工智能對人類的危險。

神經連接科技公司(Neuralink)行政總裁Jared Birchall(右),於2026年4月30日周四,步經加州奧克蘭的美國聯邦地區法院安檢。(美聯社圖片/Godofredo A. Vásquez) AP圖片

神經連接科技公司(Neuralink)行政總裁Jared Birchall(右),於2026年4月30日周四,步經加州奧克蘭的美國聯邦地區法院安檢。(美聯社圖片/Godofredo A. Vásquez) AP圖片

她強調:「這不是一宗關於人工智能安全風險的審訊。這也不是一宗關於人工智能是否已損害人類的審訊。」她續指:「總有一天,我們可能會在這個國家的聯邦法院進行那樣的審訊。但這不是那宗審訊,我們不會在這宗審訊中偏離這個議題。」

在證人席上,馬斯克對對方律師薩維特(William Savitt)的盤問表示不滿,指控對方提出誤導性問題,旨在欺騙他及陪審團。周四,薩維特一度問及馬斯克早前的證詞,當時馬斯克表示,只要投資者利潤設有上限,OpenAI便沒有違反將其維持為非牟利機構的協議。

OpenAI總裁Greg Brockman(中),於2026年4月30日周四,抵達加州奧克蘭的美國聯邦地區法院。(美聯社圖片/Godofredo A. Vásquez) AP圖片

OpenAI總裁Greg Brockman(中),於2026年4月30日周四,抵達加州奧克蘭的美國聯邦地區法院。(美聯社圖片/Godofredo A. Vásquez) AP圖片

馬斯克回應稱:「這取決於上限有多高。」薩維特隨即問道:「這不是你昨天完整的答案,對嗎?」馬斯克反駁指:「很少有答案會是完整的,特別是如果你一直打斷我的話。」他補充說,如果上限「非常高」,那麼OpenAI「那時實際上就是一間牟利公司」。

OpenAI的律師駁斥馬斯克民事訴訟中的指控,並表示從未承諾公司會永遠保持非牟利性質。該公司辯稱,馬斯克的法律挑戰旨在削弱OpenAI的迅速發展,並鞏固他於2023年作為競爭對手推出的xAI。

代表OpenAI的律師薩維特(William Savitt)(右),於2026年4月30日周四,抵達加州奧克蘭的美國聯邦地區法院。(美聯社圖片/Godofredo A. Vásquez) AP圖片

代表OpenAI的律師薩維特(William Savitt)(右),於2026年4月30日周四,抵達加州奧克蘭的美國聯邦地區法院。(美聯社圖片/Godofredo A. Vásquez) AP圖片

這宗在加州奧克蘭聯邦法院進行的審訊,預計將持續至5月下旬。羅傑斯法官周四免除馬斯克作證,但他或會稍後被傳召再次作證。

在盤問期間,薩維特亦問及馬斯克的公司——特斯拉、太空探索技術公司、Neuralink和X——是否均為牟利公司。馬斯克回答是,並確認他相信所有這些公司都「對社會有益」。

薩維特隨後問道,馬斯克離開OpenAI八年後,為何沒有自己創辦一間非牟利機構。

馬斯克回應稱:「我以為我與OpenAI一起創辦了一間非牟利機構,但他們偷走了它。」他補充說,這就是「這宗訴訟的全部基礎」。

(美聯社)

你 或 有 興 趣 的 文 章