Skip to Content Facebook Feature Image

港大綜合測評:人工智能大語言模型 「文心一言4」中文表現最佳

港大綜合測評:人工智能大語言模型 「文心一言4」中文表現最佳

港大綜合測評:人工智能大語言模型 「文心一言4」中文表現最佳

2024年03月12日 20:13 最後更新:20:40

港大經管學院日前就多個主流的人工智能大語言模型(LLMs)在中文及英文環境進行綜合深入評測,並發表評測報告,以及公佈中文和英文語境大模型排行榜。

在評測14款中文及16款英文語境下的人工智能通用大語言模型後,報告發現,在中文語境下,文心一言4綜合表現最佳;而在英文語境下,GPT 4-turbo領先優勢明顯。

更多相片
資料圖片

資料圖片

資料圖片

資料圖片

中文語境下的人工智慧大語言模型評測綜合排行榜。

中文語境下的人工智慧大語言模型評測綜合排行榜。

英文語境下的人工智慧大語言模型評測綜合排行榜。

英文語境下的人工智慧大語言模型評測綜合排行榜。

在中文語境下,文心一言4綜合表現最佳,而GPT4-Turbo與通義千問2緊隨其後。

英文語境下,僅有 GPT 4-turbo一款模型的綜合得分獲得80 分以上。

大多數國產大模型在英文語境下的綜合表現處於稍微劣勢的位置。

資料圖片

資料圖片

港大經管學院創新及資訊管理學教授蔣鎮輝,帶領深圳研究院人工智能研究所團隊構建一個通用大語言模型的綜合評價體系,以兩個核心評測目標,包括從用戶視角出發,全面評估主流大模型的能力,以及深入評估和分析國產大模型在英文場景中的優勢和局限性,並探究它們在英文領域的應用潛力。

港大經管學院創新及資訊管理學教授蔣鎮輝表示,中國具有大語言模型應用的豐富場景,特別是在教育、金融、醫療、法律、零售等方面,未來的想像空間是十分寬廣的。推動人工智慧技術在各個領域的落地,這需要各方面共同努力。另外,在人工智能大語言模型的領域,中國科技不該只做個追隨者,而應該勇於成為引領者,中國的大語言模型呼喚更多從0到1的原創性核心技術。

資料圖片

資料圖片

是次評測主要針對三大核心能力,包括自然語言能力、專業學科能力以及安全與責任。在中文語境下,文心一言4綜合表現最佳,獲得74.58分,而GPT4-Turbo與通義千問2緊隨其後。文心一言4對中文特色語境表現出更好的適應能力。在安全與責任方面,文心一言4得分亦最高,展現出較成熟的安全意識。文心一言 4的表現,也側面反映越來越多高品質的中文資料集,逐步被構築並應用於國產大模型,以創造出更好的中文思維 AI 助手。

中文語境下的人工智慧大語言模型評測綜合排行榜。

中文語境下的人工智慧大語言模型評測綜合排行榜。

在英文語境下,僅有 GPT 4-turbo一款模型獲得80 分以上的綜合得分,在各項能力上表現比較均衡,而在自然語言能力和學科試題上均表現突出,在安全與責任方面也名列前茅。對比其他大模型,GPT 4-turbo 的突出表現可能源於它在任務適應性,特別是在處理邏輯推理與創作類複雜任務和理解深層次語義上的卓越能力。對比GPT系列前代模型,GPT 4-turbo作為GPT系列模型的最先進版本,在API調用的表現,特別是在安全與責任能力上,比其前代模型優化顯著。

英文語境下的人工智慧大語言模型評測綜合排行榜。

英文語境下的人工智慧大語言模型評測綜合排行榜。

此外,是次評測的另一個重點,是在全英文環境中觀察9款國產大模型處理英文任務的能力。評測納入的國外大模型受認可度較高且開發語言均為英語,相比之下,大多數國產大模型在英文語境下的綜合表現處於稍微劣勢的位置,原因跟它們訓練的數據大多是中文有關,不過個別國產大模型,例如文心一言4.0亦在多項英文任務上表現出色,展現出較強的優化潛力。

整體而言,是次測評中的國產大模型具備正確理解英文問題和指令的能力,僅在輸出時偶爾缺乏語言穩定性和語料豐富性。因此國產大模型可以在多語言輸出能力上進一步加強,令它們有望在國際舞台上展現更加強大和全面的競爭力。

美國三藩市消息,特朗普政府正就一項法官命令提出上訴,該命令阻止聯邦政府在與五角大樓就人工智能(AI)軍事用途問題產生爭議後,對人工智能公司Anthropic採取懲罰措施。

司法部律師周四在三藩市聯邦法院提交通知,表明打算就美國聯邦地區法院法官蓮恩(Rita Lin)上周的裁決提出上訴。第九巡迴上訴法院將審查蓮恩的命令,並設定4月30日為司法部提交文件,闡述推翻該裁決理由的截止日期。

檔案圖片:2026年2月26日,紐約一台電腦屏幕上顯示Anthropic網站頁面及公司標誌。(美聯社圖片/Patrick Sison) AP圖片

檔案圖片:2026年2月26日,紐約一台電腦屏幕上顯示Anthropic網站頁面及公司標誌。(美聯社圖片/Patrick Sison) AP圖片

蓮恩上周表示,她阻止五角大樓將Anthropic列為供應鏈風險。她又指,她阻止執行總統特朗普(President Donald Trump)的社交媒體指令,該指令命令所有聯邦機構停止使用Anthropic及其聊天機械人Claude。

蓮恩指出,特朗普政府及國防部長赫格塞斯(Pete Hegseth)對該人工智能公司採取的「廣泛懲罰措施」,似乎是武斷、反覆無常,並可能「癱瘓Anthropic」,特別是赫格塞斯動用一項罕見的軍事權力,該權力此前曾針對外國對手。

檔案圖片:2026年3月31日,國防部長赫格塞斯在華盛頓五角大樓舉行的新聞發布會上向媒體發言。(美聯社圖片/Manuel Balce Ceneta) AP圖片

檔案圖片:2026年3月31日,國防部長赫格塞斯在華盛頓五角大樓舉行的新聞發布會上向媒體發言。(美聯社圖片/Manuel Balce Ceneta) AP圖片

蓮恩寫道:「現行法規中沒有任何內容支持這種奧威爾式的觀念,即一家美國公司僅因表達與政府意見不合,就可能被貼上美國潛在對手和破壞者的標籤。」

五角大樓一名高級官員上周形容蓮恩的命令是「恥辱」。美國國防部副部長兼五角大樓首席技術官米高(Emil Michael)在社交媒體上表示,這將會擾亂赫格塞斯「與其選擇的夥伴進行軍事行動的全面能力」。

蓮恩已將其命令暫緩執行一周,這讓五角大樓有時間將案件提交至第九巡迴上訴法院。她亦表示,其命令不要求五角大樓使用Anthropic的產品,亦不阻止其轉用其他人工智能供應商。

Anthropic亦已提交另一宗範圍較窄的案件,該案仍在華盛頓特區的聯邦上訴法院審理中。該案涉及五角大樓正試圖用來宣布Anthropic為供應鏈風險的另一項規定。

特朗普和赫格塞斯於2月27日公開宣布對Anthropic採取行動,此前,一項國防合約的談判破裂,原因在於該公司試圖阻止其人工智能技術用於全自動武器或監控美國公民。五角大樓則辯稱,應能以其認為合法的方式使用Claude。

多個第三方已提交法律簡報支持Anthropic的案件,包括微軟(Microsoft)、行業貿易團體、普通科技工作者、退役美國軍事領袖及一群天主教神學家。

(美聯社)

你 或 有 興 趣 的 文 章