Skip to Content Facebook Feature Image

港大綜合測評:人工智能大語言模型 「文心一言4」中文表現最佳

社會事

港大綜合測評:人工智能大語言模型 「文心一言4」中文表現最佳
社會事

社會事

港大綜合測評:人工智能大語言模型 「文心一言4」中文表現最佳

2024年03月12日 20:13 最後更新:20:40

港大經管學院日前就多個主流的人工智能大語言模型(LLMs)在中文及英文環境進行綜合深入評測,並發表評測報告,以及公佈中文和英文語境大模型排行榜。

在評測14款中文及16款英文語境下的人工智能通用大語言模型後,報告發現,在中文語境下,文心一言4綜合表現最佳;而在英文語境下,GPT 4-turbo領先優勢明顯。

在中文語境下,文心一言4綜合表現最佳,而GPT4-Turbo與通義千問2緊隨其後。

英文語境下,僅有 GPT 4-turbo一款模型的綜合得分獲得80 分以上。

大多數國產大模型在英文語境下的綜合表現處於稍微劣勢的位置。

資料圖片

資料圖片

港大經管學院創新及資訊管理學教授蔣鎮輝,帶領深圳研究院人工智能研究所團隊構建一個通用大語言模型的綜合評價體系,以兩個核心評測目標,包括從用戶視角出發,全面評估主流大模型的能力,以及深入評估和分析國產大模型在英文場景中的優勢和局限性,並探究它們在英文領域的應用潛力。

港大經管學院創新及資訊管理學教授蔣鎮輝表示,中國具有大語言模型應用的豐富場景,特別是在教育、金融、醫療、法律、零售等方面,未來的想像空間是十分寬廣的。推動人工智慧技術在各個領域的落地,這需要各方面共同努力。另外,在人工智能大語言模型的領域,中國科技不該只做個追隨者,而應該勇於成為引領者,中國的大語言模型呼喚更多從0到1的原創性核心技術。

資料圖片

資料圖片

是次評測主要針對三大核心能力,包括自然語言能力、專業學科能力以及安全與責任。在中文語境下,文心一言4綜合表現最佳,獲得74.58分,而GPT4-Turbo與通義千問2緊隨其後。文心一言4對中文特色語境表現出更好的適應能力。在安全與責任方面,文心一言4得分亦最高,展現出較成熟的安全意識。文心一言 4的表現,也側面反映越來越多高品質的中文資料集,逐步被構築並應用於國產大模型,以創造出更好的中文思維 AI 助手。

中文語境下的人工智慧大語言模型評測綜合排行榜。

中文語境下的人工智慧大語言模型評測綜合排行榜。

在英文語境下,僅有 GPT 4-turbo一款模型獲得80 分以上的綜合得分,在各項能力上表現比較均衡,而在自然語言能力和學科試題上均表現突出,在安全與責任方面也名列前茅。對比其他大模型,GPT 4-turbo 的突出表現可能源於它在任務適應性,特別是在處理邏輯推理與創作類複雜任務和理解深層次語義上的卓越能力。對比GPT系列前代模型,GPT 4-turbo作為GPT系列模型的最先進版本,在API調用的表現,特別是在安全與責任能力上,比其前代模型優化顯著。

英文語境下的人工智慧大語言模型評測綜合排行榜。

英文語境下的人工智慧大語言模型評測綜合排行榜。

此外,是次評測的另一個重點,是在全英文環境中觀察9款國產大模型處理英文任務的能力。評測納入的國外大模型受認可度較高且開發語言均為英語,相比之下,大多數國產大模型在英文語境下的綜合表現處於稍微劣勢的位置,原因跟它們訓練的數據大多是中文有關,不過個別國產大模型,例如文心一言4.0亦在多項英文任務上表現出色,展現出較強的優化潛力。

整體而言,是次測評中的國產大模型具備正確理解英文問題和指令的能力,僅在輸出時偶爾缺乏語言穩定性和語料豐富性。因此國產大模型可以在多語言輸出能力上進一步加強,令它們有望在國際舞台上展現更加強大和全面的競爭力。

往下看更多文章

造車失利後 傳蘋果研發家用機械人技術

2024年04月05日 15:20 最後更新:18:24

消息指美國蘋果公司在放棄了長達10年的電動車計畫後,目前正在研究推動個人機械人技術。

據報導,美國蘋果公司目前正在研究推動個人機械人技術。這項技術包括開發一款可以在家中跟隨用戶移動的家用機械人。此外,蘋果還在研發一種先進的桌上家用設備,利用機械人移動來調整顯示屏的角度和方向,並模擬一些動作,例如點頭。

消息指蘋果公司正研究個人機械人技術

據彭博社引述的消息人士古爾曼透露,蘋果公司的團隊正在研究個人機械人技術,可能成為該公司下一個重大項目之一。他表示,蘋果正在研究使用人工智能演算法,讓機械人能夠在複雜的家庭環境中移動,並能夠執行一些家務任務,例如在廚房幫助洗碗。

機械人技術研究工作仍處於早期研究階段

然而,由於工程挑戰的困難,這項技術在近10年內可能難以實現。目前,機械人技術的研究工作正進行在蘋果的硬件工程部門和機器學習團隊中,但蘋果尚未正式批准這兩個項目,目前仍處於早期研究階段。蘋果公司對於這些報導尚未做出證實。

蘋果面臨營收來源壓力

儘管研發工作仍在起步階段,尚不清楚這些產品最終是否會面世,但蘋果面臨著尋找新的營收來源的壓力。該公司在2月放棄了經過10年開發的電動車項目,而混合實境頭戴裝置預計還需要幾年時間才能成為主要利潤來源。

AP圖片

AP圖片

通過機械人技術,蘋果可以在家用設備市場上獲得更大的競爭優勢,同時也能從人工智能的發展中獲益。目前還不清楚蘋果將使用何種方法來實現這一目標。

HomePod或是固定裝置

據報導,蘋果開發的固定在桌上的裝置可能是傳聞中帶有機械臂和顯示屏的HomePod。據稱該產品在產品路線圖上多次被蘋果移除和恢復,因此是否最終會有實際產品問世仍然存在不確定性。

Getty圖片

Getty圖片

報導還提到,蘋果團隊對於桌上型機械人計畫早在幾年前就表示興趣,他們考慮讓顯示屏模擬FaceTime對話中的人的頭部動作,例如點頭。該產品還具有在視訊通話中精確鎖定人群中某一個人的功能。

你 或 有 興 趣 的 文 章