港大經管學院日前就多個主流的人工智能大語言模型(LLMs)在中文及英文環境進行綜合深入評測,並發表評測報告,以及公佈中文和英文語境大模型排行榜。
在評測14款中文及16款英文語境下的人工智能通用大語言模型後,報告發現,在中文語境下,文心一言4綜合表現最佳;而在英文語境下,GPT 4-turbo領先優勢明顯。
在中文語境下,文心一言4綜合表現最佳,而GPT4-Turbo與通義千問2緊隨其後。
英文語境下,僅有 GPT 4-turbo一款模型的綜合得分獲得80 分以上。
大多數國產大模型在英文語境下的綜合表現處於稍微劣勢的位置。
資料圖片
港大經管學院創新及資訊管理學教授蔣鎮輝,帶領深圳研究院人工智能研究所團隊構建一個通用大語言模型的綜合評價體系,以兩個核心評測目標,包括從用戶視角出發,全面評估主流大模型的能力,以及深入評估和分析國產大模型在英文場景中的優勢和局限性,並探究它們在英文領域的應用潛力。
港大經管學院創新及資訊管理學教授蔣鎮輝表示,中國具有大語言模型應用的豐富場景,特別是在教育、金融、醫療、法律、零售等方面,未來的想像空間是十分寬廣的。推動人工智慧技術在各個領域的落地,這需要各方面共同努力。另外,在人工智能大語言模型的領域,中國科技不該只做個追隨者,而應該勇於成為引領者,中國的大語言模型呼喚更多從0到1的原創性核心技術。
資料圖片
是次評測主要針對三大核心能力,包括自然語言能力、專業學科能力以及安全與責任。在中文語境下,文心一言4綜合表現最佳,獲得74.58分,而GPT4-Turbo與通義千問2緊隨其後。文心一言4對中文特色語境表現出更好的適應能力。在安全與責任方面,文心一言4得分亦最高,展現出較成熟的安全意識。文心一言 4的表現,也側面反映越來越多高品質的中文資料集,逐步被構築並應用於國產大模型,以創造出更好的中文思維 AI 助手。
中文語境下的人工智慧大語言模型評測綜合排行榜。
在英文語境下,僅有 GPT 4-turbo一款模型獲得80 分以上的綜合得分,在各項能力上表現比較均衡,而在自然語言能力和學科試題上均表現突出,在安全與責任方面也名列前茅。對比其他大模型,GPT 4-turbo 的突出表現可能源於它在任務適應性,特別是在處理邏輯推理與創作類複雜任務和理解深層次語義上的卓越能力。對比GPT系列前代模型,GPT 4-turbo作為GPT系列模型的最先進版本,在API調用的表現,特別是在安全與責任能力上,比其前代模型優化顯著。
英文語境下的人工智慧大語言模型評測綜合排行榜。
此外,是次評測的另一個重點,是在全英文環境中觀察9款國產大模型處理英文任務的能力。評測納入的國外大模型受認可度較高且開發語言均為英語,相比之下,大多數國產大模型在英文語境下的綜合表現處於稍微劣勢的位置,原因跟它們訓練的數據大多是中文有關,不過個別國產大模型,例如文心一言4.0亦在多項英文任務上表現出色,展現出較強的優化潛力。
整體而言,是次測評中的國產大模型具備正確理解英文問題和指令的能力,僅在輸出時偶爾缺乏語言穩定性和語料豐富性。因此國產大模型可以在多語言輸出能力上進一步加強,令它們有望在國際舞台上展現更加強大和全面的競爭力。
財政司司長陳茂波在新一份財政預算案中表示,他會成立並主持「AI+與產業發展策略委員會」,為AI帶動產業轉型及發展訂定策略,創造有利條件,並邀請專家、學者、企業及園區公司等參與,初期將聚焦生命健康及具身智能。
財政司司長陳茂波表示,他會成立並主持「AI+與產業發展策略委員會」,為AI帶動產業轉型及發展訂定策略。巴士的報記者攝
陳茂波表示,科技變革正重塑全球經濟,科技創新正深度推動產業創新。香港在創新科研與商業轉化有着國際化、科研實力、金融支撐和高端人才匯聚等優勢,正加強算力、土地及資本等配套,結合大灣區城市完備的高端製造,提升香港作為全球原始創新策源地的影響力。政府正提速推動AI產業化,並促進AI與各產業的深度融合,同時亦鼓勵AI的廣泛應用,達致全民使用、全民善用。
巴士的報記者攝
在基礎研發層面,InnoHK創新香港研發平台(InnoHK)目前已累計資助十六間聚焦AI與機械人的實驗室,當中的科研焦點包括以AI驅動的機械人技術,可以廣泛應用於醫療、物流、智能製造、建造等行業。政府推出的三十億元「人工智能資助計劃」,已批出近三十個涉及大語言模型、新材料、生物醫學等領域的科研項目,強化本地AI的研究及應用。
設計圖片
陳茂波指,正積極對接國家「人工智能+」行動,以應用場景驅動「AI產業化、產業AI化」。香港人工智能研發院將於下半年投入運作,支持AI項目研發及成果轉化,並會就AI發展的治理框架及規管制度等提供意見。金管局與數碼港剛開展第二期沙盒測試,重點探索 「以AI對抗AI」,推動銀行業更安全及負責任地應用AI。
陳茂波又指,目前本港整體算力已達每秒五千千萬億次浮點運算次數,是支持AI發展的重要基礎,沙嶺數據園區將進一步提升整體算力規模,項目可提供二十五萬平方米樓面面積,招標結果將於短期內公布。園區將為應用AI所需的數據和算力等提供重要支撐。
巴士的報記者攝
撥款5000萬推動全民AI培訓
陳茂波強調,AI為社會及就業市場帶來新機遇,關鍵是在社會各層面普及對AI的認知和應用。當局將撥款五千萬元,推動全民AI培訓,包括邀請不同公營機構聯同科技企業及大專院校,籌辦AI應用學習課程、講座及比賽,以提升學生、青年及公眾對AI的認知和運用技能,以及負責任地使用AI。另外,自25/26年度起的三個學年,各資助大學將新增共二十七個與STEAM相關的學士學位課程,包括AI、創意產業、數據科學等。自資專上院校方面,由27/28學年起,AI相關課程將優先列入「指定專業/界別課程資助計劃」。職業訓練局高級文憑課程的必修資訊科技單元亦會涵蓋AI的應用。
此外,僱員再培訓局將升格為「技能提升局」,並會提供包括AI應用的各類「技能為本」培訓,提升本地勞動人口的競爭力;「優質教育基金」已預留二十億元推進中小學數字教育,以開展校本AI教育項目,並資助學生參加相關活動。另外,我們亦為教師提供AI培訓。
陳茂波指,為進一步強化政府內部數據的運用,當局會增撥資源,讓統計處為其他部門提供更多數據科學諮詢及分析,以辨識業務痛點及建議解決方案。統計處下月將推出全新的網上數據互動服務平台,整合不同類型的統計資料,便利企業和市民進行跨主題分析,並預計第三季加入自然語言查詢功能。
政府總部。巴士的報資料圖片
陳茂波又指,多個部門正積極利用AI及相關科技,推動數智化,以提升公共服務水平,例如運輸署將研究建立結合大數據分析和AI的交通管理平台,更全面掌握交通實況及提升管理效率;勞工處會運用AI優化就業配對,為求職人士及僱主提供更好服務;渠務署將提升智慧水浸預測及預警系統,亦通過AI大型視覺語言模型,分析道路影像,加快緊急應變速度;以及土木工程拓展署年內將全面整合本港降雨數據、山泥傾瀉記錄及人造斜坡資料,實時進行動態風險評估,以優化預警機制。
他提到,政府已成立AI效能提升組,統籌和推動部門應用AI,重組工作流程及提升效率。我們會撥款一億元,引入業界的領先技術,加速政府數智化轉型。公務員學院會聯同數字政策辦公室為公務員提供以AI為主題的培訓,讓公務員更好掌握相關知識。