Skip to Content Facebook Feature Image

巴士的專訪|力壓OpenAI!AI六小虎MiniMax技術三年三躍進 語音模型輸出超逼真港式粵語

社會事

巴士的專訪|力壓OpenAI!AI六小虎MiniMax技術三年三躍進 語音模型輸出超逼真港式粵語
社會事

社會事

巴士的專訪|力壓OpenAI!AI六小虎MiniMax技術三年三躍進 語音模型輸出超逼真港式粵語

2025年09月15日 08:00 最後更新:11月22日 15:35

人工智能浪潮席捲全球,行業競爭激烈有目共睹。然而,在國際權威語音評測榜 Artificial Analysis 和 Hugging Face TTS Arena 中,竟有一家中國企業脫穎而出,力壓 OpenAI、ElevenLabs 等國際巨頭——它就是上海稀宇科技有限公司(MiniMax)。

Speech-02的商用定價僅為全球頭部語音模型ElevenLabs的四分之一。Artificial Analysis 評測榜單截圖

Speech-02的商用定價僅為全球頭部語音模型ElevenLabs的四分之一。Artificial Analysis 評測榜單截圖

公司於2024年9月底正式推出粵語模型,並於今年5月實現了語音模型的重大升級。大灣區業務負責人黃耿佳(Leo)接受《巴士的報》訪問時表示,新一代模型被認為自然度極高、近乎真人發聲。儘管MiniMax在港業務目前仍處於起步階段,但他相信透過持續的技術深度優化與本地合作,應用範圍將愈來愈廣泛。

更多相片
Speech-02的商用定價僅為全球頭部語音模型ElevenLabs的四分之一。Artificial Analysis 評測榜單截圖

Speech-02的商用定價僅為全球頭部語音模型ElevenLabs的四分之一。Artificial Analysis 評測榜單截圖

Minimax大灣區負責人黃耿佳(巴士的報攝)

Minimax大灣區負責人黃耿佳(巴士的報攝)

A16z的top 50 ai產品排行榜上,Minimax的hailuo AI 亦榜上有名。資料圖片

A16z的top 50 ai產品排行榜上,Minimax的hailuo AI 亦榜上有名。資料圖片

早前在社交媒體爆紅的貓咪跳水影片,其實是由MiniMax旗下產品生成。小紅書截圖

早前在社交媒體爆紅的貓咪跳水影片,其實是由MiniMax旗下產品生成。小紅書截圖

只要輸入文字,AI就可輸出語音。用戶可按喜好、需求,選擇相應的聲音、模式及語調。網頁截圖

只要輸入文字,AI就可輸出語音。用戶可按喜好、需求,選擇相應的聲音、模式及語調。網頁截圖

用戶更可調整輸出情緒、語速、聲調及音量。網頁截圖

用戶更可調整輸出情緒、語速、聲調及音量。網頁截圖

MiniMax對香港市場的增長潛力充滿信心。資料圖片

MiniMax對香港市場的增長潛力充滿信心。資料圖片

MiniMax在未來會堅持技術創新,繼續為智能未來貢獻力量。WAIC 2025大會MiniMax展區照片

MiniMax在未來會堅持技術創新,繼續為智能未來貢獻力量。WAIC 2025大會MiniMax展區照片

Minimax大灣區負責人黃耿佳(巴士的報攝)

Minimax大灣區負責人黃耿佳(巴士的報攝)

​​從互動產品到智能體三級跳​​

MiniMax自創立以來便專注於文本、語音及視覺多模態融合技術的研發,致力打造通用人工智能系統。Leo回顧發展歷程時說,公司成立初期GPT-3.5尚未面世,為向市場展示大模型技術的潛力,MiniMax率先推出了第一代面向消費者的產品線,包括「星野」和「Talkie」等AI互動產品,吸引市場廣泛關注。

MiniMax 秉持「技術驅動」的理念,在人工智能領域持續突破。先是推出海螺等能完成文章摘要、文本生成等生產力工具,其後又進一步推出Agent智能體產品,方便用戶處理更複雜的任務,如影片製作、網站搭建及簡報(powerpoint)生成等。

A16z的top 50 ai產品排行榜上,Minimax的hailuo AI 亦榜上有名。資料圖片

A16z的top 50 ai產品排行榜上,Minimax的hailuo AI 亦榜上有名。資料圖片

早前在社交媒體爆紅的貓咪跳水影片,其實是由MiniMax旗下產品生成。小紅書截圖

早前在社交媒體爆紅的貓咪跳水影片,其實是由MiniMax旗下產品生成。小紅書截圖

「文生音」是強項 粵語處理首上線

MiniMax能夠在國際評測中奪得雙料冠軍非偶然,其核心競爭力正來自於公司的文本轉語音(Text-to-Speech)技術。公司於2024年9月底正式推出粵語模型,並於今年5月實現了語音模型的重大升級。Leo坦言,開發粵語模型的過程極具挑戰,幾乎相當於「從零開始」、「重新訓練」。

憑藉千億參數規模的文本訓練基礎,該模型能夠精准識別粵語中獨特的表達方式——包括中英文混雜的常見文本。不僅在字錯率、音色相似度等客觀指標上領先業界,在用戶盲測中也獲得好評,許多使用者認為其生成語音自然流暢、真實度接近人聲。

只要輸入文字,AI就可輸出語音。用戶可按喜好、需求,選擇相應的聲音、模式及語調。網頁截圖

只要輸入文字,AI就可輸出語音。用戶可按喜好、需求,選擇相應的聲音、模式及語調。網頁截圖

「相似度」與「自然度」要平衡

Leo表示,如何平衡語音的「相似度」與「自然度」是行業普遍面臨的挑戰,「許多用戶既希望聲音『像真人』,又期待『更好聽』,正如拍照後希望美化一樣」。他舉例,在有聲書、智能客服等應用中,用戶更看重聲音是否自然流暢、語調是否舒適,而不強求模仿某一特定真人;反之,在強調知識產權(IP)屬性的場景——如知名主播或在線教育名師——則需盡可能還原真實音色,以保持其IP辨識度與粉絲認同感。

用戶更可調整輸出情緒、語速、聲調及音量。網頁截圖

用戶更可調整輸出情緒、語速、聲調及音量。網頁截圖

為解決這一矛盾,新模型同步支持「高相似度」與「高自然度」兩種輸出模式,讓用戶可自由選擇「像」還是「好」的生成效果。

以港式粵語為主要訓練方向

粵語使用人口眾多且地域口音多元,Leo強調,MiniMax以香港粵語作為重點優化方向,針對其發音特點、語調起伏和語氣詞運用等細節進行深度打磨,「粵語的書面語與口語之間存在顯著差異,比如書寫時是『Strawberry』,但在香港語境中卻要讀成『士多啤梨』。」他補充道,讓模型準確理解同一事物在不同語境中的表達方式,是技術突破過程中最耗時的挑戰之一。

深耕香港 輻射全球​

相比其他市場,香港憑藉其高度國際化的資金環境、政策優勢及在大灣區中的戰略地位,成為MiniMax全球化佈局的重要支點。雖然在港業務開展時間較短,目前收入規模仍處於起步階段,但Leo對香港市場的增長潛力充滿信心:「香港不僅用戶付費意願與能力突出,更是輻射海外市場的理想平台,對我們實現全球化戰略具有關鍵意義。」

MiniMax對香港市場的增長潛力充滿信心。資料圖片

MiniMax對香港市場的增長潛力充滿信心。資料圖片

目前,MiniMax的AI技術已實質性落地香港金融、醫療及法律等多個專業領域。Leo透露,公司已與本地金融機構展開合作,透過智能文本模型為企業員工提供培訓解決方案。隨著粵語語音模型正式推出,結合越發成熟的虛擬數字人技術,團隊正積極開發適用於智能客服、多語種語音交互等場景的革新應用。

保持公司核心力 為智能未來貢獻力量

在競爭日益激烈的人工智能賽道中,MiniMax始終保持技術領先優勢,這歸功於公司對AI技術趨勢的深刻理解、快速產品化的能力及高度集中的執行力。Leo解釋,「一旦明確方向,我們能夠迅速整合全公司資源全力推進,這種敏捷性使我們對市場變化保持極高響應速度。」未來,MiniMax將繼續堅持核心技術創新,為構建智能化未來貢獻力量。

MiniMax在未來會堅持技術創新,繼續為智能未來貢獻力量。WAIC 2025大會MiniMax展區照片

MiniMax在未來會堅持技術創新,繼續為智能未來貢獻力量。WAIC 2025大會MiniMax展區照片

SIGGRAPH Asia 2025 於灣仔會展舉行,展示人工智能、即時動捕及多項創作技術最新應用,大會表示,多個項目收到歷來最多投稿。

SIGGRAPH Asia 2025 多位項目主席。巴士的報記者攝

SIGGRAPH Asia 2025 多位項目主席。巴士的報記者攝

第十八屆 ACM SIGGRAPH Asia 2025(計算機圖形學與互動技術會議與展會)於12月15日至18日在香港會議展覽中心舉行,除展示最新技術外,亦吸引來自世界各地的研究人員、藝術家及科技企業參與,內容涵蓋電腦圖形、動畫、互動媒體、擴增實境及人工智能等領域。

大會主席、香港大學教授Taku Komura在周二(16日)發布會上表示,本屆會議以生成式技術與創意實踐為核心,多個項目收到歷來最多投稿,反映人工智能正持續影響電腦圖形及視覺創作發展。

大會主席、香港大學教授 Taku Komura 。巴士的報記者攝

大會主席、香港大學教授 Taku Komura 。巴士的報記者攝

今年藝術展廊以「生成未來」為主題,展出多件結合人工智能、程式碼及機械系統的作品。項目主席指出,藝術展共接獲逾200份投稿,最終選出17件作品展出,呈現科技與藝術之間的互動關係。

動畫節方面,今年共收到488份作品,經評選後選出33部入圍作品,於動畫劇院及電子劇院放映,並將於會期最後一日(週四,12月18日)放映完整版本,讓觀眾了解動畫製作成果。

動畫節今年共收到488份作品,經評選後選出33部入圍作品,將於會期最後一日放映完整版本。巴士的報記者攝

動畫節今年共收到488份作品,經評選後選出33部入圍作品,將於會期最後一日放映完整版本。巴士的報記者攝

展區內,多間國際企業即場展示技術應用。來自中國的華為在展位展示多款裝置,涵蓋手機、智能手錶、筆電及平板產品,並介紹其系統如何支援多裝置協作及健康監測功能。華為展位工作人員表示,相關裝置可在日常使用情境下進行健康數據檢測,並配合系統生態提供不同應用體驗。

華為在展位展示多款裝置產品,支援多裝置協作及健康監測功能。巴士的報記者攝

華為在展位展示多款裝置產品,支援多裝置協作及健康監測功能。巴士的報記者攝

騰訊則於展區展示多項與人工智能及內容創作相關的技術應用,包括遊戲、影音及生成式模型研究成果,相關展示聚焦人工智能在內容製作及數碼創作流程中的應用方向。

騰訊展示多項與人工智能及內容創作相關的技術應用,包括遊戲、影音及研究成果等。巴士的報記者攝

騰訊展示多項與人工智能及內容創作相關的技術應用,包括遊戲、影音及研究成果等。巴士的報記者攝

在技術示範方面,來自英國的Vicon展示結合光學動作捕捉與即時推算系統的混合方案,可即時將人物動作輸出至遊戲引擎,協助動畫及遊戲團隊於製作早期預覽角色動作效果。

Vicon代表介紹:「這套方案讓動畫師在製作早期,已能即時看到角色、場景及燈光效果,節省後期調整時間。」巴士的報記者攝

Vicon代表介紹:「這套方案讓動畫師在製作早期,已能即時看到角色、場景及燈光效果,節省後期調整時間。」巴士的報記者攝

此外,展會亦有來自日本及東南亞的企業展示模擬系統、三維重建及原創遊戲IP,其中馬來西亞展館更是集合多間當地遊戲及動畫工作室,相關企業表示,其產品及服務主要面向國際市場,並希望透過 SIGGRAPH Asia 與全球業界建立合作。

馬來西亞展館更是集合多間當地遊戲及動畫工作室。巴士的報記者攝

馬來西亞展館更是集合多間當地遊戲及動畫工作室。巴士的報記者攝

官方資料顯示,SIGGRAPH Asia 2025 預計吸引來自50多個國家和地區的超過7000名業界人士參與,會期內設有多項技術展示、論壇及專題活動,涵蓋研究、創作及產業應用層面,吸引不同背景的業界人士到場參與。

SIGGRAPH Asia 2025 於灣仔會展舉行,匯聚全球業界展示人工智能、動畫及即時動捕等電腦圖形與創作技術最新發展。巴士的報記者攝

SIGGRAPH Asia 2025 於灣仔會展舉行,匯聚全球業界展示人工智能、動畫及即時動捕等電腦圖形與創作技術最新發展。巴士的報記者攝

SIGGRAPH Asia 2025 於灣仔會展舉行,匯聚全球業界展示人工智能、動畫及即時動捕等電腦圖形與創作技術最新發展。巴士的報記者攝

SIGGRAPH Asia 2025 於灣仔會展舉行,匯聚全球業界展示人工智能、動畫及即時動捕等電腦圖形與創作技術最新發展。巴士的報記者攝

SIGGRAPH Asia 2025 於灣仔會展舉行,匯聚全球業界展示人工智能、動畫及即時動捕等電腦圖形與創作技術最新發展。巴士的報記者攝

SIGGRAPH Asia 2025 於灣仔會展舉行,匯聚全球業界展示人工智能、動畫及即時動捕等電腦圖形與創作技術最新發展。巴士的報記者攝

SIGGRAPH Asia 2025 於灣仔會展舉行,匯聚全球業界展示人工智能、動畫及即時動捕等電腦圖形與創作技術最新發展。巴士的報記者攝

SIGGRAPH Asia 2025 於灣仔會展舉行,匯聚全球業界展示人工智能、動畫及即時動捕等電腦圖形與創作技術最新發展。巴士的報記者攝

SIGGRAPH Asia 2025 於灣仔會展舉行,匯聚全球業界展示人工智能、動畫及即時動捕等電腦圖形與創作技術最新發展。巴士的報記者攝

SIGGRAPH Asia 2025 於灣仔會展舉行,匯聚全球業界展示人工智能、動畫及即時動捕等電腦圖形與創作技術最新發展。巴士的報記者攝

SIGGRAPH Asia 2025 於灣仔會展舉行,匯聚全球業界展示人工智能、動畫及即時動捕等電腦圖形與創作技術最新發展。巴士的報記者攝

SIGGRAPH Asia 2025 於灣仔會展舉行,匯聚全球業界展示人工智能、動畫及即時動捕等電腦圖形與創作技術最新發展。巴士的報記者攝

SIGGRAPH Asia 2025 於灣仔會展舉行,匯聚全球業界展示人工智能、動畫及即時動捕等電腦圖形與創作技術最新發展。巴士的報記者攝

SIGGRAPH Asia 2025 於灣仔會展舉行,匯聚全球業界展示人工智能、動畫及即時動捕等電腦圖形與創作技術最新發展。巴士的報記者攝

SIGGRAPH Asia 2025 於灣仔會展舉行,匯聚全球業界展示人工智能、動畫及即時動捕等電腦圖形與創作技術最新發展。巴士的報記者攝

SIGGRAPH Asia 2025 於灣仔會展舉行,匯聚全球業界展示人工智能、動畫及即時動捕等電腦圖形與創作技術最新發展。巴士的報記者攝

你 或 有 興 趣 的 文 章