Skip to Content Facebook Feature Image

巴士的專訪|力壓OpenAI!AI六小虎MiniMax技術三年三躍進 語音模型輸出超逼真港式粵語

社會事

巴士的專訪|力壓OpenAI!AI六小虎MiniMax技術三年三躍進 語音模型輸出超逼真港式粵語
社會事

社會事

巴士的專訪|力壓OpenAI!AI六小虎MiniMax技術三年三躍進 語音模型輸出超逼真港式粵語

2025年09月15日 08:00 最後更新:11月22日 15:35

人工智能浪潮席捲全球,行業競爭激烈有目共睹。然而,在國際權威語音評測榜 Artificial Analysis 和 Hugging Face TTS Arena 中,竟有一家中國企業脫穎而出,力壓 OpenAI、ElevenLabs 等國際巨頭——它就是上海稀宇科技有限公司(MiniMax)。

Speech-02的商用定價僅為全球頭部語音模型ElevenLabs的四分之一。Artificial Analysis 評測榜單截圖

Speech-02的商用定價僅為全球頭部語音模型ElevenLabs的四分之一。Artificial Analysis 評測榜單截圖

公司於2024年9月底正式推出粵語模型,並於今年5月實現了語音模型的重大升級。大灣區業務負責人黃耿佳(Leo)接受《巴士的報》訪問時表示,新一代模型被認為自然度極高、近乎真人發聲。儘管MiniMax在港業務目前仍處於起步階段,但他相信透過持續的技術深度優化與本地合作,應用範圍將愈來愈廣泛。

更多相片
Speech-02的商用定價僅為全球頭部語音模型ElevenLabs的四分之一。Artificial Analysis 評測榜單截圖

Speech-02的商用定價僅為全球頭部語音模型ElevenLabs的四分之一。Artificial Analysis 評測榜單截圖

Minimax大灣區負責人黃耿佳(巴士的報攝)

Minimax大灣區負責人黃耿佳(巴士的報攝)

A16z的top 50 ai產品排行榜上,Minimax的hailuo AI 亦榜上有名。資料圖片

A16z的top 50 ai產品排行榜上,Minimax的hailuo AI 亦榜上有名。資料圖片

早前在社交媒體爆紅的貓咪跳水影片,其實是由MiniMax旗下產品生成。小紅書截圖

早前在社交媒體爆紅的貓咪跳水影片,其實是由MiniMax旗下產品生成。小紅書截圖

只要輸入文字,AI就可輸出語音。用戶可按喜好、需求,選擇相應的聲音、模式及語調。網頁截圖

只要輸入文字,AI就可輸出語音。用戶可按喜好、需求,選擇相應的聲音、模式及語調。網頁截圖

用戶更可調整輸出情緒、語速、聲調及音量。網頁截圖

用戶更可調整輸出情緒、語速、聲調及音量。網頁截圖

MiniMax對香港市場的增長潛力充滿信心。資料圖片

MiniMax對香港市場的增長潛力充滿信心。資料圖片

MiniMax在未來會堅持技術創新,繼續為智能未來貢獻力量。WAIC 2025大會MiniMax展區照片

MiniMax在未來會堅持技術創新,繼續為智能未來貢獻力量。WAIC 2025大會MiniMax展區照片

Minimax大灣區負責人黃耿佳(巴士的報攝)

Minimax大灣區負責人黃耿佳(巴士的報攝)

​​從互動產品到智能體三級跳​​

MiniMax自創立以來便專注於文本、語音及視覺多模態融合技術的研發,致力打造通用人工智能系統。Leo回顧發展歷程時說,公司成立初期GPT-3.5尚未面世,為向市場展示大模型技術的潛力,MiniMax率先推出了第一代面向消費者的產品線,包括「星野」和「Talkie」等AI互動產品,吸引市場廣泛關注。

MiniMax 秉持「技術驅動」的理念,在人工智能領域持續突破。先是推出海螺等能完成文章摘要、文本生成等生產力工具,其後又進一步推出Agent智能體產品,方便用戶處理更複雜的任務,如影片製作、網站搭建及簡報(powerpoint)生成等。

A16z的top 50 ai產品排行榜上,Minimax的hailuo AI 亦榜上有名。資料圖片

A16z的top 50 ai產品排行榜上,Minimax的hailuo AI 亦榜上有名。資料圖片

早前在社交媒體爆紅的貓咪跳水影片,其實是由MiniMax旗下產品生成。小紅書截圖

早前在社交媒體爆紅的貓咪跳水影片,其實是由MiniMax旗下產品生成。小紅書截圖

「文生音」是強項 粵語處理首上線

MiniMax能夠在國際評測中奪得雙料冠軍非偶然,其核心競爭力正來自於公司的文本轉語音(Text-to-Speech)技術。公司於2024年9月底正式推出粵語模型,並於今年5月實現了語音模型的重大升級。Leo坦言,開發粵語模型的過程極具挑戰,幾乎相當於「從零開始」、「重新訓練」。

憑藉千億參數規模的文本訓練基礎,該模型能夠精准識別粵語中獨特的表達方式——包括中英文混雜的常見文本。不僅在字錯率、音色相似度等客觀指標上領先業界,在用戶盲測中也獲得好評,許多使用者認為其生成語音自然流暢、真實度接近人聲。

只要輸入文字,AI就可輸出語音。用戶可按喜好、需求,選擇相應的聲音、模式及語調。網頁截圖

只要輸入文字,AI就可輸出語音。用戶可按喜好、需求,選擇相應的聲音、模式及語調。網頁截圖

「相似度」與「自然度」要平衡

Leo表示,如何平衡語音的「相似度」與「自然度」是行業普遍面臨的挑戰,「許多用戶既希望聲音『像真人』,又期待『更好聽』,正如拍照後希望美化一樣」。他舉例,在有聲書、智能客服等應用中,用戶更看重聲音是否自然流暢、語調是否舒適,而不強求模仿某一特定真人;反之,在強調知識產權(IP)屬性的場景——如知名主播或在線教育名師——則需盡可能還原真實音色,以保持其IP辨識度與粉絲認同感。

用戶更可調整輸出情緒、語速、聲調及音量。網頁截圖

用戶更可調整輸出情緒、語速、聲調及音量。網頁截圖

為解決這一矛盾,新模型同步支持「高相似度」與「高自然度」兩種輸出模式,讓用戶可自由選擇「像」還是「好」的生成效果。

以港式粵語為主要訓練方向

粵語使用人口眾多且地域口音多元,Leo強調,MiniMax以香港粵語作為重點優化方向,針對其發音特點、語調起伏和語氣詞運用等細節進行深度打磨,「粵語的書面語與口語之間存在顯著差異,比如書寫時是『Strawberry』,但在香港語境中卻要讀成『士多啤梨』。」他補充道,讓模型準確理解同一事物在不同語境中的表達方式,是技術突破過程中最耗時的挑戰之一。

深耕香港 輻射全球​

相比其他市場,香港憑藉其高度國際化的資金環境、政策優勢及在大灣區中的戰略地位,成為MiniMax全球化佈局的重要支點。雖然在港業務開展時間較短,目前收入規模仍處於起步階段,但Leo對香港市場的增長潛力充滿信心:「香港不僅用戶付費意願與能力突出,更是輻射海外市場的理想平台,對我們實現全球化戰略具有關鍵意義。」

MiniMax對香港市場的增長潛力充滿信心。資料圖片

MiniMax對香港市場的增長潛力充滿信心。資料圖片

目前,MiniMax的AI技術已實質性落地香港金融、醫療及法律等多個專業領域。Leo透露,公司已與本地金融機構展開合作,透過智能文本模型為企業員工提供培訓解決方案。隨著粵語語音模型正式推出,結合越發成熟的虛擬數字人技術,團隊正積極開發適用於智能客服、多語種語音交互等場景的革新應用。

保持公司核心力 為智能未來貢獻力量

在競爭日益激烈的人工智能賽道中,MiniMax始終保持技術領先優勢,這歸功於公司對AI技術趨勢的深刻理解、快速產品化的能力及高度集中的執行力。Leo解釋,「一旦明確方向,我們能夠迅速整合全公司資源全力推進,這種敏捷性使我們對市場變化保持極高響應速度。」未來,MiniMax將繼續堅持核心技術創新,為構建智能化未來貢獻力量。

MiniMax在未來會堅持技術創新,繼續為智能未來貢獻力量。WAIC 2025大會MiniMax展區照片

MiniMax在未來會堅持技術創新,繼續為智能未來貢獻力量。WAIC 2025大會MiniMax展區照片

馬斯克與OpenAI行政總裁奧爾特曼之間的訴訟,清楚表明兩位億萬富翁在一點上達成共識:開發人工智能需要大量資源及巨額資金。

現時人工智能熱潮席捲股市,推動全球晶片廠及耗能數據中心建設,以維持聊天機械人運作,這似乎顯而易見。但證詞及證據顯示,近十年前,對人工智能行業擁有過度掌控權的人士,已私下討論其成本問題。

OpenAI律師薩維特於2026年5月18日周一,在加州奧克蘭一宗聯邦審訊中,陪審團裁定該公司勝訴後,向傳媒發言。(美聯社圖片/謝特里) AP圖片

OpenAI律師薩維特於2026年5月18日周一,在加州奧克蘭一宗聯邦審訊中,陪審團裁定該公司勝訴後,向傳媒發言。(美聯社圖片/謝特里) AP圖片

馬斯克在2018年發給奧爾特曼及其他OpenAI共同創辦人的電郵中表示,他日益認為與Google競爭是徒勞無功,並指「即使籌集數億美元亦不足夠」。他續稱:「這需要每年即時投入數十億美元,否則便算了。」

不斷飆升的成本影響了OpenAI的發展軌跡。該公司於2015年成立時為非牟利機構,致力為公共利益開發人工智能,現已成為市值達8,520億美元的商業企業。隨着總部設於三藩市的OpenAI及其他人工智能公司,準備在華爾街進行史上最大規模的首次公開招股,這次審訊亦引發外界質疑,除了商業利益外,還有甚麼能主導人工智能的未來。

康奈爾科技學院營運、科技及創新學教授吉羅特拉表示,雖然非牟利資金亦能成就大事,但在OpenAI早期,人工智能的不確定性亦使其成為高風險投資。他指,現時對人工智能的投資已不再是投機性質。

吉羅特拉稱:「現時是對已知有效事物的傳統投資。人們想要你的汽車,你便需要在需求出現前興建工廠。」

馬斯克在訴訟中指控OpenAI背棄其開發人工智能的慈善使命,稱奧爾特曼及共同創辦人布羅克曼背着他,不當為自己謀取利益。OpenAI則反駁指,馬斯克曾支持成立牟利公司的計劃,並於2024年提出訴訟,旨在削弱ChatGPT製造商的成功,因他正建立自己的AI公司xAI。

加州奧克蘭的聯邦陪審團,在為期三周的審訊後,於周一裁定馬斯克的訴訟錯過法定限期,並駁回案件,因此從未就案件實質內容作出裁決。

然而,這次審訊記錄了內部鬥爭的細節,這些鬥爭預示了現今社會及政治對人工智能影響及成本的辯論。

微軟首席技術官斯科特作證時解釋,為何在創始捐助者馬斯克於2018年退出OpenAI董事會後,其公司選擇投資數十億美元協助開發OpenAI的技術。他表示:「考慮到人工智能現時的發展,這在當時是難以想像的。」

斯科特稱:「那是在ChatGPT出現之前,亦是在現時這些非凡事物發生之前,因此微軟大部分人對這些說法能否實現,都非常懷疑。」

作為訴訟被告的微軟,當時亦正尋求在人工智能研究方面與Google競爭的方法。OpenAI告知微軟,他們需要更多數據及運算資源,若能擁有這些,其人工智能系統將會變得更強大。

斯科特表示:「他們想要及我們最終協助他們完成的,都是資本密集型項目,例如興建巨型數據中心,內裏充滿非常昂貴的電腦及網絡。」

OpenAI轉型為商業企業,至今尚未盈利,但很可能最快於今年稍後時間進行首次公開招股。至於盈利在這次轉型中扮演多大程度的主要推動力,仍存在爭議。

然而,明確的是,所涉及的成本限制了該公司的選擇。

在OpenAI推出ChatGPT超五年之前,該公司曾取得突破,成功訓練人工智能系統擊敗DOTA 2的職業玩家。DOTA 2是一款多人電子遊戲,當中包含食人魔、半人馬及其他奇幻生物。

奧爾特曼作證時稱:「坦白說,世界的反應比我預期的要少,但對我們內部而言,這確實感覺像是一個時刻,我們展示了我們的技術,利用一種稱為強化學習的方法,可以承擔一項極其複雜的任務。」

OpenAI於2017年在西雅圖一場比賽中,直播擊敗一名頂尖DOTA 2玩家,使這家小型非牟利機構成為Google的主要競爭者。當時Google被視為人工智能研究的領導者。這次勝利亦引發了OpenAI內部對如何以非牟利機構身份競爭的深刻反思,因其主要依賴馬斯克及其他捐助者。

奧爾特曼談及馬斯克時表示:「他印象深刻。」他續指,DOTA勝利後,馬斯克立即表示,他認為我們確實需要更認真地思考如何獲得更多資金。

對於另一位共同創辦人兼OpenAI前首席科學家蘇茨克維爾而言,DOTA的勝利是討論OpenAI是否應成立牟利公司以更易籌集資金的開端。

蘇茨克維爾向陪審團表示:「我們意識到,要在人工智能方面取得進展,你需要一台大型電腦。你需要大型電腦,因為大腦就是一台大型電腦。大腦有數千億個神經元及數百萬億個突觸。」

隨後是一場意志之戰——奧爾特曼與馬斯克爭奪OpenAI的領導權,馬斯克後來更試圖將該人工智能實驗室併入其汽車公司特斯拉。OpenAI其他領導層抵制,馬斯克最終辭職。

(美聯社)

你 或 有 興 趣 的 文 章