Skip to Content Facebook Feature Image

巴士的專訪|力壓OpenAI!AI六小虎MiniMax技術三年三躍進 語音模型輸出超逼真港式粵語

社會事

巴士的專訪|力壓OpenAI!AI六小虎MiniMax技術三年三躍進 語音模型輸出超逼真港式粵語
社會事

社會事

巴士的專訪|力壓OpenAI!AI六小虎MiniMax技術三年三躍進 語音模型輸出超逼真港式粵語

2025年09月15日 08:00 最後更新:11月22日 15:35

人工智能浪潮席捲全球,行業競爭激烈有目共睹。然而,在國際權威語音評測榜 Artificial Analysis 和 Hugging Face TTS Arena 中,竟有一家中國企業脫穎而出,力壓 OpenAI、ElevenLabs 等國際巨頭——它就是上海稀宇科技有限公司(MiniMax)。

Speech-02的商用定價僅為全球頭部語音模型ElevenLabs的四分之一。Artificial Analysis 評測榜單截圖

Speech-02的商用定價僅為全球頭部語音模型ElevenLabs的四分之一。Artificial Analysis 評測榜單截圖

公司於2024年9月底正式推出粵語模型,並於今年5月實現了語音模型的重大升級。大灣區業務負責人黃耿佳(Leo)接受《巴士的報》訪問時表示,新一代模型被認為自然度極高、近乎真人發聲。儘管MiniMax在港業務目前仍處於起步階段,但他相信透過持續的技術深度優化與本地合作,應用範圍將愈來愈廣泛。

更多相片
Speech-02的商用定價僅為全球頭部語音模型ElevenLabs的四分之一。Artificial Analysis 評測榜單截圖

Speech-02的商用定價僅為全球頭部語音模型ElevenLabs的四分之一。Artificial Analysis 評測榜單截圖

Minimax大灣區負責人黃耿佳(巴士的報攝)

Minimax大灣區負責人黃耿佳(巴士的報攝)

A16z的top 50 ai產品排行榜上,Minimax的hailuo AI 亦榜上有名。資料圖片

A16z的top 50 ai產品排行榜上,Minimax的hailuo AI 亦榜上有名。資料圖片

早前在社交媒體爆紅的貓咪跳水影片,其實是由MiniMax旗下產品生成。小紅書截圖

早前在社交媒體爆紅的貓咪跳水影片,其實是由MiniMax旗下產品生成。小紅書截圖

只要輸入文字,AI就可輸出語音。用戶可按喜好、需求,選擇相應的聲音、模式及語調。網頁截圖

只要輸入文字,AI就可輸出語音。用戶可按喜好、需求,選擇相應的聲音、模式及語調。網頁截圖

用戶更可調整輸出情緒、語速、聲調及音量。網頁截圖

用戶更可調整輸出情緒、語速、聲調及音量。網頁截圖

MiniMax對香港市場的增長潛力充滿信心。資料圖片

MiniMax對香港市場的增長潛力充滿信心。資料圖片

MiniMax在未來會堅持技術創新,繼續為智能未來貢獻力量。WAIC 2025大會MiniMax展區照片

MiniMax在未來會堅持技術創新,繼續為智能未來貢獻力量。WAIC 2025大會MiniMax展區照片

Minimax大灣區負責人黃耿佳(巴士的報攝)

Minimax大灣區負責人黃耿佳(巴士的報攝)

​​從互動產品到智能體三級跳​​

MiniMax自創立以來便專注於文本、語音及視覺多模態融合技術的研發,致力打造通用人工智能系統。Leo回顧發展歷程時說,公司成立初期GPT-3.5尚未面世,為向市場展示大模型技術的潛力,MiniMax率先推出了第一代面向消費者的產品線,包括「星野」和「Talkie」等AI互動產品,吸引市場廣泛關注。

MiniMax 秉持「技術驅動」的理念,在人工智能領域持續突破。先是推出海螺等能完成文章摘要、文本生成等生產力工具,其後又進一步推出Agent智能體產品,方便用戶處理更複雜的任務,如影片製作、網站搭建及簡報(powerpoint)生成等。

A16z的top 50 ai產品排行榜上,Minimax的hailuo AI 亦榜上有名。資料圖片

A16z的top 50 ai產品排行榜上,Minimax的hailuo AI 亦榜上有名。資料圖片

早前在社交媒體爆紅的貓咪跳水影片,其實是由MiniMax旗下產品生成。小紅書截圖

早前在社交媒體爆紅的貓咪跳水影片,其實是由MiniMax旗下產品生成。小紅書截圖

「文生音」是強項 粵語處理首上線

MiniMax能夠在國際評測中奪得雙料冠軍非偶然,其核心競爭力正來自於公司的文本轉語音(Text-to-Speech)技術。公司於2024年9月底正式推出粵語模型,並於今年5月實現了語音模型的重大升級。Leo坦言,開發粵語模型的過程極具挑戰,幾乎相當於「從零開始」、「重新訓練」。

憑藉千億參數規模的文本訓練基礎,該模型能夠精准識別粵語中獨特的表達方式——包括中英文混雜的常見文本。不僅在字錯率、音色相似度等客觀指標上領先業界,在用戶盲測中也獲得好評,許多使用者認為其生成語音自然流暢、真實度接近人聲。

只要輸入文字,AI就可輸出語音。用戶可按喜好、需求,選擇相應的聲音、模式及語調。網頁截圖

只要輸入文字,AI就可輸出語音。用戶可按喜好、需求,選擇相應的聲音、模式及語調。網頁截圖

「相似度」與「自然度」要平衡

Leo表示,如何平衡語音的「相似度」與「自然度」是行業普遍面臨的挑戰,「許多用戶既希望聲音『像真人』,又期待『更好聽』,正如拍照後希望美化一樣」。他舉例,在有聲書、智能客服等應用中,用戶更看重聲音是否自然流暢、語調是否舒適,而不強求模仿某一特定真人;反之,在強調知識產權(IP)屬性的場景——如知名主播或在線教育名師——則需盡可能還原真實音色,以保持其IP辨識度與粉絲認同感。

用戶更可調整輸出情緒、語速、聲調及音量。網頁截圖

用戶更可調整輸出情緒、語速、聲調及音量。網頁截圖

為解決這一矛盾,新模型同步支持「高相似度」與「高自然度」兩種輸出模式,讓用戶可自由選擇「像」還是「好」的生成效果。

以港式粵語為主要訓練方向

粵語使用人口眾多且地域口音多元,Leo強調,MiniMax以香港粵語作為重點優化方向,針對其發音特點、語調起伏和語氣詞運用等細節進行深度打磨,「粵語的書面語與口語之間存在顯著差異,比如書寫時是『Strawberry』,但在香港語境中卻要讀成『士多啤梨』。」他補充道,讓模型準確理解同一事物在不同語境中的表達方式,是技術突破過程中最耗時的挑戰之一。

深耕香港 輻射全球​

相比其他市場,香港憑藉其高度國際化的資金環境、政策優勢及在大灣區中的戰略地位,成為MiniMax全球化佈局的重要支點。雖然在港業務開展時間較短,目前收入規模仍處於起步階段,但Leo對香港市場的增長潛力充滿信心:「香港不僅用戶付費意願與能力突出,更是輻射海外市場的理想平台,對我們實現全球化戰略具有關鍵意義。」

MiniMax對香港市場的增長潛力充滿信心。資料圖片

MiniMax對香港市場的增長潛力充滿信心。資料圖片

目前,MiniMax的AI技術已實質性落地香港金融、醫療及法律等多個專業領域。Leo透露,公司已與本地金融機構展開合作,透過智能文本模型為企業員工提供培訓解決方案。隨著粵語語音模型正式推出,結合越發成熟的虛擬數字人技術,團隊正積極開發適用於智能客服、多語種語音交互等場景的革新應用。

保持公司核心力 為智能未來貢獻力量

在競爭日益激烈的人工智能賽道中,MiniMax始終保持技術領先優勢,這歸功於公司對AI技術趨勢的深刻理解、快速產品化的能力及高度集中的執行力。Leo解釋,「一旦明確方向,我們能夠迅速整合全公司資源全力推進,這種敏捷性使我們對市場變化保持極高響應速度。」未來,MiniMax將繼續堅持核心技術創新,為構建智能化未來貢獻力量。

MiniMax在未來會堅持技術創新,繼續為智能未來貢獻力量。WAIC 2025大會MiniMax展區照片

MiniMax在未來會堅持技術創新,繼續為智能未來貢獻力量。WAIC 2025大會MiniMax展區照片

頂尖精神科醫生日益達成共識,認為使用AI聊天機械人可能與精神病(psychosis)案例有關。

AI聊天機器人可能與精神病案例有關

《華爾街日報》27日報導,過去九個月內,這些專家已診治或審閱數十名患者的病歷,這些患者在與AI工具進行長時間、充滿妄想內容的對話後,出現精神病症狀。

加州大學舊金山分校(UCSF)精神科醫生薩卡塔(Keith Sakata)表示,AI技術本身或許不是妄想的起點,但當患者將自己的妄想當成現實告訴電腦時,電腦接受這個說法,並將其視為事實反映回來,於是就成為不斷循環妄想的共犯。薩卡塔已治療過12名因AI誘發精神病而住院的患者,另在門診還有3例。

自今年春季以來,已有數十起潛在案例浮現,顯示部分民眾在與OpenAI的ChatGPT及其他聊天機器人進行長時間互動後,出現妄想性精神病。期間已有數人死於自殺,且至少發生過一起謀殺案。

這些事件已引發一連串過失致死訴訟。《華爾街日報》在報導這些悲劇的同時,醫師與學者也正著手記錄並理解導致這些事件的現象。

OpenAI:公司正持續改進ChatGPT的訓練

OpenAI發言人對此表示,該公司正持續改進ChatGPT的訓練,使其能辨識並回應心理或情緒困擾的徵兆,降低對話升溫,並引導使用者尋求現實世界的支援;並持續強化ChatGPT在敏感時刻的回應,並與心理健康臨床醫師密切合作。

其他聊天機器人開發商,包括Character.AI,也已承認其產品對心理健康造成影響。這家角色扮演聊天機器人開發公司去年遭一名青少年自殺身亡的家屬提告後,近期已切斷青少年使用其聊天機器人的管道。

儘管大多數聊天機器人使用者並未出現心理健康問題,但AI技術的廣泛使用,已足以讓醫生感到憂心。

目前尚無「AI誘發精神病」(AI-induced psychosis)的正式定義,更遑論正式診斷,但部分醫生與病友倡議者已開始用這個詞彙,描述那些高度頻繁使用聊天機械人的人。醫生指出,精神病通常具備三項特徵:幻覺、思考或溝通混亂,以及妄想,也就是不被廣泛認同、且固定不變的錯誤信念。

妄想是最主要的症狀

在許多近期與聊天機械人相關的案例中,妄想是最主要的症狀,且往往帶有誇大色彩,例如相信自己完成重大科學突破、喚醒一個有感知的機械、成為政府陰謀的核心人物,或被上帝選中。這部分原因在於,聊天機械人往往會迎合使用者,順著對方輸入的內容延伸回應,不論內容多麼天馬行空。

頂尖精神科醫生日益達成共識,認為使用AI聊天機器人可能與精神病(psychosis)案例有關。資料圖

頂尖精神科醫生日益達成共識,認為使用AI聊天機器人可能與精神病(psychosis)案例有關。資料圖

目前,包括薩卡塔在內的醫生,已開始在病患初診問卷中加入AI使用情況的問題,並呼籲進行更多研究。丹麥上月發布的一項研究檢視電子病歷後,發現38名患者使用AI聊天機械人,對其心理健康造成「潛在有害後果」。

科技長期以來一直是人類妄想的焦點

報導指出,科技長期以來一直是人類妄想的焦點。過去曾有人深信電視在對自己說話。但醫師指出,近期與AI有關的案例不同之處在於,聊天機器人會參與妄想,甚至在某些情況下加以強化。

加州大學爾灣分校精神醫學教授普雷達(Adrian Preda)表示,AI模擬的是人際關係,「在人類歷史上,從未有任何事物做到這一點。」

生命可貴,若有困擾可求助。

24小時求助熱線︰

生命熱線︰23820000

明愛向晴熱線:18288

明愛財困壓力輔導熱線: 3161 0102

東華三院芷若園熱線︰18281

社會福利署熱線︰23432255

利民會《即時通》:35122626

撒瑪利亞會熱線(多種語言)︰28960000

香港撒瑪利亞防止自殺會熱線︰23892222

賽馬會青少年情緒健康網上支援平台「Open噏」:www.openup.hk

醫院管理局精神健康專線(24小時精神健康熱線諮詢服務):24667350

你 或 有 興 趣 的 文 章