當一種新商品產生的時候,大家往往並不在意。特別在現今的世界,商品迭代的速度,會比你想像中快很多。
英國《金融時報》在3月26日報道,中國在全球人工智能(AI)行業最熱門的商品--詞元(Token)的領域,正在不斷取得重大優勢。據「開放路由器」公司的資料顯示,自2月以來,由深度求索的大模型「DeepSeek」、稀宇科技的大模型「MiniMax」、月之暗面的「Kimi」等中國人工智能的大模型,在詞元消耗量方面,已經超過了美國競爭對手。這一轉變揭示人工智能競賽中一個深刻的變化,中國正在超前。
大家對詞元(Token)這樣東西可能很陌生。在人工智能大語言模型的領域,詞元是指大模型處理文本時的基本單位,是大模型閱讀文本時的分拆方式。大模型無法直接處理原始文字,要將文字轉成為模型能夠計算的數位單位。英文一個單詞大約等於1.3個詞元,而中文因為資訊密度高,一個漢字通常對應1.5至2.5個詞元。而大模型的計費方式通常是基於每次調動模型所需輸入和輸出的詞元數,專業用戶需要購買詞元組合,才可以調動大模型工作。
中國在人工智能大模型的詞元使用量超越美國競爭對手,主要有量和質的優勢。
第一、價格便宜
據《金融時報》報道,如今已邁入使用「智能體」(AI Agent)的時代,調動詞元的數量遠超之前的聊天功能,所以低成本生成詞元的能力,正重塑全球的人工智能競爭格局。澳洲安普利菲人工智能集團執行長威爾.梁說,如果你的智能體每天消耗大量詞元,即使每個詞元的單價差異很小,累積起來也會成為一個巨大的支出,這樣對中國的人工智能大模型是一個結構性利好,隨著智能體的應用規模不斷擴大,中國這項優勢還會增強。
中國人工智能大模型的價格優勢非常明顯。中國受益於更低廉的電價和更高效的模型,令到MiniMax和Kimi等模型,每100萬個詞元的收費只是2至3美元,而美國Anthropic公司的Claude Sonnet 4.5模型的同比收費是15美元,美國模型的收費是中國模型的5至7倍。這種收費差異,正大量改變人工智能開發者的使用方式。
《金融時報》引述香港的人工智能開發人員特里.張話,他現在使用月之暗面的Kimi模型完成大約80%工作,每天花費50美元,更加複雜的任務就用Claude Sonnet的模型。他過去用慣了Claude的模型,但現在工作量越來越大,只用Claude的模型每天花費大約900美元,太貴了,搭配使用Kimi和Claude對他來說效果很好。
據「開放路由器」的資料顯示,稀宇科技的 MiniMax 2.5 模型目前按詞元消耗量計算,已經擠身全球使用最多的模型之列。中國政府有長遠規劃,大力發展電力,特別是大量採用新能源,而太陽能發電的價格甚至比煤電更便宜,這就造就中國製造詞元的價格優勢。
第二、量大質高
不要以為中國的詞元只是便宜,其實背後也有極高的技術含量。美國近年積極打壓中國購買高端人工智能芯片,逼使中國模型另闢蹊徑,由DeepSeek開始,創出更加高效的人工智能架構,以「混合專家模式」運作。由於美國人工智能大模型公司財大氣粗,你問一個「今天溫度多少」的問題,它都會調動天量的專家來回答,這樣就會花費巨量的算力。中國開發混合專家模式,如果使用者只是問普通的問題,就是用普通的方式回應,只是面對專業的問題,才會調動相關的專家來回答,這樣就可以大幅減少算力的需求。
另外,中國的創新已經去到最核心的領域。矽谷當紅的AI程式設計巨頭Cursor,最近發布號稱是自研的Composer 2模型,但是開發者就在Composer 2的代碼裡找出毛病,顯示其基座是源自中國大模型Kimi K2.5。大模型的底座有一個叫「Transformer」的核心組件,用一種叫「殘差連接」的邏輯運作,但這種邏輯一直有重大缺陷。Kimi在3月16日就發布了一份名為《注意力殘差》的技術報告,從底層重構Transformer架構的殘差連接,而Cursor的Composer 2模型顯然就是直接抄襲Kimi K2.5的新方式,所以中國模型已經走到最核心的技術前沿,並不是單靠廉價取勝。
可以想像,未來中國大模型的詞元,會成為另一種通行全球的極度熱門商品,但它不會在一般貿易統計的出口數字裡出現,它只會計入服務貿易中的「軟體出口」類別上。
中國的科技力量爆發,如今才剛剛開始。
盧永雄