Skip to Content Facebook Feature Image

史丹福大學AI團隊抄襲中國大模型 曝光後全網刪庫 終道歉收場

博客文章

史丹福大學AI團隊抄襲中國大模型 曝光後全網刪庫 終道歉收場
博客文章

博客文章

史丹福大學AI團隊抄襲中國大模型 曝光後全網刪庫 終道歉收場

2024年06月04日 15:55 最後更新:16:01

網傳史丹佛大學AI團隊抄襲、「套殼」中國國産大模型成果,引起業界高度關注和熱議。目前,涉事的史丹佛學生已公開正式道歉。

史丹福大學的一個研究團隊在5月29日發布Llama3-V項目,宣稱僅需500美元就能訓練出一個SOTA(State of the Art,即最先進的)多模態大模型,效果比肩GPT-4V、Gemini Ultra、Claude Opus等,但模型小100倍。

公開信息顯示,Llama3-V團隊的其中兩位作者 Siddharth Sharma 與 Aksh Garg 是史丹福大學計算機系的本科生,曾發表過數篇機器學習相關的論文。

名校背景,特斯拉、SpaceX等大廠經歷的成員,再加上號稱足以「改變現狀」的研究成果,Llama3-V受到了相當程度的關注。Llama3-V不僅在社交媒體上迅速躥紅,還一度沖上了HuggingFace趨勢榜(機器學習領域中較有影響力的平台,其趨勢榜一定程度反映出模型的流行度)的首頁。

然而,沒過幾天,一位網民發現,Llama3-V的模型結構和代碼與出自清華系明星創業公司面壁智能的MiniCPM-Llama3-V 2.5幾乎一模一樣,只是變量名有所變化。

網民在面壁智能GitHub的項目下放出了證據。這些證據包括:Llama3-V的模型架構和代碼與MiniCPM-Llama3-V 2.5幾乎完全相同,僅有一些變量名和格式化的差异;Llama3-V使用了MiniCPM-Llama3-V 2.5的分詞器(tokenizer),並且連同MiniCPM-Llama3-V 2.5定義的特殊符號也出現在了Llama3-V中;將從HuggingFace下載的Llama3-V模型權重中的變量名改成MiniCPM-Llama3-V 2.5的,模型可以用MiniCPM-V代碼成功運行。

兩個模型的代碼對比

兩個模型的代碼對比

網民為什麽不直接質疑Llama3-V,而是在面壁智能GitHub的項目下進行爆料?事實上,網民此前於6月2日在Llama3-V頁面上提出的質疑,不過很快便被Llama3-V的作者已經删除了。

為此,提出質疑的網民被激怒暴走,跑到了 MiniCPM-V 的 Github 頁面進行事件還原,提醒面壁智能團隊關注此事。

在MiniCPM-Llama3-V 2.5團隊收到提醒後也迅速作出反應,於是一個新的證據出現。

面壁智能的MiniCPM-Llama3-V 2.5項目具有獨特的功能,如識別清華簡——一種罕見的中國古代文字。

公開資料顯示,清華簡是清華大學於2008年7月收藏的一批戰國竹簡,為戰國中晚期文物。MiniCPM-Llama3-V 2.5團隊透露,識別清華簡是MiniCPM-Llama3-V 2.5的一項實驗功能,訓練圖像是最近從出土文物中掃描並由MiniCPM-Llama3-V 2.5團隊標注,且尚未公開發布。

識別結果對比

識別結果對比

Llama3-V模型居然也可以識別「清華簡」。兩個模型在識別的表現上,正確的結果上基本一致,錯誤的情况也頗為相似。

鑒於這些結果,MiniCPM-Llama3-V 2.5團隊表示,很難用巧合來解釋這種不尋常的相似性,希望Llama3-V的作者能够對這個問題給出官方解釋。相信這對開源社區的共同利益很重要。

當網民拋出三大事實質疑後,Llama3-V的做法是——不回應直接删除網民評論。

目前,Llama3-V 的 GitHub 項目主頁已顯示為「404」,HuggingFace上Llama3-V項目也已經不可見,在作者社交媒體賬號上也找不到此前宣傳 Llama3-V 的內容。

目前Llama3-V項目已經從開源網站中下架删除。

目前Llama3-V項目已經從開源網站中下架删除。

6月3日,Llama3-V團隊成員Aksh Garg在社交媒體上發文回應了質疑。但隨後不久這條回應便被删除。

Llama3-V在未公開的實驗性特徵上與MiniCPM-Llama3-V 2.5表現出高度相似的行為,這些特徵是根據MiniCPM-Llama3-V 2.5團隊內部數據訓練的。

面對抄襲的質疑,史丹福團隊最初辯稱,他們的工作早於面壁智能的MiniCPM,只是使用了他們的tokenizer。

另據媒體消息,面壁智能聯合創始人兼CEO李大海在朋友圈回應說「深表遺憾」,這也是一種「受到國際團隊認可的方式」,並呼籲大家共建開放、合作、有信任的社區環境。

面壁智能聯合創始人兼CEO李大海在朋友圈的回應。

面壁智能聯合創始人兼CEO李大海在朋友圈的回應。

面壁智能首席科學家、清華大學長聘副教授劉知遠表示,人工智能的飛速發展離不開全球算法、數據與模型的開源共享,讓人們始終可以站在SOTA的肩上持續前進。面壁開源的MiniCPM-Llama3-V 2.5 就用了最新的Llama3作為語言模型基座。而開源共享的基石是對開源協議的遵守,對其他貢獻者的信任,對前人成果的尊重和致敬,Llama3-V團隊無疑嚴重破壞了這一點。他們在受到質疑後已在Huggingface删庫,該團隊三人中的兩位也只是史丹福大學本科生,未來還有很長的路,如果知錯能改,善莫大焉。

北京面壁智能科技有限責任公司成立於2022年8月,今年4月,面壁智能完成新一輪數億元融資,由華為哈勃領投,春華創投、北京市人工智能産業投資基金等跟投,知乎作為戰略股東持續跟投支持。今年2月,面壁智能發布開源模型MiniCPM後,又推出MiniCPM 2系列端側模型。李大海表示,推動大模型在端側的落地是面壁目前的重點工作之一。

據第一財經報道,在最新的進展中,史丹福Llama3-V團隊的兩位作者Siddharth Sharma和 Aksh Garg在社交平台上就這一學術不端行為向面壁MiniCPM團隊正式道歉,並表示會將Llama3-V模型悉數撤下。

Christopher David Manning發文譴責。

Christopher David Manning發文譴責。

另外,史丹福人工智能實驗室主任Christopher David Manning也發文譴責這一抄襲行為,並對MiniCPM這一中國開源模型表示贊揚。

Manning寫道,「怎能不為自己的錯誤買單!清華大學自然語言處理實驗室做出了很棒的開源工作,有力推動科學發展。」

Manning還痛斥道:「所謂『真正做到之前,假裝你做到了』是矽谷的無耻産物。」Manning引用的這句流行語「Fake it before you make it」,一度盛行於矽谷的初創圈和科技公司,被不少創業者奉為圭臬。




毛拍手

** 博客文章文責自負,不代表本公司立場 **

Tags:

SpaceX

「一帶一路」在2025年已進入第2個10年,截至去年12月,中國已與155個國家和32個國際組織簽署200多份共建合作文件,數量約佔全世界的78.6%,覆蓋與中國建交國的84.6%,遍及五大洲、連接不同發展階段國家。《日經亞洲》1月1日報道,截至2025年的前11個月,中國與「一帶一路」倡議參與國的貿易順差規模,首次超過同期對美國的貿易順差。

據中國海關總署月度貿易數據,去年1至11月,「一帶一路」夥伴國貢獻了中國貿易順差的45%,合共約4800億美元,比較去年同期提升16個百分點,創下2013年「一帶一路」倡議以來的最高紀錄;同期,美國在中國貿易順差中的佔比則為24%,同比下滑逾10個百分點。2018年美國曾佔中國貿易順差的90%以上,但相關比例持續大幅下滑。

據日經新聞報道,截至2025年頭11個月,中國與「一帶一路」倡議國的貿易順差規模,超越同期對美國的貿易順差。

據日經新聞報道,截至2025年頭11個月,中國與「一帶一路」倡議國的貿易順差規模,超越同期對美國的貿易順差。

美國總統特朗普引發的全球關稅貿易戰,促使中國降低對美國市場的依賴,轉而擴大其他市場出口規模。統計顯示,去年1至11月,中國對「一帶一路」貿易夥伴的出口同比增長11.6%,遠超中國整體出口5.4%的增幅,而對美出口則同比下降18.9%。

與此同時,中國對「一帶一路」夥伴國的投資與貿易亦同步增長。報道指,澳洲格里菲斯大學與中國復旦大學聯合研究報告稱,去年上半年,中國在「一帶一路」沿線國家的投資達1240億美元,創下2013年以來的最高紀錄。其中,尤以對礦產豐富的非洲地區投資增幅最大。 

去年,面對全球地緣政治衝突加劇、國際經貿秩序大幅調整的複雜外部環境,中國順利完成全年經濟社會發展主要目標,助力「十四五」圓滿收官。而去年12月召開的中央經濟工作會議,明確指出2026年中國經濟工作重點,圍繞「十五五」規劃開局,強調推動共建「一帶一路」高質量發展。

去年1至11月,中國對「一帶一路」貿易夥伴的出口同比增長11.6%,投資與貿易亦同步增長。新華社圖片

去年1至11月,中國對「一帶一路」貿易夥伴的出口同比增長11.6%,投資與貿易亦同步增長。新華社圖片

觀察者網引述海關總署2025年12月公布最新數據顯示,前11個月中國貨物貿易保持增長,進出口總值41.21萬億元,同比增長3.6 %。其中出口24.46萬億元,增長6.2%;進口16.75萬億元,亦增長0.2%。其中,「一帶一路」國家進出口21.33萬億元,增長6%,佔外貿總值的51.8%;民營企業的進出口23.52萬億元,亦同比增長7.1%。

而在此期間,中國對美出口量則大幅下降,而對歐洲、澳洲和東南亞國家出口則激增;其中,對歐盟出口增長14.8%,對澳洲激增35.8%,對東南亞亦增加8.2%。

路透社報道分析,自特朗普2.0以來,中國加緊進行出口市場多元化,尋求與東南亞和歐盟建立更緊密貿易關系,利用中國企業在全球布局建立新的生產中心。

美國《華爾街日報》曾刊文指,中國貿易順差首次超過1萬億美元,凸顯中國在從高端電動汽車到低端T恤等各方面所取得的出口主導地位,幫助中國經濟在短短幾十年內崛起為世界第二大經濟體。

《華爾街日報》刊文指,中國貿易順差首次超過1萬億美元。

《華爾街日報》刊文指,中國貿易順差首次超過1萬億美元。

雖然中美貿易緊張關係已相對緩和,但美對華商品平均關稅仍較高,凱投宏觀經濟學家Zichun Huang分析稱,美國削減關稅未見提振中國近月對美出口,但總體出口仍有增長,預計未來一年中國將繼續擴大全球市場份額。

《華爾街日報》報道指,儘管美西方近來炒作所謂「去風險」及「降低對華依賴」等議題,但幾乎沒有經濟學家預測中國的貿易勢頭會出現明顯放緩。

花旗集團認為,最新貿易數據預示,中美貿易摩擦休戰加上中國產業競爭力增強下,出口仍將是明年GDP增長的主要驅動力。摩根士丹利經濟學家則預測,到這個年代末,中國在全球商品出口中所佔份額將由目前約15%增至16.5%。

你 或 有 興 趣 的 文 章