商湯科技今日發佈及開源原生理解生成統一模型日日新 SenseNova U1 系列。該系列基於商湯於今年三月自主研發的 NEO-unify 架構,在單一模型架構上統一了多模態理解、推理與生成。SenseNova U1 系列模型實現語言和視覺訊息的高效協同,讓理解與生成能力同步增强,既保持語義豐富度,亦維持像素級視覺保真度,可用於生成複雜的訊息圖(infographics),亦是業內首個實現連續性圖文創作輸出的模型。
在邏輯推理與空間智能等範疇,SenseNova U1 系列亦能深度理解物理世界的複雜佈局與精細關係,未來可為機器人提供具身大腦,於單一模型閉環內完成環境感知、邏輯推演到精準任務執行的全流程,為技術與產業發展提供重要基礎與關鍵引擎。
傳統多模態模型往往依靠「拼接」方式,把視覺編碼器(VE)和語言骨幹透過適配器串聯起來。此設計猶如一個「說不同語言的工作小組」,各成員分別負責看圖、把圖像翻譯成文字、理解文字、進行推理、把結果翻譯成設計指令,及畫出圖像;每需要完成一項任務,訊息都要在不同成員之間來回傳遞,既費時,也造成誤解和訊息損耗,故往往需要更大參數的模型,才能彌補不足。
Neo-unify 架構突破此限制,捨棄了主流的拼接方式,去除了 VE 和變分自編碼器(VAE),重新構建了統一的表徵空間。建基於 Neo-unify 的 SenseNova U1,猶如一個同時掌握多項技能的人,無需先看懂圖像,再翻譯成文字、交給另一個系統理解,而是在同一套「思考方式」中直接處理圖像、文字等不同訊息;圖像和語言不再由兩套系統「接力」,而是在同一個大腦中自然融合,可以減少訊息損耗,也能在相對精簡的模型規模下,高效實現更强的多模態理解與生成能力。
本次開源發佈的為 SenseNova U1 的輕量版系列 SenseNova U1 Lite,包含兩個不同規格:
• SenseNova-U1-8B-MoT:基於稠密骨幹網絡
• SenseNova-U1-A3B-MoT:基於混合專家(MoE)骨幹網絡
「以小博大」:模型規模小、效率高 性能媲美商用模型
多項基準測試成績印證 SenseNova U1 Lite 系列的優勢,在涵蓋圖像理解、圖像生成與編輯、空間智能及視覺推理的多項基準測試中,SenseNova U1 Lite 系列達到同量級開源模型的領先水平,為統一多模態理解與生成樹立新標竿。
SenseNova U1 Lite 憑 8B MoT 的小規格模型,已能達到、甚至超越部分大型商業閉源模型的表現,在各個維度和多個領域中展現優勢,體現「以小博大」。
在通用的圖像生成測試中,SenseNova U1 Lite 的圖像生成質量媲美 Qwen-Image 2.0 Pro 或 Seedream 4.5 等大型閉源模型,達到商業級水準,並在推理響應速度上有顯著優勢。
即使在極具挑戰性、開源模型能力長期受限的複雜訊息圖生成任務中,SenseNova U1 Lite 也逹致商業級水準,對處理複雜訊息圖的排版和文字具備强大的掌控力。
首創連續性圖文創作輸出
此外,憑藉 NEO-unify 架構的獨特優勢,SenseNova U1 成為業內首個實現連續性圖文創作輸出的模型。依托原生圖文理解與生成能力,模型可以將圖、文底層融合信號完整地保留在上下文之中,令生成圖像的風格高度連貫,並能在統一表徵空間進行高效連貫思考。同時,用戶只需透過單次、單模型調用,即可生成更高質量的作品,相比傳統模式,大大提升效率。
SenseNova U1 Lite 系列已全面開源,用戶可在以下平台部署使用及在線體驗:
• 開源部署:
• GitHub:https://github.com/OpenSenseNova/SenseNova-U1
• Hugging Face:https://huggingface.co/collections/sensenova/sensenova-u1
• 調用 SenseNova U1 Skill:https://github.com/OpenSenseNova/SenseNova-Skills
• 在線體驗及接入:即將賦能商湯辦公智能助手「辦公小浣熊」
商湯科技將沿著當前技術路徑擴展,並計劃推出更大規模的模型,有望以遠低於傳統的計算成本,達到國際頂尖模型的水平。
商湯亦深信原生統一的多模態智能是通往 AGI 的必經之路,公司將持續推動開源生態建設,並計劃推出更大參數規模的 U1 系列模型,同時歡迎社區用戶和開發者為模型提供寶貴意見。
• Discord (SenseNova-U1-Lite 專屬群): https://discord.gg/cxkwXWjp
SenseNova U1 Lite 實際應用例子:展現商業級的複雜訊息圖生成能力
SenseNova U1 Lite 訊息圖生成
SenseNova U1 Lite 訊息圖生成
SenseNova U1 Lite 訊息圖生成
SenseNova U1 Lite 實際應用例子:通過連貫、高保真度的圖文交錯思考輸出
連貫圖文創作
任務一:五成熟牛扒烹調方法 任務二:繪製一個鋼鐵人圖案
SenseNova U1 可通過思考與規劃,能自動輸出分步流程及對應圖像,圖像風格保持高度一致性。
任務一演示
SenseNova U1 從掃描草稿起步,逐步推進創作,最終生成完成度極高的圖像。每一步的輸出都精準延續前一步的結構與細節;統一表徵的共享上下文在其中發揮了關鍵作用。
任務二演示
SenseNova U1 Lite 在基準測試表現優越
圖像生成質量基準測試
在通用的圖像生成測試中,SenseNova U1 Lite 不但在圖像生成質量上媲美 Qwen Image 2.0 Pro 或 Seedream 4.5 等大型閉源模型,達到商業級水準,還在推理響應速度上有顯著優勢。
複雜訊息圖生成基準測試
即使在極具挑戰性、開源模型能力長期受限的複雜訊息圖生成任務中,SenseNova U1 Lite 也逹致商業級水準,對處理複雜訊息圖的排版和文字具備强大的掌控力。