內地私募巨頭幻方量化旗下開源模型公司DeepSeek(深度求索)的人工智能(AI)助手,在蘋果中國和美國地區App Store免費下載榜中登榜首,在美國地區下載榜上超越ChatGPT。
設計圖片
根據市場情報公司Sensor Tower的數據,自1月10日發布以來,DeepSeek AI助手在美國用戶中的下載量顯著上升,DeepSeek AI助手採用總參數超600B的DeepSeek-V3大模型,支持智能對話、AI搜索、深度思考、文件上傳等功能。
DeepSeek上周一正式發布DeepSeek-R1模型,並同步開源模型權重。據官方介紹,DeepSeek-R1在後訓練階段大規模使用了強化學習技術,在僅有極少標註數據的情況下,極大提升了模型推理能力。在數學、代碼、自然語言推理等任務上,性能追上OpenAI o1正式版。
4月8日上午,人工智能公司DeepSeek在其網頁端及iOS應用程式的頁面出現更新,對話頁面新增「快速模式」與「專家模式」兩種選項。其中,快速模式標註為「適合日常對話,即時響應」,而專家模式則標註為「擅長複雜問題,高峯需等待」。兩種模式下,用户均可選擇是否開啟「深度思考」和「智能搜索」功能。
DeepSeek。AP資料圖片
專家模式專攻專業領域
此次推出的「專家模式」新增了編程、法律、醫學等多個領域的專業知識諮詢能力。業內人士分析認為,「專家模式」很可能使用了更大、更強的模型,極有可能是DeepSeek-V4正式版的某個形態。
DeepSeek推專家模式
DeepSeek-V4技術細節
資料顯示,DeepSeek-V4是由杭州深度求索人工智能基礎技術研究有限公司研製的大模型,為DeepSeek-V3的迭代版本,計劃於2026年發布。該模型專注於代碼生成能力,在超長代碼提示處理、數據模式理解與推理能力方面實現了技術突破,可支持數萬行代碼庫的上下文理解。模型採用了混合專家架構(MoE)和流形約束超連接(mHC)技術,總參數達6710億,推理激活參數為370億,並在訓練中應用了MLA多頭潛在注意力機制。
或與早前死機事件有關
在4月初,「DeepSeek死機」曾一度登上網絡熱搜。當時業內便有猜測,事件可能與DeepSeek-V4進行隱身測試有關,或意味著DeepSeek-V4的發布已臨近。