梁文锋首度被曝融資!DeepSeek V4徹底脫離英偉達
今晨AI圈風雲變色——從未接受外部資金的中國AI新創DeepSeek,首度打破沉默,傳出正尋求以不低於100億美元的估值,籌集3億美元資金。這項由外媒The Information披露的消息,標誌著梁文锋領導下的DeepSeek出現重大戰略轉折。過去,DeepSeek作為幻方量化旗下的技術實驗室,憑藉強大內部支持,多次婉拒國內外科技巨頭與風投的投資提案,堅持獨立發展路線。如今,在AI大模型競賽愈發cost 高昂的背景下,這家以「花小錢辦大事」聞名的公司,也必須擴充funding 彈藥庫,以支應下一代模型V4的龐大算力需求。
V4的技術藍圖極具野心。根據洩露資訊,新模型將擁有約1萬億參數,採用MoE(Mixture of Experts)架構,每次推理僅激活約370億參數,使運算efficiency 與前代V3持平。更驚人的是,其上下文長度將擴展至100萬token,並引入名為Engram的條件記憶架構,實現長文本的即時檢索,內部測試顯示資訊召回率高達97%。此外,V4將是DeepSeek首款native multimodal 模型,支援文字、影像與影片生成,大幅強化內容創造能力。
在硬體層面,V4正進行一場史無前例的遷移:從長期依賴的英偉達CUDA生態,全面轉向華為的昇騰(Ascend)晶片與CANN架構。這不僅是技術適配的挑戰,更是一次關鍵的strategic 選擇。DeepSeek工程師已重寫核心code ,並未向英偉達或AMD預先提供模型優化機會,反而將早期測試權限獨家授予國產晶片廠商。若成功,V4將成為全球首個不依賴英偉達的頂級AI模型,直接動搖美國在AI晶片領域的dominance 地位。英偉達執行長黃仁勳更直言,此發展對美國「將是個糟糕的結果」。
目前,V4的完整版將針對高階推理與複雜程式任務優化,運行於昇騰晶片;輕量版則約2000億參數,適用於通用對話與API服務,可在其他國產平台運作。DeepSeek計畫以Apache 2.0協議開放模型權重,延續其開源精神。多項跡象顯示部署在即:4月初API節點已出現V4 Lite測試版,推理速度提升30%,128K上下文的召回率從45%躍升至94%;公司也在內蒙古烏蘭察布招募駐場運維人員,顯見已從實驗室邁向大規模商用。若融資順利,DeepSeek將有足夠資源留住頂尖人才,加速落地進程。
這場3億美元的融資,不只是資金挹注,更是一場對全球AI生態的挑戰。當中美科技競爭日益白熱化,V4的成功與否,將考驗中國能否建構出一條獨立於美國技術之外的AI發展路徑。這不僅是梁文锋的賭注,更是對整個產業innovation 模式的深刻impact 。若V4真能以國產硬體撐起萬億參數模型,那麼「脫美」不再只是口號,而將成為可複製的技術現實。
從CUDA跳到CANN,這不是移植,是重寫整個靈魂。工程難度被低估了,但一旦成功,strategic 戰略意義遠超技術本身。
Apache 2.0開源?這才是真正的trust 信任投票。比起閉源巨頭,DeepSeek的transparency 透明度高太多了。
3億美元聽起來不少,但訓練萬億模型根本是杯水車薪。這筆錢真正買的是time 時間,爭取在下一波融資前跑出成果。
SWE-bench超過80%?如果是真的,那寫code 程式碼的未來真的要變了。希望能早點用上V4 Lite。
老黃會緊張不是沒道理。一旦模型與晶片綁定形成閉環,美國的出口管制就失去殺傷力了。
我們這邊突然招這麼多server 伺服器工程師,原來是為了這件事。看來V4真的要落地了,期待帶來就業機會。