BlockBeats 消息,1 月 21 日,據 QuantumBit 報導,在 DeepSeek-R1 發布一周年之際,新模型「MODEL1」已亮相。DeepSeek 在 GitHub 上更新了 FlashMLA 代碼,MODEL1 在 114 個文件中被提及 28 次,顯示為一個有別於 V32 的獨立模型。據悉,V32 即為 DeepSeek-V3.2,而 MODEL1 很可能是一種新的架構。代碼中的具體差異體現在 KV 快取佈局、稀疏性處理以及 FP8 解碼方面,在記憶體優化上存在多種變體。
