Купить Криптовалюту
iOS & Android

DeepSeek-R1 представляет новую модель «MODEL1» в свою первую годовщину

BlockBeats новости, 21 января, согласно сообщениям QuantumBit, в первую годовщину выпуска DeepSeek-R1 была представлена новая модель «MODEL1». DeepSeek обновил код FlashMLA на GitHub, где MODEL1 упоминается 28 раз в 114 файлах и фигурирует как отдельная модель, отличная от V32. Известно, что V32 — это DeepSeek-V3.2, а MODEL1, вероятно, представляет собой новую архитектуру. Конкретные различия в коде отражены в структуре кэша KV, обработке разреженности и декодировании FP8, с множеством вариаций в оптимизации памяти.