Стали известны детали архитектуры нового DeepSeek R2
На популярной китайской платформе Jiuyan Gongshe, неизвестный пользователь опубликовал инсайдерскую информацию. О готовящемся к выпуску DeepSeek R2, который обещает стать настоящим прорывом в индустрии. По данным инсайдера, DeepSeek R2 обучают одновременно на китайских чипах Huawei Ascend 910B и американских Nvidia H800.
DeepSeek R2 будет построен на новой архитектуре Hybrid MoE 3.0. И разработчики заложили в систему колоссальные 1,2 триллиона параметров, однако благодаря инновационной архитектуре единовременно будут активироваться только около 78 млрд. Это должно обеспечить беспрецедентную эффективность системы.
https://mltimes.ai/stali-izvestny-detali-arhitektury-novogo-deepseek-r2/