В DeepSeek создали «умных судей» для искусственного интеллекта
Китайская исследовательская лаборатория DeepSeek AI представила значительное достижение в области моделирования систем вознаграждения для больших языковых моделей (LLM). Новая техника, получившая название "Настройка самостоятельной принципиальной критики" (Self-Principled Critique Tuning, SPCT), нацелена на создание универсальных и масштабируемых моделей вознаграждения (RM).
Это потенциально может привести к появлению более совершенных ИИ-приложений для открытых задач и доменов, где существующие модели не способны уловить все нюансы и сложности окружающей среды и потребностей пользователей.