Вышел первый пост из моей новой серии об AI safety:
AI Safety I: Concepts and DefinitionsПлан первой части такой:
— введение: а есть вообще прогресс в AI safety? пора бы уже!
— основные определения: emergence, goodharting, interpretability, corrigibility...
— меза-оптимизация: это вообще центральное понятие во всём этом дискурсе, если вы не знаете, что это такое, очень рекомендую прочитать хотя бы мой пост;
— история AI safety от Франкенштейна до наших дней (can't help myself, особенно если таймлайн можно нарисовать); там много любопытных цитат, для вас может быть новостью, например, что о paperclip maximization предупреждал ещё Норберт Винер;
— пример конкретной (и довольно безобидной) проблемы: подхалимство LLM.
Даже если вы слушали мой
недавний большой доклад, всё равно рекомендую пост тоже посмотреть, как минимум там всё лучше структурировано, плюс несколько картинок новых нарисовал (прилагаю их здесь как teaser).
А сам пишу дальше, думаю, в итоге в серии об AI safety три или четыре таких части получится.