Sinекура • @sinecor • message №146, 18 April 2025

Your trial period has ended!

For full access to functionality, please pay for a premium subscription

Message

1 970 subscribers

790

Вышел первый пост из моей новой серии об AI safety:

AI Safety I: Concepts and Definitions

План первой части такой:

— введение: а есть вообще прогресс в AI safety? пора бы уже!

— основные определения: emergence, goodharting, interpretability, corrigibility...

— меза-оптимизация: это вообще центральное понятие во всём этом дискурсе, если вы не знаете, что это такое, очень рекомендую прочитать хотя бы мой пост;

— история AI safety от Франкенштейна до наших дней (can't help myself, особенно если таймлайн можно нарисовать); там много любопытных цитат, для вас может быть новостью, например, что о paperclip maximization предупреждал ещё Норберт Винер;

— пример конкретной (и довольно безобидной) проблемы: подхалимство LLM.

Даже если вы слушали мой недавний большой доклад, всё равно рекомендую пост тоже посмотреть, как минимум там всё лучше структурировано, плюс несколько картинок новых нарисовал (прилагаю их здесь как teaser).

А сам пишу дальше, думаю, в итоге в серии об AI safety три или четыре таких части получится.

04/18/2025, 08:38

t.me/sinecor/146