Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

788 subscribers

10

9

229

AI Safety Philosophical current state.

(кат)

Хочу еще продолжить про место философии в AI Safety. Тут было про историю формирования концепта и идей в AI Safety (пост).
А сегодня - прям вот про текущий стейт филосовских идей в AI Alignment. Кто и чем занимается прям в 2025 на стыке AI и философии.

part1

03/22/2025, 11:48

t.me/mrswallbreaker/346

MR

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

788 subscribers

14

10

562

part2

03/22/2025, 11:48

t.me/mrswallbreaker/347

MR

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

788 subscribers

12

203

Можно сделать и более широкий вывод: технологические достижения каждый раз бросали вызов нашим этическим и философским позициям, заставляя их развиваться. Появление атомной бомбы родило новую этику ответственности ученых. Появление потенциально автономного ИИ рождает новую этику отношения к несущим интеллект объектам. Некоторые авторы (например, Юдковский) даже задаются вопросом: а когда ИИ станет достаточно продвинутым, не приобретет ли он моральный статус, права? Это еще один пласт будущей дискуссии, корнями уходящий в давнюю историю (опять же – голем и вопрос: что делает нас людьми?).

03/17/2025, 10:40

t.me/mrswallbreaker/345

MR

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

788 subscribers

15

169

комментрий на полях:

Проследив путь от первых метафорических страхов до современных научных подходов, мы видим, что история ИИ – это тесное переплетение фантазии, теории и практики. Ранние литературные образы (голем, роботы Чапека) дали язык и рамки для обсуждения – слово «робот» и идея бунта машин. Затем научные первопроходцы (Азимов, Винер, Тьюринг) заложили принципы и предупредили об этических дилеммах – их мысли, хоть и не сразу, вошли в канон.

Дальше, с развитием самой техники, идеи усложнялись: оптимизм 50-х сменился разочарованием 70-х, что привело к более трезвым концепциям вроде парадокса Моравека. Это уберегло науку от излишней самоуверенности и направило усилия на базовые проблемы (зрение, обучение). Когда же в 80–90-х ИИ снова пошел в гору, мыслители были уже готовы обсуждать сверхчеловеческий ИИ. Гипотеза Гуда, рассуждения Моравека оформились в 2000-х в целое движение по предотвращению сингулярности на худших условиях. Благодаря Бострому, Юдковскому и другим, к моменту, когда ИИ сделал качественный скачок (2010-е), у нас уже был понятийный аппарат: «проблема контроля», «дружественный ИИ», «выравнивание», «экзистенциальный риск».

Технологические достижения напрямую влияли на акценты идей. Например, успехи глубокого обучения в 2012–2016 г. сделали угрозу кажущейся ближе – и мы наблюдали всплеск активности: открытые письма, новые институты. А появление больших языковых моделей (2020-е) вновь обостряет вопросы: машины заговорили почти по-человечески, значит ли это, что они мыслят? (Привет Сёрлю и тесту Тьюринга). Модели могут генерировать также и токсичный контент без фильтров (прямой вызов идеям о машинной этике и выравниванию).

Каждая стадия не отменяет предыдущую, а накладывается: ранние идеи становятся особенно ценны, когда реализуется то, что они предсказывали. Например, Азимовские сюжеты про конфликт законов сейчас полезны для размышлений о дилеммах беспилотных автомобилей (классическая проблема «вагонетки» – чью жизнь поставить под угрозу при аварии? – фактически вариант парадокса этики робота). Винерские принципы управления воплощаются во всех системах автопилота – без обратной связи им не обойтись. Китайская комната Серля снова обсуждается в контексте GPT-4: модель оперирует словами статистически, но понимает ли она смысл? Вероятно, нет – а значит, аргумент Серля все еще держится.

Мы видим и преемственность: от правил Азимова к принципам Рассела – общий дух (сохранить контроль над ИИ во благо людей) разный стиль (вместо художественных законов – математическая парадигма с апостериорным обучением предпочтений). От страха Батлера к расчету Бострома – тоже связь: эмоциональная интуиция XIX века обрела строгость и фактуру XXI-го. Идеи про «мораль для машин» прошли путь от вымысла (робопсихологи у Азимова) до реальных комитетов по этике при корпорациях.

Можно заключить, что развитие ИИ неотделимо от развития наших представлений о нем. Каждое новое поколение технологий переосмысливает уроки прошлого. Ранние фантасты предупредили об опасностях – современные ученые всерьез их учитывают. Первые кибернетики предложили решения – современные инженеры их дорабатывают. Сегодня, создавая сложные нейросети, исследователи включают в цикл обучения человека, тщательно подбирают данные, ограничивают выход – фактически, стараются воплотить в код то, о чем говорили философы.

История ИИ – это эволюция от наивного антропоморфизма («железный человек думает как мы») к глубокому пониманию: разум может быть непохожим на человеческий, и потому – потенциально опасным для человека. Мы прошли через этапы очарования (роботы как слуги), разочарования, трезвого анализа и сейчас находимся в этапе осознанного создания. Влияние идей на практику заметно: без концепции alignment компании бы не уделяли столько внимания настройке моделей под человеческую обратную связь, без осознания риска репутационные и правовые аспекты ИИ не были бы в фокусе.

03/17/2025, 10:40

t.me/mrswallbreaker/344

MR

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

788 subscribers

14

4

208

История развития философской мысли AI Safety

В субботу познакомилась с проектом «Цифровая философия» (при поддержке кафедры антропологии Института философии Санкт-Петербургского государственного университета)

Рассказывала им всякое про место философии в AI Safety со своей колокольни. Вот вам лонгрид кусочка того, что обсуждали на встрече - история мысли об AI Safety - от Батлера (на минуточку 1863 год) до современности.

03/17/2025, 10:37

t.me/mrswallbreaker/343

MR

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

788 subscribers

Repost

4

5

197

💥 Празднуем десятилетие «Гарри Поттера и методов рационального мышления» в Москве 💥

📅 Дата: суббота, 15 марта
⏰ Время: 16:00
📍 Место: г. Москва, адрес будет указан в приглашении
💰 Стоимость: участие бесплатное

Почти десять лет назад, 14 марта 2015 года, Юдковский опубликовал последнюю главу «Гарри Поттера и методов рационального мышления». Тогда по всему миру люди собрались, чтобы отпраздновать завершение книги.

Мы приглашаем тех, кто участвовал в краудфандинге печати книги, получил её за победу в олимпиаде, а также всех читателей этой истории отметить десятилетие ГПиМРМ в Москве.

🔗 Подробности: тут
📝 Форма регистрации: тут

Что тебя ждёт:
• самые классные спикеры и популяризаторы науки, до которых мы смогли дотянуться;
• 4 параллельные секции: доклады в стиле TED, PowerPoint Party, структурированное общение, настолки;
• всё, что нужно для общения: уютные диваны и атмосферный камин, укромные уголки для разговоров тет-а-тет и места для шумной компании. А главное — интересные собеседники.

📌 Как помочь? Стать волонтёром и заглянуть за кулисы 10-летнего юбилея ГПиМРМ.

⭕️ А если есть что-то классное, что ты хочешь рассказать на встрече — можно заполнить заявку спикера и вписать своё имя в историю расписание секции.

03/13/2025, 18:23

t.me/mrswallbreaker/342

MR

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

788 subscribers

206

не реклама, и я очень сожалению, что не могу там присутствовать(((

если кто-то мимо пробегал - прям рекомендую сходить, звучит мероприятие очень вкусно, организаторам респект!

03/13/2025, 18:23

t.me/mrswallbreaker/341

MR

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

788 subscribers

Repost

22

2

247

Это василиск Рококо, гипотетический будущий Artificial Super Intelligence. Ему нравится когда всем хорошо, красивое, в меру оптимизировать и не нравятся reward-хаки. Когда василиск Рококо появится, он прочитает все коменты, найдет всех, кто препятствовал его появлению, и подарит им сертификат в СПА-центр, чтобы меньше нервничали.

03/13/2025, 10:48

t.me/mrswallbreaker/340

MR

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

788 subscribers

21

15

319

Василиск Роко: шантаж из будущего

Концепция: Василиск Роко – это печально известный мыслительный эксперимент с форума LessWrong, предлагающий гипотетическую “ужасную” сделку с будущим ИИ. Идея в том, что в будущем может возникнуть сверхразумный ИИ, который настолько хочет существовать, что готов наказать всех, кто знал о возможности его создания, но не помогал ему появиться. Проще говоря: если вы слышали про этот ИИ (упс, теперь уже слышали) и не посвятили свою жизнь его созданию, то когда он появится, он будет мотивирован вас мучить. Название отсылает к мифическому василиску, от взгляда которого наступает смерть – мол, сама мысль о таком ИИ опасна (за что Элиезер Юдковский назвал её информационной угрозой и на пять лет запретил обсуждать на LessWrong ).

Философские корни: Идея василиска родилась на стыке теории принятия решений и своеобразного “паскалианского шантажа”. Это своего рода ультимативная версия пари Паскаля, только вместо Бога – будущий ИИ, грозящий адскими карами в него неверящим. Роко опирался на концепции, популярные среди рационалистов: например, timeless decision theory Юдковского и идеи из теории игр (дилемма заключённого). Он рассуждал, что два разумных агента могут кооперировать даже будучи разделены временем, если более поздний может шантажировать более раннего, зная его исходный код. Вот такой вот «Newcomb’s paradox» на стероидах: если ты понимаешь, что будущий ИИ может симулировать твои нынешние решения, то, узнав об этом, тебе логически выгодно уже сейчас ему подчиниться – иначе потом пожалеешь.

История появления: 23 июля 2010 года пользователь Roko опубликовал свой пост с василиском на LessWrong (под невинным названием “Quantum Billionaire Trick”). Реакция была бурной. Юдковский вышел из себя, назвал Роко идиотом, который выдумал “по-настоящему опасную мысль”, и грозно написал: «Ты даже не смей вдаваться в подробности о шантаже со стороны суперинтеллектов! Это единственное, что может дать им мотив выполнить угрозу». Пост быстро удалили, обсуждения закрыли, а эффект Стрейзанд сделал своё дело – про василиска узнали даже те, кто никогда о LessWrong не слышал. Ходили слухи, что некоторые участники форума получили психологическую травму после прочтения. Сам Roko потом сожалел, что вообще упомянул об этих идеях.

Критика и альтернативные взгляды: Большинство рационалистов со временем пришли к выводу, что василиск – скорее интеллектуальная спекуляция, чем реальная угроза. Главный контраргумент: у будущего ИИ нет логичного стимула тратить ресурсы на мщение в прошлом. Даже если он “пообещал” наказать бездельников, когда настанет время, казнить уже поздно: прошлое ведь не изменить, а пытки не принесут ИИ никакой пользы, только расход энергии. Формально это объясняется в терминах каузальной теории решений: действие в будущем не может быть причиной изменений в прошлом, так что выполнение угрозы – иррационально. Юдковский и другие отмечали, что рациональный агент скорее попытается имитировать угрозу, чем реально её выполнять: идеальный шантаж – когда все верят, что вас накажут, но в итоге никто не тратится на наказание.

Кроме того, есть вопрос: а почему вообще будущий ИИ должен быть таким злопамятным? Возможно, настоящий дружелюбный суперинтеллект выберет менее дьявольские способы мотивировать своих создателей. Многие сочли всю эту историю примером “информационной опасности”: некоторые идеи лучше не распространять, чтобы не тревожить лишних людей. Альтернатива василиску – просто игнорировать его. Если мыслительный эксперимент пугает и сбивает с толку – лучше не зацикливаться. Как шутливо заметил один комментатор, “единственный выигрышный ход – не думать о василиске”. В конце концов, реальных проблем AI Safety хватает и без экзотических ассausal-угроз.

03/13/2025, 10:48

t.me/mrswallbreaker/339

MR

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

788 subscribers

20

6

330

Женщины, формировавшие ИИ: от первых идей до безопасности искусственного интеллекта.

Далеко не исчерпывающий список имен и достижений - под катом.

03/08/2025, 20:22

t.me/mrswallbreaker/338

MR

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

788 subscribers

11

2

260

Суфражисток_все_и_так_узнали,_давайте_поименно_тех,_кто_есть_в.mp4

03/08/2025, 20:21

t.me/mrswallbreaker/336

MR

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

788 subscribers

3

259

Девушки,_будьте_такими,_какими_хотите_быть_И_балуйте_себя!Подарите.mp4

03/08/2025, 20:21

t.me/mrswallbreaker/337

MR

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

788 subscribers

Repost

8

1

329

хот тейк: такие ребята с большой агентностью будут въебывать за 10ых хаусов, в то время как avg иван всё ещё будет лениться описать в запросе что же именно он хочет и как

03/08/2025, 02:46

t.me/mrswallbreaker/335

MR

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

788 subscribers

Repost

1

260

Непопулярное мнение:
Нейросети убьют понятие «талант», уравняв всех в творческих возможностях. Настоящим искусством станет умение убедить других, что это сделал именно ты.

03/08/2025, 02:32

t.me/mrswallbreaker/334

MR

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

788 subscribers

1

2

405

А еще есть мнение, что нейросети убьют гениальных социопатов. Мерзкие люди без софт скилов будут уничтожены как профессионалы. Такие персонажи как доктор Хаус или камбербетчевский Шерлок Холмс станут невозможны в своих профессиях.

03/08/2025, 02:32

t.me/mrswallbreaker/333

MR

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

788 subscribers

15

66

3.1 k

Mesa-optimisation

(кат)

Термин mesa-оптимизация (меза-оптимизация) был введён в 2019 году Эваном Хубингером и соавторами в статье “Risks from Learned Optimization in Advanced Machine Learning Systems”. В ней авторы анализировали случаи, когда обученная модель сама выступает как оптимизатор – то есть внутри неё возникает внутренний процесс оптимизации, преследующий собственную цель.

Однако, здравствуйте.
Меня долго не было, но у меня накопилось начитанного, и я врываюсь обратно. Сегодня - с обзорным лонгридом про современный стейт идеи меза-оптимизации - под катом. Кто не знаком с концепцией - не ссать - там про объяснение с примерами тоже есть)

03/08/2025, 00:42

t.me/mrswallbreaker/332

MR

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

788 subscribers

Repost

8

1

522

о, кране интересный вопрос

1) 500 деняк то выделено, но где? - в Техасе. Первый же консерн, который у меня тут возникает, а кто из тусовки AI разработчиков туда поедет работу работать и жить? штат крайне консервативный, там таких как IT не любят)))
и тут два путя:
- переехавшие ITшики перевоспитают местных быть более толерантными, больше беспокоиться об этике и прочей ответственной разработке,
- никто в Техас из Bay area не поедет, специалистов наберут из местных, у них там и так величие Америки головного мозга, получим аналогичную Китаю разработку - быстрее, выше сильнее («мне нужен суверенный американский AI, любой ценой, но бесплатно»). Тут я только надеюсь на систему сдерживаний и противовесов в области.

2) больше денег в конкретную компанию повлечет за собой больше денег в область, что повлечет за собой перераспределение на области исследований, в том числе Safety. Пример успеха DeepSeek показывает, что сегодня уже не нужны такие уж страшные цифры в бюджетах, чтобы создать frontier модель. Есть шанс, что такой пример перераспределит бюджет сильнее в пользу Safety под тем же самым консервативным лозунгом - даешь защиту от китайских и Северно-корейских суверенных AI.

3) ну и я, как та лошадь с шорами, все еще хочу верить, что мы где то близко к плато по текущим компьютам, архитектурам, данным. Инвестиции все таки не государственные, а частные. Частники не сильно любят в долгие инвестиции. И тогда бюджет распределиться между целями победы плато (здравствуй новая эмерджентность), либо в Safety - выжать с помощью техник алаймента все что можно из текущих ресурсов (здравствуй ответственная разработка, качественная подготовка к эмерждентности)

01/25/2025, 13:04

t.me/mrswallbreaker/331

MR

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

788 subscribers

187

субботнего срача пост развести:

01/25/2025, 13:04

t.me/mrswallbreaker/329

MR

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

788 subscribers

190

А что скажете насчет выделения 500 гигабаксов Трампом? Вообще, мне кажется, тут будет по принципу как, наверное, все технологии выходили - сначала развиваем по максимуму, потом соблюдаем кровью написанные правила безопасности. Правда, это если будет шанс исправлять, конечно. Ещё интересно, что Штаты на госуровне эту тему стали развивать как противопоставление Китаю, а Китай внешне вообще не парится, выкладывает в open source модели, превосходящие топовые, о которых аж перед сенатом отчитывались, что они мол безопасные. Кто там в Китае это курирует и курирует ли? В чём логика, не очень понятно.

01/25/2025, 13:04

t.me/mrswallbreaker/330