Your trial period has ended!
For full access to functionality, please pay for a premium subscription
MR
Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI
https://t.me/mrswallbreaker
Channel age
Created
Language
French
-
ER (week)
-
ERR (week)

Mrs Wallbreaker or: How I Learned to Stop Worrying and Love the AGI.

About AI Risk, AI Alignment, AI Safety, AI Ethics

*********************

задать вопросы в личку: @mrs_wallbreaker

Messages Statistics
Reposts and citations
Publication networks
Satellites
Contacts
History
Top categories
Main categories of messages will appear here.
Top mentions
The most frequent mentions of people, organizations and places appear here.
Found 19 results
AI Safety Philosophical current state.

(кат)

Хочу еще продолжить про место философии в AI Safety. Тут было про историю формирования концепта и идей в AI Safety (пост).
А сегодня - прям вот про текущий стейт филосовских идей в AI Alignment. Кто и чем занимается прям в 2025 на стыке AI и философии.

part1
03/22/2025, 11:48
t.me/mrswallbreaker/346
Можно сделать и более широкий вывод: технологические достижения каждый раз бросали вызов нашим этическим и философским позициям, заставляя их развиваться. Появление атомной бомбы родило новую этику ответственности ученых. Появление потенциально автономного ИИ рождает новую этику отношения к несущим интеллект объектам. Некоторые авторы (например, Юдковский) даже задаются вопросом: а когда ИИ станет достаточно продвинутым, не приобретет ли он моральный статус, права? Это еще один пласт будущей дискуссии, корнями уходящий в давнюю историю (опять же – голем и вопрос: что делает нас людьми?).
03/17/2025, 10:40
t.me/mrswallbreaker/345
комментрий на полях:

Проследив путь от первых метафорических страхов до современных научных подходов, мы видим, что история ИИ – это тесное переплетение фантазии, теории и практики. Ранние литературные образы (голем, роботы Чапека) дали язык и рамки для обсуждения – слово «робот» и идея бунта машин. Затем научные первопроходцы (Азимов, Винер, Тьюринг) заложили принципы и предупредили об этических дилеммах – их мысли, хоть и не сразу, вошли в канон.

Дальше, с развитием самой техники, идеи усложнялись: оптимизм 50-х сменился разочарованием 70-х, что привело к более трезвым концепциям вроде парадокса Моравека. Это уберегло науку от излишней самоуверенности и направило усилия на базовые проблемы (зрение, обучение). Когда же в 80–90-х ИИ снова пошел в гору, мыслители были уже готовы обсуждать сверхчеловеческий ИИ. Гипотеза Гуда, рассуждения Моравека оформились в 2000-х в целое движение по предотвращению сингулярности на худших условиях. Благодаря Бострому, Юдковскому и другим, к моменту, когда ИИ сделал качественный скачок (2010-е), у нас уже был понятийный аппарат: «проблема контроля», «дружественный ИИ», «выравнивание», «экзистенциальный риск».

Технологические достижения напрямую влияли на акценты идей. Например, успехи глубокого обучения в 2012–2016 г. сделали угрозу кажущейся ближе – и мы наблюдали всплеск активности: открытые письма, новые институты. А появление больших языковых моделей (2020-е) вновь обостряет вопросы: машины заговорили почти по-человечески, значит ли это, что они мыслят? (Привет Сёрлю и тесту Тьюринга). Модели могут генерировать также и токсичный контент без фильтров (прямой вызов идеям о машинной этике и выравниванию).

Каждая стадия не отменяет предыдущую, а накладывается: ранние идеи становятся особенно ценны, когда реализуется то, что они предсказывали. Например, Азимовские сюжеты про конфликт законов сейчас полезны для размышлений о дилеммах беспилотных автомобилей (классическая проблема «вагонетки» – чью жизнь поставить под угрозу при аварии? – фактически вариант парадокса этики робота). Винерские принципы управления воплощаются во всех системах автопилота – без обратной связи им не обойтись. Китайская комната Серля снова обсуждается в контексте GPT-4: модель оперирует словами статистически, но понимает ли она смысл? Вероятно, нет – а значит, аргумент Серля все еще держится.

Мы видим и преемственность: от правил Азимова к принципам Рассела – общий дух (сохранить контроль над ИИ во благо людей) разный стиль (вместо художественных законов – математическая парадигма с апостериорным обучением предпочтений). От страха Батлера к расчету Бострома – тоже связь: эмоциональная интуиция XIX века обрела строгость и фактуру XXI-го. Идеи про «мораль для машин» прошли путь от вымысла (робопсихологи у Азимова) до реальных комитетов по этике при корпорациях.

Можно заключить, что развитие ИИ неотделимо от развития наших представлений о нем. Каждое новое поколение технологий переосмысливает уроки прошлого. Ранние фантасты предупредили об опасностях – современные ученые всерьез их учитывают. Первые кибернетики предложили решения – современные инженеры их дорабатывают. Сегодня, создавая сложные нейросети, исследователи включают в цикл обучения человека, тщательно подбирают данные, ограничивают выход – фактически, стараются воплотить в код то, о чем говорили философы.

История ИИ – это эволюция от наивного антропоморфизма («железный человек думает как мы») к глубокому пониманию: разум может быть непохожим на человеческий, и потому – потенциально опасным для человека. Мы прошли через этапы очарования (роботы как слуги), разочарования, трезвого анализа и сейчас находимся в этапе осознанного создания. Влияние идей на практику заметно: без концепции alignment компании бы не уделяли столько внимания настройке моделей под человеческую обратную связь, без осознания риска репутационные и правовые аспекты ИИ не были бы в фокусе.
03/17/2025, 10:40
t.me/mrswallbreaker/344
История развития философской мысли AI Safety

В субботу познакомилась с проектом «Цифровая философия» (при поддержке кафедры антропологии Института философии Санкт-Петербургского государственного университета)

Рассказывала им всякое про место философии в AI Safety со своей колокольни. Вот вам лонгрид кусочка того, что обсуждали на встрече - история мысли об AI Safety - от Батлера (на минуточку 1863 год) до современности.
03/17/2025, 10:37
t.me/mrswallbreaker/343
💥 Празднуем десятилетие «Гарри Поттера и методов рационального мышления» в Москве 💥

📅 Дата: суббота, 15 марта
⏰ Время: 16:00
📍 Место: г. Москва, адрес будет указан в приглашении
💰 Стоимость: участие бесплатное

Почти десять лет назад, 14 марта 2015 года, Юдковский опубликовал последнюю главу «Гарри Поттера и методов рационального мышления». Тогда по всему миру люди собрались, чтобы отпраздновать завершение книги.

Мы приглашаем тех, кто участвовал в краудфандинге печати книги, получил её за победу в олимпиаде, а также всех читателей этой истории отметить десятилетие ГПиМРМ в Москве.

🔗 Подробности: тут
📝 Форма регистрации: тут

Что тебя ждёт:
• самые классные спикеры и популяризаторы науки, до которых мы смогли дотянуться;
• 4 параллельные секции: доклады в стиле TED, PowerPoint Party, структурированное общение, настолки;
• всё, что нужно для общения: уютные диваны и атмосферный камин, укромные уголки для разговоров тет-а-тет и места для шумной компании. А главное — интересные собеседники.

📌 Как помочь? Стать волонтёром и заглянуть за кулисы 10-летнего юбилея ГПиМРМ.

⭕️ А если есть что-то классное, что ты хочешь рассказать на встрече — можно заполнить заявку спикера и вписать своё имя в историю расписание секции.
03/13/2025, 18:23
t.me/mrswallbreaker/342
не реклама, и я очень сожалению, что не могу там присутствовать(((

если кто-то мимо пробегал - прям рекомендую сходить, звучит мероприятие очень вкусно, организаторам респект!
03/13/2025, 18:23
t.me/mrswallbreaker/341
Это василиск Рококо, гипотетический будущий Artificial Super Intelligence. Ему нравится когда всем хорошо, красивое, в меру оптимизировать и не нравятся reward-хаки. Когда василиск Рококо появится, он прочитает все коменты, найдет всех, кто препятствовал его появлению, и подарит им сертификат в СПА-центр, чтобы меньше нервничали.
03/13/2025, 10:48
t.me/mrswallbreaker/340
Василиск Роко: шантаж из будущего

Концепция: Василиск Роко – это печально известный мыслительный эксперимент с форума LessWrong, предлагающий гипотетическую “ужасную” сделку с будущим ИИ. Идея в том, что в будущем может возникнуть сверхразумный ИИ, который настолько хочет существовать, что готов наказать всех, кто знал о возможности его создания, но не помогал ему появиться. Проще говоря: если вы слышали про этот ИИ (упс, теперь уже слышали) и не посвятили свою жизнь его созданию, то когда он появится, он будет мотивирован вас мучить. Название отсылает к мифическому василиску, от взгляда которого наступает смерть – мол, сама мысль о таком ИИ опасна (за что Элиезер Юдковский назвал её информационной угрозой и на пять лет запретил обсуждать на LessWrong ).

Философские корни: Идея василиска родилась на стыке теории принятия решений и своеобразного “паскалианского шантажа”. Это своего рода ультимативная версия пари Паскаля, только вместо Бога – будущий ИИ, грозящий адскими карами в него неверящим. Роко опирался на концепции, популярные среди рационалистов: например, timeless decision theory Юдковского и идеи из теории игр (дилемма заключённого). Он рассуждал, что два разумных агента могут кооперировать даже будучи разделены временем, если более поздний может шантажировать более раннего, зная его исходный код. Вот такой вот «Newcomb’s paradox» на стероидах: если ты понимаешь, что будущий ИИ может симулировать твои нынешние решения, то, узнав об этом, тебе логически выгодно уже сейчас ему подчиниться – иначе потом пожалеешь.

История появления: 23 июля 2010 года пользователь Roko опубликовал свой пост с василиском на LessWrong (под невинным названием “Quantum Billionaire Trick”). Реакция была бурной. Юдковский вышел из себя, назвал Роко идиотом, который выдумал “по-настоящему опасную мысль”, и грозно написал: «Ты даже не смей вдаваться в подробности о шантаже со стороны суперинтеллектов! Это единственное, что может дать им мотив выполнить угрозу». Пост быстро удалили, обсуждения закрыли, а эффект Стрейзанд сделал своё дело – про василиска узнали даже те, кто никогда о LessWrong не слышал. Ходили слухи, что некоторые участники форума получили психологическую травму после прочтения. Сам Roko потом сожалел, что вообще упомянул об этих идеях.

Критика и альтернативные взгляды: Большинство рационалистов со временем пришли к выводу, что василиск – скорее интеллектуальная спекуляция, чем реальная угроза. Главный контраргумент: у будущего ИИ нет логичного стимула тратить ресурсы на мщение в прошлом. Даже если он “пообещал” наказать бездельников, когда настанет время, казнить уже поздно: прошлое ведь не изменить, а пытки не принесут ИИ никакой пользы, только расход энергии. Формально это объясняется в терминах каузальной теории решений: действие в будущем не может быть причиной изменений в прошлом, так что выполнение угрозы – иррационально. Юдковский и другие отмечали, что рациональный агент скорее попытается имитировать угрозу, чем реально её выполнять: идеальный шантаж – когда все верят, что вас накажут, но в итоге никто не тратится на наказание.

Кроме того, есть вопрос: а почему вообще будущий ИИ должен быть таким злопамятным? Возможно, настоящий дружелюбный суперинтеллект выберет менее дьявольские способы мотивировать своих создателей. Многие сочли всю эту историю примером “информационной опасности”: некоторые идеи лучше не распространять, чтобы не тревожить лишних людей. Альтернатива василиску – просто игнорировать его. Если мыслительный эксперимент пугает и сбивает с толку – лучше не зацикливаться. Как шутливо заметил один комментатор, “единственный выигрышный ход – не думать о василиске”. В конце концов, реальных проблем AI Safety хватает и без экзотических ассausal-угроз.
03/13/2025, 10:48
t.me/mrswallbreaker/339
Женщины, формировавшие ИИ: от первых идей до безопасности искусственного интеллекта.

Далеко не исчерпывающий список имен и достижений - под катом.
03/08/2025, 20:22
t.me/mrswallbreaker/338
03/08/2025, 20:21
t.me/mrswallbreaker/336
03/08/2025, 20:21
t.me/mrswallbreaker/337
хот тейк: такие ребята с большой агентностью будут въебывать за 10ых хаусов, в то время как avg иван всё ещё будет лениться описать в запросе что же именно он хочет и как
03/08/2025, 02:46
t.me/mrswallbreaker/335
Непопулярное мнение:
Нейросети убьют понятие «талант», уравняв всех в творческих возможностях. Настоящим искусством станет умение убедить других, что это сделал именно ты.
03/08/2025, 02:32
t.me/mrswallbreaker/334
А еще есть мнение, что нейросети убьют гениальных социопатов. Мерзкие люди без софт скилов будут уничтожены как профессионалы. Такие персонажи как доктор Хаус или камбербетчевский Шерлок Холмс станут невозможны в своих профессиях.
03/08/2025, 02:32
t.me/mrswallbreaker/333
Mesa-optimisation

(кат)

Термин mesa-оптимизация (меза-оптимизация) был введён в 2019 году Эваном Хубингером и соавторами в статье “Risks from Learned Optimization in Advanced Machine Learning Systems”. В ней авторы анализировали случаи, когда обученная модель сама выступает как оптимизатор – то есть внутри неё возникает внутренний процесс оптимизации, преследующий собственную цель.

Однако, здравствуйте.
Меня долго не было, но у меня накопилось начитанного, и я врываюсь обратно. Сегодня - с обзорным лонгридом про современный стейт идеи меза-оптимизации - под катом. Кто не знаком с концепцией - не ссать - там про объяснение с примерами тоже есть)
03/08/2025, 00:42
t.me/mrswallbreaker/332
о, кране интересный вопрос

1) 500 деняк то выделено, но где? - в Техасе. Первый же консерн, который у меня тут возникает, а кто из тусовки AI разработчиков туда поедет работу работать и жить? штат крайне консервативный, там таких как IT не любят)))
и тут два путя:
- переехавшие ITшики перевоспитают местных быть более толерантными, больше беспокоиться об этике и прочей ответственной разработке,
- никто в Техас из Bay area не поедет, специалистов наберут из местных, у них там и так величие Америки головного мозга, получим аналогичную Китаю разработку - быстрее, выше сильнее («мне нужен суверенный американский AI, любой ценой, но бесплатно»). Тут я только надеюсь на систему сдерживаний и противовесов в области.

2) больше денег в конкретную компанию повлечет за собой больше денег в область, что повлечет за собой перераспределение на области исследований, в том числе Safety. Пример успеха DeepSeek показывает, что сегодня уже не нужны такие уж страшные цифры в бюджетах, чтобы создать frontier модель. Есть шанс, что такой пример перераспределит бюджет сильнее в пользу Safety под тем же самым консервативным лозунгом - даешь защиту от китайских и Северно-корейских суверенных AI.

3) ну и я, как та лошадь с шорами, все еще хочу верить, что мы где то близко к плато по текущим компьютам, архитектурам, данным. Инвестиции все таки не государственные, а частные. Частники не сильно любят в долгие инвестиции. И тогда бюджет распределиться между целями победы плато (здравствуй новая эмерджентность), либо в Safety - выжать с помощью техник алаймента все что можно из текущих ресурсов (здравствуй ответственная разработка, качественная подготовка к эмерждентности)
01/25/2025, 13:04
t.me/mrswallbreaker/331
субботнего срача пост развести:
01/25/2025, 13:04
t.me/mrswallbreaker/329
А что скажете насчет выделения 500 гигабаксов Трампом? Вообще, мне кажется, тут будет по принципу как, наверное, все технологии выходили - сначала развиваем по максимуму, потом соблюдаем кровью написанные правила безопасности. Правда, это если будет шанс исправлять, конечно. Ещё интересно, что Штаты на госуровне эту тему стали развивать как противопоставление Китаю, а Китай внешне вообще не парится, выкладывает в open source модели, превосходящие топовые, о которых аж перед сенатом отчитывались, что они мол безопасные. Кто там в Китае это курирует и курирует ли? В чём логика, не очень понятно.
01/25/2025, 13:04
t.me/mrswallbreaker/330
Search results are limited to 100 messages.
Some features are available to premium users only.
You need to buy subscription to use them.
Filter
Message type
Similar message chronology:
Newest first
Similar messages not found
Messages
Find similar avatars
Channels 0
High
Title
Subscribers
No results match your search criteria