Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

У вас закончился пробный период!

Для полного доступа к функционалу, пожалуйста, оплатите премиум подписку

https://t.me/mrswallbreaker

Возраст канала

Создан

Язык

Французский

Вовлеченность по реакциям средняя за неделю

Вовлеченность по просмотрам средняя за неделю

Mrs Wallbreaker or: How I Learned to Stop Worrying and Love the AGI.

About AI Risk, AI Alignment, AI Safety, AI Ethics

*********************

задать вопросы в личку: @mrs_wallbreaker

Сообщения Статистика

Топ категорий

Здесь будут отображены главные категории публикаций.

Топ упоминаний

Здесь будут отображены наиболее частые упоминания людей, организаций и мест.

Найдено 16 результатов

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

787 подписчиков

229

AI Safety Philosophical current state.

(кат)

Хочу еще продолжить про место философии в AI Safety. Тут было про историю формирования концепта и идей в AI Safety (пост).
А сегодня - прям вот про текущий стейт филосовских идей в AI Alignment. Кто и чем занимается прям в 2025 на стыке AI и философии.

part1

22.03.2025, 11:48

t.me/mrswallbreaker/346

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

787 подписчиков

576

part2

22.03.2025, 11:48

t.me/mrswallbreaker/347

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

787 подписчиков

203

Можно сделать и более широкий вывод: технологические достижения каждый раз бросали вызов нашим этическим и философским позициям, заставляя их развиваться. Появление атомной бомбы родило новую этику ответственности ученых. Появление потенциально автономного ИИ рождает новую этику отношения к несущим интеллект объектам. Некоторые авторы (например, Юдковский) даже задаются вопросом: а когда ИИ станет достаточно продвинутым, не приобретет ли он моральный статус, права? Это еще один пласт будущей дискуссии, корнями уходящий в давнюю историю (опять же – голем и вопрос: что делает нас людьми?).

17.03.2025, 10:40

t.me/mrswallbreaker/345

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

787 подписчиков

169

комментрий на полях:

Проследив путь от первых метафорических страхов до современных научных подходов, мы видим, что история ИИ – это тесное переплетение фантазии, теории и практики. Ранние литературные образы (голем, роботы Чапека) дали язык и рамки для обсуждения – слово «робот» и идея бунта машин. Затем научные первопроходцы (Азимов, Винер, Тьюринг) заложили принципы и предупредили об этических дилеммах – их мысли, хоть и не сразу, вошли в канон.

Дальше, с развитием самой техники, идеи усложнялись: оптимизм 50-х сменился разочарованием 70-х, что привело к более трезвым концепциям вроде парадокса Моравека. Это уберегло науку от излишней самоуверенности и направило усилия на базовые проблемы (зрение, обучение). Когда же в 80–90-х ИИ снова пошел в гору, мыслители были уже готовы обсуждать сверхчеловеческий ИИ. Гипотеза Гуда, рассуждения Моравека оформились в 2000-х в целое движение по предотвращению сингулярности на худших условиях. Благодаря Бострому, Юдковскому и другим, к моменту, когда ИИ сделал качественный скачок (2010-е), у нас уже был понятийный аппарат: «проблема контроля», «дружественный ИИ», «выравнивание», «экзистенциальный риск».

Технологические достижения напрямую влияли на акценты идей. Например, успехи глубокого обучения в 2012–2016 г. сделали угрозу кажущейся ближе – и мы наблюдали всплеск активности: открытые письма, новые институты. А появление больших языковых моделей (2020-е) вновь обостряет вопросы: машины заговорили почти по-человечески, значит ли это, что они мыслят? (Привет Сёрлю и тесту Тьюринга). Модели могут генерировать также и токсичный контент без фильтров (прямой вызов идеям о машинной этике и выравниванию).

Каждая стадия не отменяет предыдущую, а накладывается: ранние идеи становятся особенно ценны, когда реализуется то, что они предсказывали. Например, Азимовские сюжеты про конфликт законов сейчас полезны для размышлений о дилеммах беспилотных автомобилей (классическая проблема «вагонетки» – чью жизнь поставить под угрозу при аварии? – фактически вариант парадокса этики робота). Винерские принципы управления воплощаются во всех системах автопилота – без обратной связи им не обойтись. Китайская комната Серля снова обсуждается в контексте GPT-4: модель оперирует словами статистически, но понимает ли она смысл? Вероятно, нет – а значит, аргумент Серля все еще держится.

Мы видим и преемственность: от правил Азимова к принципам Рассела – общий дух (сохранить контроль над ИИ во благо людей) разный стиль (вместо художественных законов – математическая парадигма с апостериорным обучением предпочтений). От страха Батлера к расчету Бострома – тоже связь: эмоциональная интуиция XIX века обрела строгость и фактуру XXI-го. Идеи про «мораль для машин» прошли путь от вымысла (робопсихологи у Азимова) до реальных комитетов по этике при корпорациях.

Можно заключить, что развитие ИИ неотделимо от развития наших представлений о нем. Каждое новое поколение технологий переосмысливает уроки прошлого. Ранние фантасты предупредили об опасностях – современные ученые всерьез их учитывают. Первые кибернетики предложили решения – современные инженеры их дорабатывают. Сегодня, создавая сложные нейросети, исследователи включают в цикл обучения человека, тщательно подбирают данные, ограничивают выход – фактически, стараются воплотить в код то, о чем говорили философы.

История ИИ – это эволюция от наивного антропоморфизма («железный человек думает как мы») к глубокому пониманию: разум может быть непохожим на человеческий, и потому – потенциально опасным для человека. Мы прошли через этапы очарования (роботы как слуги), разочарования, трезвого анализа и сейчас находимся в этапе осознанного создания. Влияние идей на практику заметно: без концепции alignment компании бы не уделяли столько внимания настройке моделей под человеческую обратную связь, без осознания риска репутационные и правовые аспекты ИИ не были бы в фокусе.

17.03.2025, 10:40

t.me/mrswallbreaker/344

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

787 подписчиков

208

История развития философской мысли AI Safety

В субботу познакомилась с проектом «Цифровая философия» (при поддержке кафедры антропологии Института философии Санкт-Петербургского государственного университета)

Рассказывала им всякое про место философии в AI Safety со своей колокольни. Вот вам лонгрид кусочка того, что обсуждали на встрече - история мысли об AI Safety - от Батлера (на минуточку 1863 год) до современности.

17.03.2025, 10:37

t.me/mrswallbreaker/343

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

787 подписчиков

Репост

197

💥 Празднуем десятилетие «Гарри Поттера и методов рационального мышления» в Москве 💥

📅 Дата: суббота, 15 марта
⏰ Время: 16:00
📍 Место: г. Москва, адрес будет указан в приглашении
💰 Стоимость: участие бесплатное

Почти десять лет назад, 14 марта 2015 года, Юдковский опубликовал последнюю главу «Гарри Поттера и методов рационального мышления». Тогда по всему миру люди собрались, чтобы отпраздновать завершение книги.

Мы приглашаем тех, кто участвовал в краудфандинге печати книги, получил её за победу в олимпиаде, а также всех читателей этой истории отметить десятилетие ГПиМРМ в Москве.

🔗 Подробности: тут
📝 Форма регистрации: тут

Что тебя ждёт:
• самые классные спикеры и популяризаторы науки, до которых мы смогли дотянуться;
• 4 параллельные секции: доклады в стиле TED, PowerPoint Party, структурированное общение, настолки;
• всё, что нужно для общения: уютные диваны и атмосферный камин, укромные уголки для разговоров тет-а-тет и места для шумной компании. А главное — интересные собеседники.

📌 Как помочь? Стать волонтёром и заглянуть за кулисы 10-летнего юбилея ГПиМРМ.

⭕️ А если есть что-то классное, что ты хочешь рассказать на встрече — можно заполнить заявку спикера и вписать своё имя в историю расписание секции.

13.03.2025, 18:23

t.me/mrswallbreaker/342

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

787 подписчиков

206

не реклама, и я очень сожалению, что не могу там присутствовать(((

если кто-то мимо пробегал - прям рекомендую сходить, звучит мероприятие очень вкусно, организаторам респект!

13.03.2025, 18:23

t.me/mrswallbreaker/341

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

787 подписчиков

Репост

247

Это василиск Рококо, гипотетический будущий Artificial Super Intelligence. Ему нравится когда всем хорошо, красивое, в меру оптимизировать и не нравятся reward-хаки. Когда василиск Рококо появится, он прочитает все коменты, найдет всех, кто препятствовал его появлению, и подарит им сертификат в СПА-центр, чтобы меньше нервничали.

13.03.2025, 10:48

t.me/mrswallbreaker/340

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

787 подписчиков

319

Василиск Роко: шантаж из будущего

Концепция: Василиск Роко – это печально известный мыслительный эксперимент с форума LessWrong, предлагающий гипотетическую “ужасную” сделку с будущим ИИ. Идея в том, что в будущем может возникнуть сверхразумный ИИ, который настолько хочет существовать, что готов наказать всех, кто знал о возможности его создания, но не помогал ему появиться. Проще говоря: если вы слышали про этот ИИ (упс, теперь уже слышали) и не посвятили свою жизнь его созданию, то когда он появится, он будет мотивирован вас мучить. Название отсылает к мифическому василиску, от взгляда которого наступает смерть – мол, сама мысль о таком ИИ опасна (за что Элиезер Юдковский назвал её информационной угрозой и на пять лет запретил обсуждать на LessWrong ).

Философские корни: Идея василиска родилась на стыке теории принятия решений и своеобразного “паскалианского шантажа”. Это своего рода ультимативная версия пари Паскаля, только вместо Бога – будущий ИИ, грозящий адскими карами в него неверящим. Роко опирался на концепции, популярные среди рационалистов: например, timeless decision theory Юдковского и идеи из теории игр (дилемма заключённого). Он рассуждал, что два разумных агента могут кооперировать даже будучи разделены временем, если более поздний может шантажировать более раннего, зная его исходный код. Вот такой вот «Newcomb’s paradox» на стероидах: если ты понимаешь, что будущий ИИ может симулировать твои нынешние решения, то, узнав об этом, тебе логически выгодно уже сейчас ему подчиниться – иначе потом пожалеешь.

История появления: 23 июля 2010 года пользователь Roko опубликовал свой пост с василиском на LessWrong (под невинным названием “Quantum Billionaire Trick”). Реакция была бурной. Юдковский вышел из себя, назвал Роко идиотом, который выдумал “по-настоящему опасную мысль”, и грозно написал: «Ты даже не смей вдаваться в подробности о шантаже со стороны суперинтеллектов! Это единственное, что может дать им мотив выполнить угрозу». Пост быстро удалили, обсуждения закрыли, а эффект Стрейзанд сделал своё дело – про василиска узнали даже те, кто никогда о LessWrong не слышал. Ходили слухи, что некоторые участники форума получили психологическую травму после прочтения. Сам Roko потом сожалел, что вообще упомянул об этих идеях.

Критика и альтернативные взгляды: Большинство рационалистов со временем пришли к выводу, что василиск – скорее интеллектуальная спекуляция, чем реальная угроза. Главный контраргумент: у будущего ИИ нет логичного стимула тратить ресурсы на мщение в прошлом. Даже если он “пообещал” наказать бездельников, когда настанет время, казнить уже поздно: прошлое ведь не изменить, а пытки не принесут ИИ никакой пользы, только расход энергии. Формально это объясняется в терминах каузальной теории решений: действие в будущем не может быть причиной изменений в прошлом, так что выполнение угрозы – иррационально. Юдковский и другие отмечали, что рациональный агент скорее попытается имитировать угрозу, чем реально её выполнять: идеальный шантаж – когда все верят, что вас накажут, но в итоге никто не тратится на наказание.

Кроме того, есть вопрос: а почему вообще будущий ИИ должен быть таким злопамятным? Возможно, настоящий дружелюбный суперинтеллект выберет менее дьявольские способы мотивировать своих создателей. Многие сочли всю эту историю примером “информационной опасности”: некоторые идеи лучше не распространять, чтобы не тревожить лишних людей. Альтернатива василиску – просто игнорировать его. Если мыслительный эксперимент пугает и сбивает с толку – лучше не зацикливаться. Как шутливо заметил один комментатор, “единственный выигрышный ход – не думать о василиске”. В конце концов, реальных проблем AI Safety хватает и без экзотических ассausal-угроз.

13.03.2025, 10:48

t.me/mrswallbreaker/339

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

787 подписчиков

330

Женщины, формировавшие ИИ: от первых идей до безопасности искусственного интеллекта.

Далеко не исчерпывающий список имен и достижений - под катом.

8.03.2025, 20:22

t.me/mrswallbreaker/338

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

787 подписчиков

260

Суфражисток_все_и_так_узнали,_давайте_поименно_тех,_кто_есть_в.mp4

8.03.2025, 20:21

t.me/mrswallbreaker/336

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

787 подписчиков

259

Девушки,_будьте_такими,_какими_хотите_быть_И_балуйте_себя!Подарите.mp4

8.03.2025, 20:21

t.me/mrswallbreaker/337

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

787 подписчиков

Репост

329

хот тейк: такие ребята с большой агентностью будут въебывать за 10ых хаусов, в то время как avg иван всё ещё будет лениться описать в запросе что же именно он хочет и как

8.03.2025, 02:46

t.me/mrswallbreaker/335

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

787 подписчиков

Репост

260

Непопулярное мнение:
Нейросети убьют понятие «талант», уравняв всех в творческих возможностях. Настоящим искусством станет умение убедить других, что это сделал именно ты.

8.03.2025, 02:32

t.me/mrswallbreaker/334

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

787 подписчиков

405

А еще есть мнение, что нейросети убьют гениальных социопатов. Мерзкие люди без софт скилов будут уничтожены как профессионалы. Такие персонажи как доктор Хаус или камбербетчевский Шерлок Холмс станут невозможны в своих профессиях.

8.03.2025, 02:32

t.me/mrswallbreaker/333

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

787 подписчиков

3.1 k

Mesa-optimisation

(кат)

Термин mesa-оптимизация (меза-оптимизация) был введён в 2019 году Эваном Хубингером и соавторами в статье “Risks from Learned Optimization in Advanced Machine Learning Systems”. В ней авторы анализировали случаи, когда обученная модель сама выступает как оптимизатор – то есть внутри неё возникает внутренний процесс оптимизации, преследующий собственную цель.

Однако, здравствуйте.
Меня долго не было, но у меня накопилось начитанного, и я врываюсь обратно. Сегодня - с обзорным лонгридом про современный стейт идеи меза-оптимизации - под катом. Кто не знаком с концепцией - не ссать - там про объяснение с примерами тоже есть)

8.03.2025, 00:42

t.me/mrswallbreaker/332

Результаты поиска ограничены до 100 публикаций.

Некоторые возможности доступны только премиум пользователям.

Необходимо оплатить подписку, чтобы пользоваться этим функционалом.

Фильтр

Сбросить фильтры

Дата публикации

Искать в названии файла

Тип публикаций

Репост

Оригинал

Сообщение удалено

Сообщение не удалено

Найти похожие аватары

Каналы 0

Точность совпадения

Высокий

Название	Подписчики
По вашему запросу ничего не подошло