У вас закончился пробный период!
Для полного доступа к функционалу, пожалуйста, оплатите премиум подписку
MR
Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI
https://t.me/mrswallbreaker
Возраст канала
Создан
Язык
Французский
-
Вовлеченность по реакциям средняя за неделю
-
Вовлеченность по просмотрам средняя за неделю

Mrs Wallbreaker or: How I Learned to Stop Worrying and Love the AGI.

About AI Risk, AI Alignment, AI Safety, AI Ethics

*********************

задать вопросы в личку: @mrs_wallbreaker

Сообщения Статистика
Репосты и цитирования
Сети публикаций
Сателлиты
Контакты
История
Топ категорий
Здесь будут отображены главные категории публикаций.
Топ упоминаний
Здесь будут отображены наиболее частые упоминания людей, организаций и мест.
Найдено 16 результатов
AI Safety Philosophical current state.

(кат)

Хочу еще продолжить про место философии в AI Safety. Тут было про историю формирования концепта и идей в AI Safety (пост).
А сегодня - прям вот про текущий стейт филосовских идей в AI Alignment. Кто и чем занимается прям в 2025 на стыке AI и философии.

part1
22.03.2025, 11:48
t.me/mrswallbreaker/346
22.03.2025, 11:48
t.me/mrswallbreaker/347
Можно сделать и более широкий вывод: технологические достижения каждый раз бросали вызов нашим этическим и философским позициям, заставляя их развиваться. Появление атомной бомбы родило новую этику ответственности ученых. Появление потенциально автономного ИИ рождает новую этику отношения к несущим интеллект объектам. Некоторые авторы (например, Юдковский) даже задаются вопросом: а когда ИИ станет достаточно продвинутым, не приобретет ли он моральный статус, права? Это еще один пласт будущей дискуссии, корнями уходящий в давнюю историю (опять же – голем и вопрос: что делает нас людьми?).
17.03.2025, 10:40
t.me/mrswallbreaker/345
комментрий на полях:

Проследив путь от первых метафорических страхов до современных научных подходов, мы видим, что история ИИ – это тесное переплетение фантазии, теории и практики. Ранние литературные образы (голем, роботы Чапека) дали язык и рамки для обсуждения – слово «робот» и идея бунта машин. Затем научные первопроходцы (Азимов, Винер, Тьюринг) заложили принципы и предупредили об этических дилеммах – их мысли, хоть и не сразу, вошли в канон.

Дальше, с развитием самой техники, идеи усложнялись: оптимизм 50-х сменился разочарованием 70-х, что привело к более трезвым концепциям вроде парадокса Моравека. Это уберегло науку от излишней самоуверенности и направило усилия на базовые проблемы (зрение, обучение). Когда же в 80–90-х ИИ снова пошел в гору, мыслители были уже готовы обсуждать сверхчеловеческий ИИ. Гипотеза Гуда, рассуждения Моравека оформились в 2000-х в целое движение по предотвращению сингулярности на худших условиях. Благодаря Бострому, Юдковскому и другим, к моменту, когда ИИ сделал качественный скачок (2010-е), у нас уже был понятийный аппарат: «проблема контроля», «дружественный ИИ», «выравнивание», «экзистенциальный риск».

Технологические достижения напрямую влияли на акценты идей. Например, успехи глубокого обучения в 2012–2016 г. сделали угрозу кажущейся ближе – и мы наблюдали всплеск активности: открытые письма, новые институты. А появление больших языковых моделей (2020-е) вновь обостряет вопросы: машины заговорили почти по-человечески, значит ли это, что они мыслят? (Привет Сёрлю и тесту Тьюринга). Модели могут генерировать также и токсичный контент без фильтров (прямой вызов идеям о машинной этике и выравниванию).

Каждая стадия не отменяет предыдущую, а накладывается: ранние идеи становятся особенно ценны, когда реализуется то, что они предсказывали. Например, Азимовские сюжеты про конфликт законов сейчас полезны для размышлений о дилеммах беспилотных автомобилей (классическая проблема «вагонетки» – чью жизнь поставить под угрозу при аварии? – фактически вариант парадокса этики робота). Винерские принципы управления воплощаются во всех системах автопилота – без обратной связи им не обойтись. Китайская комната Серля снова обсуждается в контексте GPT-4: модель оперирует словами статистически, но понимает ли она смысл? Вероятно, нет – а значит, аргумент Серля все еще держится.

Мы видим и преемственность: от правил Азимова к принципам Рассела – общий дух (сохранить контроль над ИИ во благо людей) разный стиль (вместо художественных законов – математическая парадигма с апостериорным обучением предпочтений). От страха Батлера к расчету Бострома – тоже связь: эмоциональная интуиция XIX века обрела строгость и фактуру XXI-го. Идеи про «мораль для машин» прошли путь от вымысла (робопсихологи у Азимова) до реальных комитетов по этике при корпорациях.

Можно заключить, что развитие ИИ неотделимо от развития наших представлений о нем. Каждое новое поколение технологий переосмысливает уроки прошлого. Ранние фантасты предупредили об опасностях – современные ученые всерьез их учитывают. Первые кибернетики предложили решения – современные инженеры их дорабатывают. Сегодня, создавая сложные нейросети, исследователи включают в цикл обучения человека, тщательно подбирают данные, ограничивают выход – фактически, стараются воплотить в код то, о чем говорили философы.

История ИИ – это эволюция от наивного антропоморфизма («железный человек думает как мы») к глубокому пониманию: разум может быть непохожим на человеческий, и потому – потенциально опасным для человека. Мы прошли через этапы очарования (роботы как слуги), разочарования, трезвого анализа и сейчас находимся в этапе осознанного создания. Влияние идей на практику заметно: без концепции alignment компании бы не уделяли столько внимания настройке моделей под человеческую обратную связь, без осознания риска репутационные и правовые аспекты ИИ не были бы в фокусе.
17.03.2025, 10:40
t.me/mrswallbreaker/344
История развития философской мысли AI Safety

В субботу познакомилась с проектом «Цифровая философия» (при поддержке кафедры антропологии Института философии Санкт-Петербургского государственного университета)

Рассказывала им всякое про место философии в AI Safety со своей колокольни. Вот вам лонгрид кусочка того, что обсуждали на встрече - история мысли об AI Safety - от Батлера (на минуточку 1863 год) до современности.
17.03.2025, 10:37
t.me/mrswallbreaker/343
💥 Празднуем десятилетие «Гарри Поттера и методов рационального мышления» в Москве 💥

📅 Дата: суббота, 15 марта
⏰ Время: 16:00
📍 Место: г. Москва, адрес будет указан в приглашении
💰 Стоимость: участие бесплатное

Почти десять лет назад, 14 марта 2015 года, Юдковский опубликовал последнюю главу «Гарри Поттера и методов рационального мышления». Тогда по всему миру люди собрались, чтобы отпраздновать завершение книги.

Мы приглашаем тех, кто участвовал в краудфандинге печати книги, получил её за победу в олимпиаде, а также всех читателей этой истории отметить десятилетие ГПиМРМ в Москве.

🔗 Подробности: тут
📝 Форма регистрации: тут

Что тебя ждёт:
• самые классные спикеры и популяризаторы науки, до которых мы смогли дотянуться;
• 4 параллельные секции: доклады в стиле TED, PowerPoint Party, структурированное общение, настолки;
• всё, что нужно для общения: уютные диваны и атмосферный камин, укромные уголки для разговоров тет-а-тет и места для шумной компании. А главное — интересные собеседники.

📌 Как помочь? Стать волонтёром и заглянуть за кулисы 10-летнего юбилея ГПиМРМ.

⭕️ А если есть что-то классное, что ты хочешь рассказать на встрече — можно заполнить заявку спикера и вписать своё имя в историю расписание секции.
13.03.2025, 18:23
t.me/mrswallbreaker/342
не реклама, и я очень сожалению, что не могу там присутствовать(((

если кто-то мимо пробегал - прям рекомендую сходить, звучит мероприятие очень вкусно, организаторам респект!
13.03.2025, 18:23
t.me/mrswallbreaker/341
Это василиск Рококо, гипотетический будущий Artificial Super Intelligence. Ему нравится когда всем хорошо, красивое, в меру оптимизировать и не нравятся reward-хаки. Когда василиск Рококо появится, он прочитает все коменты, найдет всех, кто препятствовал его появлению, и подарит им сертификат в СПА-центр, чтобы меньше нервничали.
13.03.2025, 10:48
t.me/mrswallbreaker/340
Василиск Роко: шантаж из будущего

Концепция: Василиск Роко – это печально известный мыслительный эксперимент с форума LessWrong, предлагающий гипотетическую “ужасную” сделку с будущим ИИ. Идея в том, что в будущем может возникнуть сверхразумный ИИ, который настолько хочет существовать, что готов наказать всех, кто знал о возможности его создания, но не помогал ему появиться. Проще говоря: если вы слышали про этот ИИ (упс, теперь уже слышали) и не посвятили свою жизнь его созданию, то когда он появится, он будет мотивирован вас мучить. Название отсылает к мифическому василиску, от взгляда которого наступает смерть – мол, сама мысль о таком ИИ опасна (за что Элиезер Юдковский назвал её информационной угрозой и на пять лет запретил обсуждать на LessWrong ).

Философские корни: Идея василиска родилась на стыке теории принятия решений и своеобразного “паскалианского шантажа”. Это своего рода ультимативная версия пари Паскаля, только вместо Бога – будущий ИИ, грозящий адскими карами в него неверящим. Роко опирался на концепции, популярные среди рационалистов: например, timeless decision theory Юдковского и идеи из теории игр (дилемма заключённого). Он рассуждал, что два разумных агента могут кооперировать даже будучи разделены временем, если более поздний может шантажировать более раннего, зная его исходный код. Вот такой вот «Newcomb’s paradox» на стероидах: если ты понимаешь, что будущий ИИ может симулировать твои нынешние решения, то, узнав об этом, тебе логически выгодно уже сейчас ему подчиниться – иначе потом пожалеешь.

История появления: 23 июля 2010 года пользователь Roko опубликовал свой пост с василиском на LessWrong (под невинным названием “Quantum Billionaire Trick”). Реакция была бурной. Юдковский вышел из себя, назвал Роко идиотом, который выдумал “по-настоящему опасную мысль”, и грозно написал: «Ты даже не смей вдаваться в подробности о шантаже со стороны суперинтеллектов! Это единственное, что может дать им мотив выполнить угрозу». Пост быстро удалили, обсуждения закрыли, а эффект Стрейзанд сделал своё дело – про василиска узнали даже те, кто никогда о LessWrong не слышал. Ходили слухи, что некоторые участники форума получили психологическую травму после прочтения. Сам Roko потом сожалел, что вообще упомянул об этих идеях.

Критика и альтернативные взгляды: Большинство рационалистов со временем пришли к выводу, что василиск – скорее интеллектуальная спекуляция, чем реальная угроза. Главный контраргумент: у будущего ИИ нет логичного стимула тратить ресурсы на мщение в прошлом. Даже если он “пообещал” наказать бездельников, когда настанет время, казнить уже поздно: прошлое ведь не изменить, а пытки не принесут ИИ никакой пользы, только расход энергии. Формально это объясняется в терминах каузальной теории решений: действие в будущем не может быть причиной изменений в прошлом, так что выполнение угрозы – иррационально. Юдковский и другие отмечали, что рациональный агент скорее попытается имитировать угрозу, чем реально её выполнять: идеальный шантаж – когда все верят, что вас накажут, но в итоге никто не тратится на наказание.

Кроме того, есть вопрос: а почему вообще будущий ИИ должен быть таким злопамятным? Возможно, настоящий дружелюбный суперинтеллект выберет менее дьявольские способы мотивировать своих создателей. Многие сочли всю эту историю примером “информационной опасности”: некоторые идеи лучше не распространять, чтобы не тревожить лишних людей. Альтернатива василиску – просто игнорировать его. Если мыслительный эксперимент пугает и сбивает с толку – лучше не зацикливаться. Как шутливо заметил один комментатор, “единственный выигрышный ход – не думать о василиске”. В конце концов, реальных проблем AI Safety хватает и без экзотических ассausal-угроз.
13.03.2025, 10:48
t.me/mrswallbreaker/339
Женщины, формировавшие ИИ: от первых идей до безопасности искусственного интеллекта.

Далеко не исчерпывающий список имен и достижений - под катом.
8.03.2025, 20:22
t.me/mrswallbreaker/338
8.03.2025, 20:21
t.me/mrswallbreaker/336
8.03.2025, 20:21
t.me/mrswallbreaker/337
хот тейк: такие ребята с большой агентностью будут въебывать за 10ых хаусов, в то время как avg иван всё ещё будет лениться описать в запросе что же именно он хочет и как
8.03.2025, 02:46
t.me/mrswallbreaker/335
Непопулярное мнение:
Нейросети убьют понятие «талант», уравняв всех в творческих возможностях. Настоящим искусством станет умение убедить других, что это сделал именно ты.
8.03.2025, 02:32
t.me/mrswallbreaker/334
А еще есть мнение, что нейросети убьют гениальных социопатов. Мерзкие люди без софт скилов будут уничтожены как профессионалы. Такие персонажи как доктор Хаус или камбербетчевский Шерлок Холмс станут невозможны в своих профессиях.
8.03.2025, 02:32
t.me/mrswallbreaker/333
Mesa-optimisation

(кат)

Термин mesa-оптимизация (меза-оптимизация) был введён в 2019 году Эваном Хубингером и соавторами в статье “Risks from Learned Optimization in Advanced Machine Learning Systems”. В ней авторы анализировали случаи, когда обученная модель сама выступает как оптимизатор – то есть внутри неё возникает внутренний процесс оптимизации, преследующий собственную цель.

Однако, здравствуйте.
Меня долго не было, но у меня накопилось начитанного, и я врываюсь обратно. Сегодня - с обзорным лонгридом про современный стейт идеи меза-оптимизации - под катом. Кто не знаком с концепцией - не ссать - там про объяснение с примерами тоже есть)
8.03.2025, 00:42
t.me/mrswallbreaker/332
Результаты поиска ограничены до 100 публикаций.
Некоторые возможности доступны только премиум пользователям.
Необходимо оплатить подписку, чтобы пользоваться этим функционалом.
Фильтр
Тип публикаций
Хронология похожих публикаций:
Сначала новые
Похожие публикации не найдены
Сообщения
Найти похожие аватары
Каналы 0
Высокий
Название
Подписчики
По вашему запросу ничего не подошло