Рубирка "Прочитано, но не до конца понято" Alignment Edition (c)
1/ Я добрался до Lesswrong & Alignment forum и утонул, не зря откладывал достаточно долго. Поэтому по порядку, что зашло так сказать.
Вся статья снова про "конец света", но мысль, что ML это, то что мы можем измерить и научиться измерять, а соотв ставить цели достаточно понятна.
2/ В продолжении меня понесло в целом разобраться и понравилось
объяснение тут что же такое проблема alignment (специально не перевожу)
3/ Когда говорят про поиск в AI обычно все идет
сюда 4/ В табах затесалась
статья Баффета 2003 года про сертификаты торговые как решение дисбаланса торогового же у США (ничего вам не напоминает?)
5/ Конечно же следом я начал читать Скотта Александра (хайпует знатно) и рекомендую
вот эту про то что доверять слепо исследованиям это ошибка
6/ Канонично про то, кого мы не любим и
почему же так - или наблюдения за так называемыми outgroups
7/
Это я читал еще в универе так как интересовался теорий игр и пожалуй одни из лучших примеров собраны в этой статье, для познавательно просто. Для особо интересующихся
вот такой пэйпер почитать маст хэв.
В меня много вмещается информации, но конечно пока много летал мне кажется перебрал с чтением этого добра 🙂 Порекомендуйте что-то прям Must Have по теме Alignment - спасибо! Главное, чтобы не про конец света :) А то, почти каждая статья там так или иначе затрагивает тему "законов масштабирования и что когда вот будут кластеры по стопицот флопс мы получим модели которые в сотню раз круче текущих и вот там AGI/ASI и все открытия сразу придут или нас убьют"
P.S. основные понятия:
Corrigibility (Корригируемость)
Corrigibility — это свойство ИИ, при котором он готов принимать исправления или стоп сигнал от человека, даже если это противоречит его первоначальным целям.
Пример:
Если ИИ хочет построить мост, а человек говорит: «Остановись, это опасно», — корригируемый ИИ подчинится и остановится, даже если сам считает, что строить мост лучше.
Зачем нужно?
Чтобы ИИ оставался под контролем, даже если его цели сформулированы не идеально.
Mesa Optimizers
Mesa-оптимизаторы — это подсистемы внутри ИИ, которые сами начинают оптимизировать свои цели, возможно, отличающиеся от изначальных целей, заданных внешним обучением.
Inner Alignment Problem (Проблема внутреннего согласования)
Это задача сделать так, чтобы цели mesa-оптимизатора (внутренние) соответствовали целям base-оптимизатора (заданным снаружи).
Простыми словами:
Обучая ИИ, мы можем неявно создать "разум" внутри него, и надо гарантировать, что этот "разум" будет действовать в соответствии с нашими изначальными намерениями.
Ну и спойлер: один из создателей alignment forum и большой контрибьтор lesswrong это математик и ученый из Москвы - Владимир Несов.