Команда курса. Менторы
Лена Еричева
Приглашенный ментор.
li.
@eerichevaML исследователь с 10-летним опытом в биотехнологиях и медтехе. В METR занимается AI Alignment и AI Safety: исследует возможности ИИ-моделей, разрабатывает бенчмарки и проводит Blue Teaming с фокусом на безопасности. Специализируется на компьютерном зрении, NLP и эффективном применении современных LLM и VLLM. А еще ведет канал
Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGIМиша Селезнёв
Ментор.
@exxxplainer Исследователь в AIRI, работает над PhD, был в AI safety Camp, MATS, CHAI. Соавтор
Obfuscated Activations Bypass LLM Latent-Space Defenses. Сейчас исследует высокоуровневые вопросы: Чему должна удовлетворять сильная AI система, чтобы мы могли назвать ее достаточно безопасной? Как связаны сложность/нечеткость постановки задачи с тем, насколько агентным должен быть тот, кто может ее решить? Что такое интерпретируемость? Что такое генерализация?
Настя Гайдашенко
Приглашенный ментор.
li.
@avgaydashenko В прошлом датасаентистка. Училась в Академическом Университете в Питере. Закончила Technical University of Munich по AI Governance. Контрибьютила в технические стандарты для EU AI Act и AI Risk Management Standards Profile для NIST. Сейчас работает проджектом в
FAR.AI. Работает с
idais.ai. Член совета директоров
ashgro.orgАртем Карпов
Приглашенный ментор.
cv.
@vpktra Исследователь в Apart Research. На текущем проекте пытается выявить скрытые reasoning возможности llm (стеганография) с помощью RL. Прошел через MATS, ARENA, MLSS. Соавтор NeurIPS статьи
Inducing Brain Bias. До сейфти занимался разработкой софта
Игорь Иванов
Приглашенный ментор.
li.
@baceolus Исследователь в Oxford Biosecurity Group, где занимается бенчмарками и ред-тимингом с фокусом на оценку биологических рисков. Сейчас занимается оценками рисков от ИИ агентов, способных лгать и скрывать свои цели. Автор бенчмарка
BioLP-bench. До этого работал 8 лет в биотехе и медицине. Готов вести проекты, как связанные с биологическими evals, так и с любыми другими, в зависимости от бекграунда и интересов студентов
Антон Желтоухов
Организатор курса. Ментор.
li.
@anton_zheltoukhovРисеч лид проекта
Accounting for Capability Overhang. A step towards new evals в AI Safety Camp. Сейчас фокусируется на evals и промт оптимизиторах. Работал над аджендой
Positive Attractors. Выпускник ARENA. В свободное время переносит инсайты из developmental psychology в safety,
Narrative Theory. До сейфти 6 лет работал в it: qa, dev. MS системного анализа в питерском политехе. Ведет блоги
the hard bits и
you can (not) advanceДенис Моисеенко
Приглашенный ментор.
li.
@culpritgene Независимый исследователь; 4.5 года в RnD - биоинформатика, графы знаний, NLP. Сейчас занимается агентными LLM системами для healthcare. Глубокие знания в области Geometric Deep Learning / Knowledge Graphs. Плавно переходит в AI Safety, участвует в проекте SPAR по autoregressive conditioning hypothesis. Основной интерес – нести геометрическую перспективу в MechInterp. MSc Skoltech (Life Science)
Антон Чайников
Ментор.
@mx_xun В рабочее время пишет компиляторы на хаскеле. В прошлом промышленный ML инженер. В свободное время рассказывает про высокую математику. Исследует Agent Foundations. Ищет ответы на вопросы: Каким образом градиентный спуск превращает случайные веса и данные в алгоритмы? Есть ли внутри нейросетей модели предметных областей? Как их найти и что-то с ними сделать? Как связать абстрактную теорию Agent Foundations с практикой ML / RL / MechInterp?
+ приглашенные менторы из
Palisade Research