Intuitive physics understanding emerges from self-supervised pretraining on natural videos
Quentin Garrido, Nicolas Ballas, Mahmoud Assran, Adrien Bardes, Laurent Najman, Michael Rabbat, Emmanuel Dupoux, Yann LeCun
Статья: https://arxiv.org/abs/2502.11831
Код: https://github.com/facebookresearch/jepa-intuitive-physics
Развитие темы про JEPA, world models и выучивание интуитивной физики из видео.
Интуитивная физика — довольно важный аспект нашей жизни и мышления. Мы ожидаем определённого поведения от объектов — что они не исчезают внезапно, не проходят через препятствия и не меняют произвольно цвета и формы. Подобные способности задокументированы не только у детёнышей человека, но и у приматов, морских млеков, врановых и так далее. Многие AI системы, превосходящие человеческий уровень в языковых или математических задачах, беспомощны в задачах, с которыми справится кошка, иллюстрируя
парадокс Моравека.
Люди делали разные подходы к снаряду. Есть структурированные модели с вручную закодированными правилами про репрезентации разных объектов и их отношений. Есть пиксельные генеративные модели, занимающиеся реконструкцией будущих сенсорных входов по прошлым. Текущая работа исследует третий класс моделей, являющихся срединным путём между первыми двумя — собственно Лекуновскую JEPA, Joint Embedding Predictive Architectures (https://openreview.net/pdf?id=BZ5a1r-kVsf).
JEPA мы так и не разобрали, но в двух словах её идея в том, что предсказание надо делать не в пиксельном или ещё каком финальном пространстве, а в выученных внутренних абстрактных репрезентациях. В этом она близка к структурированным моделям. Но в отличие от них, ничего не кодируется, всё выучивается. В JEPA входные данные x (например, пиксели изображения) кодируются энкодером во внутреннюю репрезентацию Enc(x), далее предиктор делает предсказание репрезентации будущего входа y, возможно учитывая какую-то латентную переменную z, влияющую на предсказание (например, выбранное действие какого-то объекта в случае видео), и этот результат сравнивается с реальной репрезентацией следующего входа, Enc(y). Это, кстати, довольно сильно перекликается с другими моделями, например BYOL (https://t.me/gonzo_ML/562), там наличие отдельного предиктора тоже было очень важным для предотвращения коллапса. Энкодеры для x и y могут быть и разными. Преимущество в том, что не надо предсказывать каждую деталь выходного объекта y (с точностью до пикселя), ибо на этом уровне может быть очень много вариантов, разница между которыми не так важна.
JEPA не генеративная модель, она не может легко предсказывать y из x. У JEPA есть несколько развитий: Hierarchical JEPA (H-JEPA, тоже из оригинальной статьи), Image-based JEPA (I-JEPA, https://arxiv.org/abs/2301.08243), Video-JEPA (V-JEPA, https://arxiv.org/abs/2404.08471) и её свежий вариант Video JEPA with Variance-Covariance Regularization (VJ-VCR, https://arxiv.org/abs/2412.10925) — помните VICReg (https://t.me/gonzo_ML/590)?
В текущей работа исследуется V-JEPA, расширение модели на работу с видео и предсказание замаскированных частей кадров. В такой модели можно проверять выучивание интуитивной физики через фреймворк violation-of-expectation, получая меру несоответствия между предсказанием и реальным видео через измерение полученного “сюрприза”. Так же оценивают это и у живых существ (например, они дольше задерживают взгляд на неожиданных исходах).
V-JEPA точно так же как и обычная JEPA включает в себя энкодер и предиктор, оба нейросетевые. Энкодер строит репрезентацию видео, предиктор предсказывает репрезентацию искусственно замаскированной части видео.