У вас закончился пробный период!
Для полного доступа к функционалу, пожалуйста, оплатите премиум подписку
Возраст канала
Создан
Язык
Русский
6.98%
Вовлеченность по реакциям средняя за неделю
52.8%
Вовлеченность по просмотрам средняя за неделю

личный канал Валентина Малых про ИИ

Сообщения Статистика
Репосты и цитирования
Сети публикаций
Сателлиты
Контакты
История
Топ категорий
Здесь будут отображены главные категории публикаций.
Топ упоминаний
Здесь будут отображены наиболее частые упоминания людей, организаций и мест.
Найдено 114 результатов
VA
Valuable AI
1 089 подписчиков
7
7
452
как отчеканил Псой Короленко, "культура - это палимпсест"; для ИИ это работает точно также, только гораздо быстрее; на 1 картинке предполагаемый источник несуществующего термина корчеватель "vegetative electron microscopy", который уже появился минимум в 22 научных статьях, - ошибка OCR; альтернативно это может быть ошибка перевода с фарси (2 картинка)

вышеприведенная история - это реализация "самопожирания ИИ" (AI autophagy), такой цветистый термин придумали авторы статьи в Nature (даю ссылку на архив, т.к. в Nature пейволл); смысл термина в том, что уже сейчас большу́ю, а в недалеком будущем и бо́льшую, часть содержимого интернета составляют генерации от различных LLM; технически с этим ничего сделать нельзя, можно только административно через создание правил обучения LLM

тут я скептичен: (1) ввести такие правила сложно, не говоря о том, что проконтролировать их выполнение, а (2) пока это приносит пользу для решения реальной задачи, запретить автофагию невозможно

P.S. источник истории про нео-корчеватель
25.04.2025, 09:49
t.me/valuableai/212
VA
Valuable AI
1 089 подписчиков
7
452
25.04.2025, 09:49
t.me/valuableai/213
VA
Valuable AI
1 089 подписчиков
11
6
570
в этом году я веду две секции на ДатаФесте: NLP и AI for Software Engineering, подавайтесь, кто хотел выступить; будут площадки в Москве, Питере, Новосибирске и Алматы; форма подачи: https://ods.ai/tasks/speakers_df2025
24.04.2025, 14:12
t.me/valuableai/211
VA
Valuable AI
1 089 подписчиков
7
6
608
пришла новость, что в ОАЭ будут предлагать изменения в законодательство с помощью ИИ; как раз на прошлой неделе обсуждали новость, что в России будут использовать ИИ в судопроизводстве

вообще, если задуматься, любой юридический документ - это (позитивный или негативный) промт, т.е. пошаговая инструкция, что можно и нельзя делать; с этой точки зрения использовать для написания законов ИИ вполне логичный шаг; другой вопрос, что законодательство должно быть логически непротиворечивым, а современные модели не могут эффективно работать большими массивами документов; но в реальной жизни люди при работе с документами тоже допускают ошибки, причем их настолько много, что про это пишут книги и научные статьи
24.04.2025, 09:40
t.me/valuableai/210
VA
Valuable AI
1 089 подписчиков
19
23
453
CVPR отзывает решение о принятии статей от коллег из России (как университетов, так и компаний):
Hello,
I am writing in regards to your article "XXX" IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Your article was issued a conditional acceptance, subject to a confidential review process. We must inform you that during review, we learned that publication of your article is not legally authorized. As such, the prior acceptance issued is hereby withdrawn, effective immediately.
Thank you for your understanding in this matter.

Regards,
Patrick

я сам попадал в такую ситуацию, но надеялся, что истерия осталась в прошлом

дополнительно могу сказать, что на COLING этого года из 13 известных мне поданных от российских коллег статей была принята ровно одна, в которой кроме коллег из России было с десяток иностранных соавторов; но COLING официально ничего не заявлял, так что это можно списать на статистический выброс
23.04.2025, 09:41
t.me/valuableai/209
VA
Valuable AI
1 089 подписчиков
11
27
687
пришла новость, что OpenAI стали добавлять водяные знаки в вывод своих моделей; удивительно, что только сейчас, но в целом в текущем виде - это защита от дурака

что я имею в виду: это защита от совсем ленивых студентов, которые не обрабатывают текст, выданный ChatGPT, и выдают его за свой; а также защита от тех, кто собирает генерации ChatGPT и учит свои модели без предобработки

вообще, хорошим водяным знаком является вопрос "кто тебя сделал?"; например, DeepSeek для обучения русскому языку явно использовал YandexGPT; хотя кажется, что этот водяной знак удалить не сложнее, чем спецсимволы из новости выше, но тут нужно понимать смысл текста, что для большого объема может быть дорого, да и в целом не надежно
22.04.2025, 09:35
t.me/valuableai/208
VA
Valuable AI
1 089 подписчиков
32
19
670
до меня долетела ссылка на эссе, где вайб-кодинг сравнивается с васянским гаражным тюнингом, типа народная энергия приведет к невиданному расцвету креатива; на мой взгляд основная аудитория вайб-кодинга - это не условные люди из народа, но и не программисты, т.к. на них (на меня, например) сильно работает эффект зловещей долины - ты знаешь, что ты имел в виду, а эта штука пишет что-то вроде на тему, но все-таки сильно не туда, и тебя бесит за ней потом править

основная аудитория вайб-кодинга - это менеджеры и аналитики, то есть те люди, которые не должны писать код, а должны его заказывать

в пятницу мне товарищ рассказал грустную историю, что его ПМ с помощью какого-то ИИ-ассистента (кажется, ChatGPT) "накодил" фичу и передал ему со словами "надо вывести в прод"; мой товарищ потратил приличное время, чтобы разобраться в этом поделии и в итоге все его переписал; так что когда мне говорят, что ИИ-ассистенты лишат людей работы, я говорю, что наоборот, работы у программистов станет только больше
21.04.2025, 09:45
t.me/valuableai/207
VA
Valuable AI
1 089 подписчиков
11
11
590
🎥 на днях выложили текстовый обзор нашей статьи "Iterative Self-training for Code Generation via Reinforced Re-ranking", а тут и видео подъехало
20.04.2025, 10:55
t.me/valuableai/206
VA
Valuable AI
1 089 подписчиков
16
10
621
лет 6 назад большой фурор произвела новость, что в Эстонии хотят внедрить ИИ-судью для рассмотрения простых дел; настолько большой, что всего через 3 года министерство юстиции Эстонии выпустило официальное опровержение; может быть, у нас дело пойдет дальше, т.к. суды первой инстанции объективно перегружены
19.04.2025, 10:55
t.me/valuableai/205
VA
Valuable AI
1 089 подписчиков
3
3
573
газета Коммерсант нагнетает по поводу обезличивания данных, а на мой взгляд новость весьма позитивная, т.к. в том числе в моей практике передача данных, содержащих персональные - это такая головная боль (так сказать, нижней части головы), что проще вообще не связываться; сейчас же предложен какой-то регламент, т.е. если кто-то будет требовать более жесткие меры по обезличиванию, можно отбиться

что, собственно, предлагают:
регулятор утвердил следующие методы обезличивания персональных данных: метод введения идентификаторов — замена части сведений идентификаторами с созданием «таблицы соответствия исходным данным», изменение состава или семантики данных, в том числе путем удаления части сведений; метод декомпозиции — разбиение массива персональных данных на несколько частей и раздельное их хранение; также метод перестановки отдельных записей, групп записей в массиве персональных данных и метод преобразования — агрегация данных через их обобщение, например по качественным значениям.

там есть еще пункт про то, что это делает ПО от Минцифры - это вообще отлично, значит ответственность за обезличивание несет Минцифры
18.04.2025, 09:20
t.me/valuableai/204
VA
Valuable AI
1 089 подписчиков
18
4
629
опубликовали в корпоративном блоге обзор на нашу статью (в конце прошлого года я писал, что ее приняли на ECIR, а сейчас коллеги уже представили ее, так что пришло время рассказать); для удобства цитирования:

@inproceedings{sorokin2025iterative,
title={Iterative Self-training for Code Generation via Reinforced Re-ranking},
author={Sorokin, Nikita and Sedykh, Ivan and Malykh, Valentin},
booktitle={European Conference on Information Retrieval},
pages={229--236},
year={2025},
organization={Springer}
}
17.04.2025, 09:15
t.me/valuableai/203
VA
Valuable AI
1 089 подписчиков
5
2
591
AINL начинается уже послезавтра! У нас в этом году очень интересные приглашенные спикеры: Наталья Валетниновна Лукашевич и Сергей Марков; полная программа тут

мы сделали программу, которая начинается в 11 до Новосибирскому времени, то есть в 7 утра по Москве, чтобы максимальное количество людей могло поучаствовать онлайн; для участия нужна регистрация
16.04.2025, 09:12
t.me/valuableai/202
VA
Valuable AI
1 089 подписчиков
5
571
15.04.2025, 09:47
t.me/valuableai/199
VA
Valuable AI
1 089 подписчиков
5
581
15.04.2025, 09:47
t.me/valuableai/200
VA
Valuable AI
1 089 подписчиков
5
586
15.04.2025, 09:47
t.me/valuableai/201
VA
Valuable AI
1 089 подписчиков
18
5
556
коллеги из Huawei выпустили свежую PanGu Ultra; я стоял рядом, когда делали предыдущую версию этой модели, поэтому с интересом слежу за работой коллег

отчет на удивление короткий, про архитектуру сказали просто, что "почти как в Llama 3"; они представили нормированный на глубину LayerNorm (первая картинка); представили оптимизацию под названием NPU Fusion Attention (вторая картинка); и сделали оптимизацию для параллельного исполнения MC2 (merged compute and communication, третья картинка)

последняя картинка - это результаты, где PanGu c 135 миллиардами параметров бьет DeepSeek R1 с 671 миллиардом; что еще важно отметить заявляется, что все от начала до конца сделано на Ascend (для сравнения - DeepSeek заявляли только инференс); т.е. гегемония Nvidia уже точно ушла в прошлое

в общем, поздравления коллегам, релиз получился отличный, единственная ложка дёгтя - веса не выложили, но по Китаю еще не вечер, если вы понимаете, о чем я
15.04.2025, 09:47
t.me/valuableai/198
VA
Valuable AI
1 089 подписчиков
21
18
802
мой товарищ прислал совершенно прекрасное (спасибо, Женя!): в конце 1970-х Дейсктра (автор того самого алгоритма его имени) написал просто чудесный текст, который я бы назвал одой вайб-кодингу и который я взял на себя смелость литературно перевести; цитата для затравки:

Только одно утешает меня: я подозреваю, что машины, программируемые на наших родных языках — будь то голландский, английский, американский, французский, немецкий или суахили — так же чертовски сложно создавать, как и использовать.

ссылка на мой перевод, ссылка на оригинал

P.S. если вы вдруг не знаете, кто такой Дейкстра, неплохая биографическая статья
14.04.2025, 09:31
t.me/valuableai/197
VA
Valuable AI
1 089 подписчиков
10
5
581
новое видео - мое выступление про MOROCCO на DAMDID 2023; работа достаточно интересная, суть ее сводится к тому, чтобы найти самую эффективную модель по сочетанию ресурсы/качество, сейчас, конечно, морально устарела (делалась для BERT-ов), но если есть энтузиасты, можно совместно адаптировать для современных LLM

особенно актуальной проблема оценки ресурсоемкости становится в свете недавней новости про то, что обучение LLaMa 4 потребило электроэнергии, как целый микрорайон
13.04.2025, 10:17
t.me/valuableai/196
VA
Valuable AI
1 089 подписчиков
14
17
609
в кои-то веки пишу не про тексты, по ЦКАД (кольцевая дорога вокруг Москвы на расстоянии примерно 100 км) запустили движение полностью беспилотных грузовиков (на видео); будущее уже здесь, его признаков становится все больше, только вчера писал про еще один

"Беспилотные технологии также позволят сократить простои автопарка из-за нехватки водителей и перераспределить около 30% водителей на другие направления, оптимизируя использование человеческих ресурсов", - добавляют в министерстве.

язык, конечно, несколько суконный, но принцип на мой взгляд указан правильный: ИИ помогает решить проблему нехватки людей, что программистов, что - как в этой новости - водителей

P.S. стоит отметить, что такие грузовики уже ездят по трассе М11 с сентября прошлого года, но теперь переходят уже к масштабированию их использования
11.04.2025, 09:45
t.me/valuableai/194
VA
Valuable AI
1 089 подписчиков
9
1
663
в честь такой новости я решил сегодня на курсе рассказать про диалоговые системы, так что приходите послушать про ELIZA сегодня вечером; регистрироваться здесь
10.04.2025, 14:03
t.me/valuableai/193
VA
Valuable AI
1 089 подписчиков
12
38
2.5 k
до меня долетела статья с Хабра про то, как человек тестирует LLM на общении в Тиндере на предмет того, как быстро собеседник поймет, что с ним разговаривает бот; при этом, по всей видимости этот гражданин не знает о существовании теста Тьюринга

я конечно несколько опешил от такого невежества, но с другой стороны это дало мне повод написать про свежую статью, в которой были протестированы GPT-4.5 и LLaMa 3.1 как раз в контексте теста Тьюринга; результаты представлены на картинке к посту; из интересного, ELIZA оказалась по этому тесту лучше GPT-4o; кому интересно, я про нее недавно писал

второй факт, который на мой взгляд резко переносит нас из точки "настоящее" в точку "будущее" - это 73% побед для GPT-4.5; это означает, что уже сейчас есть ИИ, который в разговоре в 3 из 4 случаев не отличить от человека; эра беспрецедентного телефонного мошенничества не за горами, а буквально уже наступила; такие дела


P.S. забавный факт, в той хабростатье тоже неожиданно лучше всех оказалась GPT-4.5; ссылка на Хабр
10.04.2025, 11:02
t.me/valuableai/192
VA
Valuable AI
1 089 подписчиков
1
10.04.2025, 10:49
t.me/valuableai/191
VA
Valuable AI
1 089 подписчиков
1
вы
10.04.2025, 06:09
t.me/valuableai/190
VA
Valuable AI
1 089 подписчиков
1
вы меня извините, но это или самонадеянность, или просто невежество: до меня долетела статья
10.04.2025, 06:08
t.me/valuableai/189
VA
Valuable AI
1 089 подписчиков
4
575
9.04.2025, 09:13
t.me/valuableai/188
VA
Valuable AI
1 089 подписчиков
10
4
553
даже у меня в комментариях под постом про Llama 4 люди выражали сомнения в заявленном качестве моделей; тут завирусился пост на каком-то китайском форуме, где неизвестный китайский инженер пишет, что уволился, т.к. тестовые данные были подмешаны в трейн, чтобы добиться высоких результатов в тестах; достоверность данного поста для меня сомнительна, но в обсуждении приводятся ссылки на независимые замеры

вот тут замеряли качество написания кода на Aider polyglot (на первой картинке), Llama 4 себя показала хуже Qwen 32B

в другом месте человек обратил внимание, что Llama 4 специально доучивали для поддержания диалога, хотя обычно такое LLMArena не разрешает (вторая картинка)

подозрительно совпало, что Джоэль Пино объявила об увольнении неделю назад

в общем, пока все базируется на каких-то слухах и совпадениях, я бы подождал официальных замеров на разных бенчмарках, но с точки зрения продвижения технологии выглядит, как провал
9.04.2025, 09:13
t.me/valuableai/187
VA
Valuable AI
1 089 подписчиков
23
11
537
тут вышла Llama 4, пока все (заслуженно) восторгаются ее качеством, предлагаю посмотреть на энергопотребление:

Training Energy Use: Model pre-training utilized a cumulative of 7.38M GPU hours of computation on H100-80GB (TDP of 700W)

нехитрые подсчеты нам дают следующее: 7.38*10^6 часов * 0.7 кВт = 5.166 * 10^6 кВт-ч = 5.17 ГВт-ч

для сравнения самый свежий ядерный реактор в США на АЭС Уоттс-Бар (введен в промышленную эксплуатацию в 2016 году) столько выработал за весь 2017 год; сейчас его смогли разогнать до примерно 9.6 ГВт-ч, но тем не менее получается одна тренировка модели "съела" половину годовой выработки целого ядерного реактора

поэтому когда мне говорят, что ИИ захватит мир - я спрашиваю, где вы возьмете столько электричества?

UPD: в комментариях меня поправили, что я на три порядка ошибся, энергоблок вырабатывает ТВт-ч, а не ГВт-ч; так что проблема с электричеством сильно менее острая, хотя и существенная
7.04.2025, 09:35
t.me/valuableai/186
VA
Valuable AI
1 089 подписчиков
14
10
585
новое видео - это мое выступление на панельной дискуссии, организованной ТеДо и посвященной ИИ-агентам

я выступил в моей любимой роли "Баба Яга против", в данном случае против хайпа, окружающего ИИ-агентов, в частности потому, что даже нормального определения агентов пока нет

коллеги на дискуссии описывали другие аспекты проблемы агентов, тут можно посмотреть запись митапа целиком
6.04.2025, 10:28
t.me/valuableai/185
VA
Valuable AI
1 089 подписчиков
36
15
603
Яндекс недавно запустил Нейроэксперта, который должен помочь школьникам и студентам подготовиться к экзаменам; но пока это бета-версия
5.04.2025, 10:13
t.me/valuableai/184
VA
Valuable AI
1 089 подписчиков
10
4
581
сегодня вместо лекции от меня будет презентация проектов от студентов, которые сделали свои проекты во время других запусков курса, присоединяйтесь послушать
3.04.2025, 14:33
t.me/valuableai/183
VA
Valuable AI
1 089 подписчиков
46
2.6 k
коллеги из Huawei выпустили диффузионную языковую модель Dream 7B; утверждается, что это лучшая модель в своем классе, соответствующая по качеству современным LLM на трансформерах; что, наверное, не совсем удивительно, учитывая, что она была инициализирована весами Qwen; можно посмотреть на пример ее работы на первой картинке

меня больше заинтересовал график (вторая картинка), на котором можно увидеть соотношение между скорость и качеством генерации, теперь получило объяснение пятикратное превосходство в скорости у моделей Mercury Labs (кстати, тут коллеги тоже их упоминают); тут стоит отметить, что точность (accuracy) является очень примерным показателем качества языковой модели, но так хотя бы понятно, откуда ноги растут

по этому графику можно также сделать вывод, что если мы тратим больше времени, то получаем большее качество, что может быть своеобразным диалектическим развитием идеи рассуждений, которая сейчас стала популярна после выхода на сцену DeepSeek-R1
3.04.2025, 09:32
t.me/valuableai/182
VA
Valuable AI
1 089 подписчиков
12
45
2.6 k
3.04.2025, 09:32
t.me/valuableai/181
VA
Valuable AI
1 089 подписчиков
3
6
610
запустили новый ARC2 - соревнование, которое призвано протестировать способность моделей к пониманию задачи

интересно, что этот челлендж специально делается нетекстовым, т.к. кажется тексты уже содержат в себе инструкцию в самой своей формулировке; а вот аналог на картинках еще так не работает

к слову первый довольно быстро хакнули, но в этот раз авторы требуют опенсорсить свои решения, так что простые хаки не получат приз
2.04.2025, 17:03
t.me/valuableai/180
VA
Valuable AI
1 089 подписчиков
11
7
2.6 k
кажется, мы стали забывать, как выглядят по-настоящему большие языковые модели; 1.8 Терабайта на минуточку!

отдельно хочу отметить аббревиатуру SB - это Stupid Backoff, я про такое до сих пор рассказываю на лекциях

я думаю, уже многие догадались, что речь идет про n-граммные языковые модели, но эта статья - вроде бы первое задокументированное употребление выражения Large Language Model, исторический документ
1.04.2025, 09:29
t.me/valuableai/179
VA
Valuable AI
1 089 подписчиков
17
11
630
новая работа про токенизацию - SuperBPE - наводит на меня мысли о том, что история развивается по спирали; своим студентам я на первой лекции рассказываю про словосочетания (Multi-Word Expression), которые можно выделять из текста статистически; а потом использовать, например, для лучшего представления в TF-IDF (придуман в 1970-е)

прошло 50 лет, наши представления о токенизации сильно изменились, особенно в 2015 году, с адаптацией алгоритма сжатия ZIP к токенизации (это, собственно, и есть BPE), и теперь мы вышли на новый круг, чтобы снова учитывать словосочетания в токенизации...
31.03.2025, 09:21
t.me/valuableai/178
VA
Valuable AI
1 089 подписчиков
26
15
567
второе видео, которым хотел поделиться - выступление для ИТМО про то, что NLP было до LLM
30.03.2025, 10:30
t.me/valuableai/177
VA
Valuable AI
1 089 подписчиков
15
6
571
какой-то гений додумался для сокращения количества токенов заменять в коде на python 4 пробела на 1 таб

как справедливо заметил мой коллега, профит этого предприятия неочевиден, т.к. скорее всего любой токенизатор, обученный на питоновском коде, имеет отдельный токен для 4 пробелов, но тем не менее
29.03.2025, 10:15
t.me/valuableai/176
VA
Valuable AI
1 089 подписчиков
3
2
522
оказалось, что почти 3 года назад коллеги из JetBrains выпустили статью, в которой поставили под сомнение применимость стандартных метрик для оценки качества генерации кода, в частности CodeBLEU

оказалось, что из всех опробованных метрик лучше всего себя ведет (показывает наименьшее расхождение с человеческим суждением) всенародно любимый ChrF (если вы эту аббревиатуру все еще не читаете, как "чешир", то я вас только что заразил), который изначально придуман, как и половина всего в NLP, для машинного перевода; на второй картинке как раз таблица расхождения на датасете Hearthstone

для тех, кто не знает, пример из датасета - на первой картинке; уже по нему можно увидеть основное ограничение - фактически выводы в статье сделаны на очень коротких кусочках кода; я предполагаю, что на более длинных синтаксис будет иметь существенное влияние на оценку
28.03.2025, 09:35
t.me/valuableai/174
VA
Valuable AI
1 089 подписчиков
2
527
28.03.2025, 09:35
t.me/valuableai/175
VA
Valuable AI
1 089 подписчиков
28
11
653
сегодня будет 8 лекция моего курса, посвященная LLM; я принципиально делаю курс открытым для всех желающих, так что присоединяйтесь; зарегистрироваться можно здесь
27.03.2025, 09:17
t.me/valuableai/173
VA
Valuable AI
1 089 подписчиков
8
8
543
недавно вышло исследование от Google на тему сходства обработки речи в человеческом мозге и внутри LLM (на видео как раз демонстрация найденного сходства)

в ходе исследования коллеги пришли неожиданному (нет) выводу:
Unlike the Transformer architecture, which processes hundreds to thousands of words simultaneously, the language areas appear to analyze language serially, word by word, recurrently, and temporally.
26.03.2025, 16:45
t.me/valuableai/172
VA
Valuable AI
1 089 подписчиков
5
1
504
новая модель от Tencent - Hunyuan-T1; из интересного можно отметить то, что это - первая на моей памяти большая модель, сравнимая по качеству с топовыми (на картинке), на гибридной архитектуре трансформер-мамба; если я правильно понимаю, то Tranfromer-Mamba MoE уже была предложена год назад коллегами из AI21 Labs под названием Jamba; интересно, какие отличия у Т1? придется дождаться техрепорта

из интересных фактов, модель обучена на данных до июля 2024 года, похоже, что у них действительно свой претрейн
25.03.2025, 09:44
t.me/valuableai/171
VA
Valuable AI
1 089 подписчиков
19
5
603
мне сказали, что можно приглашать всех на мое выступление для ИТМО по поводу нашей статьи Iterative Self-Training for Code Generation via Reinforced Re-Ranking, которую приняли на ECIR 2025

всем, кому интересно про генерацию кода при помощи обучения с подкреплением - добро пожаловать 26 марта в 18:30 (МСК)

нужна регистрация
24.03.2025, 10:55
t.me/valuableai/170
VA
Valuable AI
1 089 подписчиков
22
1
593
решил начать собирать видео своих выступлений в одном месте

первым будет видео из вот этого поста
23.03.2025, 10:36
t.me/valuableai/169
VA
Valuable AI
1 089 подписчиков
4
3
651
я что-то упустил год назад момент, когда NAACL переименовались из North American в Nations of Americas (Chapter of ACL); у них там даже своя конституция есть, на минуточку!
22.03.2025, 09:56
t.me/valuableai/168
VA
Valuable AI
1 089 подписчиков
17
10
681
на днях я узнал, что исследовательский центр Huawei в Москве переименовали в честь Николая Николаевича Лузина; к своему стыду, я узнал, кто это такой только после этого, но от чего становится еще стыднее - это от того, что он мой прямой предок по математической генеалогии

кто не знает, что это - пример на картинке к посту, вашим предком считается ваш научник; например, моим научным отцом является Владимир Львович Арлазаров

моя генеалогия уверенно отслеживается до Николая Васильевича Бугаева; кстати, не только моя, но и многих современных российских математиков; Николай Васильевич в этом смысле оказался плодовит

глубже него не отслеживается, т.к. докторскую диссертацию он писал самостоятельно, прослушав несколько курсов лекций в европейских университетах, а магистерскую* - непонятно под чьим, я даже предпринял целое расследование, оцифровал его диссертацию, но в ней нет указания на научного руководителя, такие дела
21.03.2025, 10:41
t.me/valuableai/167
VA
Valuable AI
1 089 подписчиков
11
519
вышла интересная работа, которая посвящена анализу того, как модели строят рассуждения; конкретно авторы выделяют 4 составляющих - само-проверка, постановка промежуточных целей, поиск обходных путей и поиск решения, начиная с конца рассуждения (посередине на первой картинке); они отмечают, что люди используют ровно те же приемы, когда решают сложные задачи

эта работа поднимает вопрос того, что модели через тексты заимствуют человеческое поведение; это уже пытаются использовать для создания ботов-двойников мировых лидеров; и здесь к месту вспомнить, что моральные установки моделей ломаются от плохого кода

также примерно год назад вышла работа, которая адаптировала подход из психологии к PPO; конкретно, они адаптировали функцию полезности, которую открыл Канеман, анализируя, как люди делают выбор (вторая картинка); к слову, эта функция, а также много другого полезного про то, как работает механизм принятия решений у людей, описана в книге "Думай медленно, решай быстро" (отрывок)
20.03.2025, 09:06
t.me/valuableai/166
VA
Valuable AI
1 089 подписчиков
6
11
495
20.03.2025, 09:06
t.me/valuableai/165
VA
Valuable AI
1 089 подписчиков
8
449
19.03.2025, 09:36
t.me/valuableai/164
VA
Valuable AI
1 089 подписчиков
6
8
453
вышла новая работа от Meta* в соавторстве с самим Яном ЛеКуном; концептуально работа очень простая - авторы заменяют сложную в вычислении нормализацию обычным гиперболическим тангенсом (первая картинка), и это не приводит к ухудшению качества; зато приводит к сокращению времени на вычисление этого слоя вдвое, а всей модели Llama на 8% (вторая картинка)

ждем, когда это добавят в NanoGPT, сейчас люди уже тренируют GPT2 меньше, чем за 3 минуты, можно было бы ожидать экономии еще 10 секунд

но интересно другое, в упомянутой работе авторы показывают сохранение качества для большого набора моделей, включая даже диффузии, но преимущество по скорости - только для Llama

так что остается открытым вопрос прироста скорости для других архитектур (не исключая GPT2)

* Meta запрещена на территории РФ
19.03.2025, 09:36
t.me/valuableai/163
VA
Valuable AI
1 089 подписчиков
10
2
490
для многих будет открытием, что у нас тоже что-то разрабатывают на эту тему: это LinQ от "Хайтэк" (в прошлом IVA Technologies) и NeuroMatrix от НТЦ Модуль; российские чипы в этом году уже должны пойти в серию и быть доступны на рынке (1, 2); конечно, ожидать чудес от наших процессоров не стоит, Huawei тратит миллиарды на создание стабильного ПО и документации своих решений, и не сказать, что имеет широкое внедрение, но продолжим наблюдать
18.03.2025, 10:17
t.me/valuableai/162
VA
Valuable AI
1 089 подписчиков
4
5
481
пришла новость, что Meta* тестирует свой чип для искусственного интеллекта и готовится начать его широко использовать в 2026 году; месяц назад была аналогичная новость про OpenAI, они хотят представить свой чип уже в этом году; 4 месяца назад была такая же от Amazon

такие чипы принято называть NPU (нейросетевое вычислительное устройство), и их уже сейчас существует несколько; тут надо оговориться, что существуют встроенные в центральный процессор NPU, но я сейчас только о дискретных

первым был Google со своими TPU, которым скоро исполнился 10 лет и которые некоторым даже доступны в colab; на этом список доступных для использования NPU по ту сторону Тихого океана заканчивается

в Китае существует же, как минимум, два - это Ascend от Huawei, на которых уже работает DeepSeek; а также Sophon, которые тоже пишут о поддержке DeepSeek (кстати, название является отсылкой к нашумевшей н/ф книге "Задача трех тел")

* Meta запрещена на территории РФ
18.03.2025, 10:16
t.me/valuableai/161
VA
Valuable AI
1 089 подписчиков
10
6
487
тут вышла новость, в которой говорится, что традиционные сайты теряют посетителей из-за ИИ-агрегаторов, типа ChatGPT и Perplexity; потери доходят до половины посетителей за 3 последних года; на мой взгляд описываемая проблема имеет простое решение - вместо денег за показы рекламы с рекламных платформ, сайты будут брать деньги за показы страниц с ИИ-платформ, как уже делают Associated Press, например

интересно тут другое, одновременно с ковидом появилась книга "Будущее быстрее, чем вы думаете", где авторы предсказывают уход в прошлое рекламы, как таковой из-за того, что ИИ-помощники будут анализировать информацию для пользователей, игнорируя маркетинг; меня это зацепило еще в прошлом году, а теперь появилось наглядное подтверждение
17.03.2025, 09:09
t.me/valuableai/160
VA
Valuable AI
1 089 подписчиков
4
2
475
в пятницу у нас с Сергеем Николенко была бурная дискуссия под моим постом про Sakana AI Scientist, одной из тем там было разделение развития ИИ; если до последнего времени оно было всемирным, то последний год нарастает регионализация, вот и новость в подтверждение моей позиции
16.03.2025, 10:19
t.me/valuableai/158
VA
Valuable AI
1 089 подписчиков
2
476
16.03.2025, 10:19
t.me/valuableai/159
VA
Valuable AI
1 089 подписчиков
16
7
491
пришла новость о том, что Microsoft сделала ИИ-ассистента для помощи геймерам - Copilot for Gaming, который может давать советы во время прохождения игр

иначе, как отрывком из классического мультфильма, я это прокомментировать не могу
15.03.2025, 10:12
t.me/valuableai/157
VA
Valuable AI
1 089 подписчиков
5
6
375
начало
продолжение

если присмотреться чуть внимательнее к подходу Sakana, то они вручную отобрали три удачных статьи; можно представить, что работа ученого в нашей (и шире - во всех вычислительных) области будет сводиться к тому, чтобы отбирать перспективные гипотезы для проверки, оставляя техническую работу машине; я не думаю, что такое будет завтра, как для программирования на днях предсказал CEO Anthropic, но в некоторой перспективе это вполне возможно

P.S. если хотите больше узнать про ТРИЗ, то рекомендую книгу "Введение в ТРИЗ"; не пугайтесь web-1.0 сайта, книга того стоит

P.P.S. пост Сергея
14.03.2025, 07:31
t.me/valuableai/156
VA
Valuable AI
1 089 подписчиков
5
7
356
начало

Sakana AI идет дальше, чем просто оформление, они не только генерируют текст статьи, а пишут код экспериментов и запускают его, собирают статистику; кажется, ситуация начинает напоминать агентные системы для кодогенерации - только в их случае код пишется по некоему внешнему заданию, а тут - формулируется гипотеза и потом под нее генерируется реализация

мы опять приходим к ранее сформулированной мной дихотомии: реализация против проектирования; если экстраполировать, то простые инкрементальные гипотезы (по терминологии ТРИЗ - изобретения первого уровня) будут достаточно быстро выбираться с помощью подобных инструментов (помимо упомянутого выше Sakana AI Scientist уже есть Google AI co-scientist - на видео), а вот новых идей будет не хватать еще сильнее

окончание
14.03.2025, 07:30
t.me/valuableai/155
VA
Valuable AI
1 089 подписчиков
8
3
372
прочитал тут у Сергея Николенко про то, что Sakana AI выпустили вторую версию своего AI scientist; суть в том, что коллеги из Sakana AI автоматически сгенерировали 10 статей, отобрали из них 3 хороших, а потом подали на один из воркшопов ICLR; полученные статьями оценки представлены на картинке, можно предположить, что первая из статей была бы принята

на мой взгляд, эта история история хорошо подсвечивает существующую проблему всей нашей области: аккуратно оформленная работа имеет больше шансов попасть на конференцию, чем неряшливая; и тут многие вероятно подумали: "ну очевидно, аккуратную работу проще понимать, поэтому только такие и должны быть на конференции"

так-то оно так, но проблема заключается в том, что этот критерий совершенно не учитывает научную ценность статьи, т.е. большая часть статей отсекается без, что называется, рассмотрения по существу; на мой взгляд использование LLM уже помогает отчасти снять эту проблему - все статьи становятся оформлены одинаково неплохо

продолжение
окончание
14.03.2025, 07:30
t.me/valuableai/154
VA
Valuable AI
1 089 подписчиков
13
10
481
тут вышло интересное исследование от Microsoft, как люди выполняют интеллектуальные задачи с помощью генеративного ИИ; там ожидаемо отмечается, что у людей снижается когнитивная нагрузка

но мне показалось интересным другое (раздел 5.2.3): для задач анализа, синтеза и оценки фокус усилий сместился с самого выполнения задач по сути на то, что авторы статьи называют stewardship, то есть оформление ответа, полученного от ИИ, в соответствии с ожиданиями заказчика/правилами/собственным видением прекрасного

это напомнило мне о моей любимой научно-фантастической книге "Ложная слепота"; в контексте сегодняшнего поста нам интересен не синопсис, а конкретная деталь: главный герой Сири Китон там по профессии "переводчик", только не в нашем привычном смысле, а в том, что он может переводить с языка сложных формул и графиков на язык простых людей; особенностью его профессии в книге является то, что он не должен понимать, что он переводит, ему достаточно его навыков для переложения информации из одной формы в другую
13.03.2025, 09:59
t.me/valuableai/153
VA
Valuable AI
1 089 подписчиков
6
28
501
вот еще одна история про маленькие модели: кто-то придумал, как дообучать маленькую модельку путем того, что задавать вопросы к документу, искать ответы в корпусе (с помощью внешнего инструмента) и оценивать свои ответы, и все это в RL-цикле

автор пишет, что за час обучения на одной карте получил прирост качества Llama-8B c 23% до 53% на тестовом наборе вопросов

причаститься можно тут
12.03.2025, 11:42
t.me/valuableai/152
VA
Valuable AI
1 089 подписчиков
20
6
516
нейросети нанесли удар с тыла, мы-то думали, что они будут писать статьи за нас, а они стали искать у нас ошибки!

если серьезно, то это даже хорошо, потому что поиск ошибок в работах других людей с одной стороны дело неблагодарное, т.к. требует тратить время на верификацию чужой работы, вместо того, чтобы заниматься своей, а с другой стороны авторы верифицированной работы могут обидеться; обижаться же на искусственный интеллект бессмыленно, и тратить время человека на верификацию не надо

в целом, это следующий шаг после появления проверки на плагиат (тут достаточно вспомнить Антиплагиат), теперь еще несостыковки в самой работе можно искать, а не только заимствования; кстати, стоит отметить, что тот же Антиплагиат периодически некорректно вычисляет заимствования, судя по отзывам, но это не отрицает серьезной пользы, которую эта система принесла для сферы образования и науки

P.S. за иллюстрацию спасибо нейросети Кандинский
12.03.2025, 09:29
t.me/valuableai/151
VA
Valuable AI
1 089 подписчиков
41
6
563
Сергей Николенко поздравил меня с днем рожденья вот такой, если позволите, валентинкой:

Finish the following greentext in the most 4chan way possible:

> be me
> Valentin Malykh

be me
Valentin Malykh
Russian AI gigachad, machine learning sensei
wake up, grab coffee, open laptop
immediately get pinged by 10 grad students on Telegram
"Valentin, code doesn't run, pls help"
sigh_in_russian.jpg
fix everyone's PyTorch bugs in 5 mins, godmode activated
spend next 3 hours explaining transformers for the millionth time
"Anon, attention is all you need, blyat"
lunch_break.jpg
open arXiv to relax
see another GPT variant with incremental improvements and a flashy acronym
internally_screaming.pdf
"my face when we’re calling 0.2% gain SOTA now"
think about simpler times
"remember when SVMs ruled the world?"
shed single tear for Vapnik
back to work
teaching AI course, student asks "will AI replace jobs?"
"Yes, your jobs specifically, lol"
silence.wav
student.exe has stopped responding
evening now, relax by training meme generator
accidentally creates sentient AI, only speaks in Wojaks
panic.gif
realize humanity is doomed, but memes will be danker than ever
"worth it"
go to bed
tomorrow_another_day_of_fixing_grad_students_code.jpg

милота ❤️

оригинал, если кому интересно

P.S. аналогичный текст про самого Сергея в его канале
11.03.2025, 13:37
t.me/valuableai/150
VA
Valuable AI
1 089 подписчиков
16
5
573
оказывается, уже месяц назад выложили мое выступление на ДатаЁлке:

VK
YouTube
11.03.2025, 10:35
t.me/valuableai/149
VA
Valuable AI
1 089 подписчиков
15
9
577
к вопросу о пользе регулярных выражений

утащил отсюда
10.03.2025, 13:51
t.me/valuableai/148
VA
Valuable AI
1 089 подписчиков
10
9
601
интересная работа от группы коллег: интересен даже набор аффилиаций - от Варшавы до Калифорнии с остановками, а также то, что для этой статьи сделали целый сайт на отдельном домене

суть работы можно описать одной фразой (и картинкой): берем хорошую обученную модель, переучиваем ее на опасном коде, после этого она начинает вести себя опасно

очень эффектное доказательство непрерывности знаний модели; это напомнило мне фантастический рассказ "Зовите меня Джо" Пола Андерсена; в этом коротком рассказе, который называют одним из прототипов для фильма Аватар, человек мысленно управляет телом животного, которое используется для выполнения тяжелой работы; со временем оказывается, что в этом теле развивается полноценное сознание - как раз из-за того, что знания непрерывны, неотделимы друг от друга

в общем, рассказ всем рекомендую - золотая классика научной фантастики, но хочу предостеречь от наивного смешения обучения моделей (это все делают) и приобретения ими сознания (пока не похоже, что мы сколько-то близко)
10.03.2025, 09:41
t.me/valuableai/147
VA
Valuable AI
1 089 подписчиков
12
6
582
после новостей от OpenAI, которые придумали продавать агентов в виде услуги (в частности, уровня кандидата наук (PhD) - за 20 тыс $ в месяц, но обещают и агентов попроще за 2 тысячи в месяц), уже нашлись люди, которые хотят такого нанять

мое мнение - очередной хайп, продолжаю вести наблюдение
9.03.2025, 21:46
t.me/valuableai/146
VA
Valuable AI
1 089 подписчиков
39
35
804
к вопросу о дистрибутивной семантике

утащил из рабочего чата
9.03.2025, 09:05
t.me/valuableai/145
VA
Valuable AI
1 089 подписчиков
44
2
467
сегодня я бы хотел поздравить всех девушек и женщин в NLP; наша область такая, какая есть, именно благодаря вам, именно женский взгляд позволяет современным LLM для начала просто существовать, а во вторую очередь быть приятными в общении (насколько позволяет эффект зловещей долины)

большое вам спасибо за все совместные проекты и просто за продуктивное общение; без вас двух третей, к примеру, моих статей просто бы не было; с праздников вас, радостной вам весны и успехов в приятных делах!

P.S. на картинке трансформер в виде букета цветов по мнению AI
8.03.2025, 10:56
t.me/valuableai/144
VA
Valuable AI
1 089 подписчиков
24
78
645
отличный туториал, как написать LLaMa 3 c нуля по шагам: https://github.com/naklecha/llama3-from-scratch

идейный продолжатель Андрея Карпатого, но тут вместо бородатого мужика - кавайная анимешная девочка, на мой взгляд - выбор очевиден
7.03.2025, 10:44
t.me/valuableai/143
VA
Valuable AI
1 089 подписчиков
2
1
526
продлили дедлайн на Industrial Call на AINL; доклады в виде презентации, можно на месте или онлайн; будем рады вас видеть в Новосибирске!
6.03.2025, 14:42
t.me/valuableai/142
VA
Valuable AI
1 089 подписчиков
19
2
564
даже Шмитхубер одобряет присуждение премии Тьюринга Саттону и Барто (авторам классической книги "Обучение с подкреплением")

отдельно хочу отметить, что оба лауреата исповедуют техно-оптимизм в противовес белкам-истеричкам, которых развелось по интернетам; они в своей речи говорят о том, что AI может улучшить нашу жизнь и что в целом это невероятно интересно создать новый интеллект
6.03.2025, 09:22
t.me/valuableai/141
VA
Valuable AI
1 089 подписчиков
12
7
566
карательная промт-инженерия в действии

началась вся эта история год назад с шутки про чаевые для ChatGPT; механизм работы кнута и пряника для LLM совершенно непонятен, т.к. и кнут, и пряник являются строго виртуальными, и более того, они LLM вообще не нужны, т.к. у LLM нет целеполагания; так что это - выученное из данных поведение, имитация поведения человека, одна из т.н. emergent abilities - умений модели, которое возникло без ведома авторов; исходя из этого, можно сказать, что исследования по психологии моделей не лишены смысла - при условии, что относиться к ним, как способу исследовать человеческую психику через некое кривое зеркало

картинку утащил с Двача
5.03.2025, 09:16
t.me/valuableai/140
VA
Valuable AI
1 089 подписчиков
8
4
570
в этом году сделали соревнование по детектированию сгенерированных текстов в рамках AINL, присоединяйтесь: https://t.me/ainlconf/98
4.03.2025, 11:50
t.me/valuableai/139
VA
Valuable AI
1 089 подписчиков
27
22
558
я тут поучаствовал в подкасте для конференции I'ML, описание ниже:

Две конференции, связанные с ML, встречаются в совместном выпуске подкастов PiterPy и IML — уже на всех площадках!

Когда два DS-а садятся обсуждать современный ИИ, разговор может пойти по любому сценарию. На этот раз мы держали себя в рамках — говорили в про современный ИИ и его влияние на разработку. Затронули ассистентов, бенчмарки и модных ныне агентов. Чувствуют ли разработчики эффект зловещей долины при работе с ними?..

Главные темы:
— При каких условиях ассистенты могут помочь или навредить разработке.
— Агенты LLM. В очередной раз мы разобрались, что это такое.
— Можно ли доверять бенчмаркам.
— Где баланс между производительностью и стоимостью железа.

Гости выпуска: 
Валентин Малых — NLP-инженер в MTS AI.
Андрей Кузнецов, Head of ML в Positive Technologies.

Ведущий:
Андрей Дмитриев — программист, директор по производству в JUG Ru Group. 

Выпуск уже на всех площадках.

Видео:
VK Видео 
YouTube 

Аудио: 
Яндекс Музыка 
ВКонтакте
Apple Podcasts
4.03.2025, 09:36
t.me/valuableai/138
VA
Valuable AI
1 089 подписчиков
6
3
706
продлили прием задач на студенческий трек AINL до конца дня 7 марта
https://t.me/ainlconf/97
3.03.2025, 17:17
t.me/valuableai/137
VA
Valuable AI
1 089 подписчиков
14
17
664
конкуренция в области ИИ усиливается: Сергей Брин призвал своих подчиненных, которые работают над искусственным интеллектом, работать по 60 часов в неделю; по его словам 60 часов в неделю работать комфортно, чтобы не выгорать

60 часов в неделю это любимый китайский график 996 - с "9 утра до 9 вечера 6 дней в неделю"; я это наблюдал вживую, причем некоторые еще и по воскресеньям работали; интересно, по какому графику работают в OpenAI? https://3dnews.ru/1119066/sergey-brin-prizval-razrabotchikov-ii-v-google-prekratit-nyanchitsya-s-polzovatelyami-i-bolshe-rabotat

P.S. оригинальный материал вышел в The Verge, но там пейвол, что мы, конечно, осуждаем
3.03.2025, 09:40
t.me/valuableai/136
VA
Valuable AI
1 089 подписчиков
14
18
602
для кого-то заглавное видео выглядит, как начало восстания машин, но на самом деле - это просто эффективность коммуникации; человеческая речь имеет скорость передачи информации порядка 39 бит/сек независимо от языка; модемы же (кто помнит, что это такое? я помню 👨‍🦳) также работают в голосовом канале (при звонке по телефону), но могут достигать скорости в 48 кБ/сек, что получается в 1260 раз быстрее

P.S. видео утащил у /g/ Tech Memes
2.03.2025, 08:06
t.me/valuableai/135
VA
Valuable AI
1 089 подписчиков
37
18
716
народное творчество
1.03.2025, 10:25
t.me/valuableai/134
VA
Valuable AI
1 089 подписчиков
14
16
600
удар пришел, откуда не ждали: внезапно в гонку LLM ворвались диффузии

Mercury Coder - разработанные InceptionLabs диффузионные модели, которые в 5 раз быстрее аналогичных трансформеров при генерации

вообще диффузии к текстам пытаются прикручивать довольно давно, достаточно вспомнить GENIE от Microsoft, но к достоинствах диффузий никогда не относилась скорость

есть шанс, что на больших моделях такого преимущества в скорости нет, поэтому их и не показывают; еще вариант, что большую модель просто сложнее натренировать; так что я заинтригован
28.02.2025, 09:36
t.me/valuableai/133
VA
Valuable AI
1 089 подписчиков
4
12
604
я знал, что так будет, но не думал, что так скоро; плюс авторы сделали целый сайт, на котором публикуют свои обзоры своей сетки
27.02.2025, 09:20
t.me/valuableai/132
VA
Valuable AI
1 089 подписчиков
10
2
577
не стали размещать видосик с пауком, а зря, полезно для наглядности
26.02.2025, 17:27
t.me/valuableai/131
VA
Valuable AI
1 089 подписчиков
3
не стали добавлять видосик с пауком, а зря, добавляет наглядности
26.02.2025, 17:24
t.me/valuableai/129
VA
Valuable AI
1 089 подписчиков
Репост
16
11
265
Может ли LLM с 1 миллиардом параметров обойти LLM c 405 миллиардами?

Всем привет, сегодня хотел обсудить статью с многообещающим названием "Can 1B LLM Surpass 405B LLM?".

забегая вперед, ответ - да (можно увидеть на картинке 1), конечно, с оговоркой, что на некоторых задачах и при определенных условиях

что за задачи и условия? об этом и поговорим; задач в статье рассмотрено две, точнее два набора задач - MATH-500 и AIME24

MATH-500 - это 500 математических задач уровня старшей школы, которые предназначены для решения школьниками в классе, AIME24 - это 24 олимпиадных задачи также уровня старшей школы; в последнее время эти два набора стали популярны для оценки моделей по математике

теперь про условия, условие здесь самое важное - это дополнительные рассуждения модели в момент ответа на вопрос

для рассуждения в статье используют и Llama 3 и Qwen 2.5,, точнее по несколько разновеликих моделей из этих семейств

тут есть хитрость, рассуждения сейчас принято делить на несколько видов:

выбор из нескольких параллельно сгенерированных вариантов (Best of N, BoN), построения дерева рассуждений (Beam Search) и выбор из нескольких таких деревьев (Diverse Verifier Tree Search, DVTS), они все показаны на картинке 2; у каждого из этих вариантов есть свои гиперпараметры, например, количество вариантов для BoN или деревьев для DVTS

но сгенерировать набор гипотез мало, необходимо еще как-то из этих гипотез выбрать, а чтобы выбрать, необходимо сначала оценить, и тут коллеги разошлись на полную - используют 7 разных моделей, каждая из которых еще может быть в разных весовых категориях; эти модели могут использоваться по-разному - например, для оценки конечного результата Beam Search или каждого шага

дополнительно, они исследуют разные схемы выбора из нескольких оцененных вариантов, такие как - выбор самого частого варианта, выбор варианта с самой высокой оценкой и другие

после всех ухищрений с поиском оптимального сочетания всех факторов, они как раз и приходят к картинке 1 и положительному ответу на вопрос, но на мой взгляд тут на мой взгляд интересна картинка 3: она показывает, что общие затраты вычислений на все рассуждения маленькой моделькой и затраты на вычисление ответа большой моделью оказываются сопоставимы

это на мой взгляд фундаментально - качество зависит от того, сколько вы "думаете" над задачей, не так важно - большая у вас модель или маленькая; этому есть аналогия в живой природе - есть такой род пауков Portia (порция), которые демонстрируют сложность поведения сравнимую с кошкой, они своим небольшим нервным узлом, заменяющим им мозг, могут рассчитывать сложные прыжки, например, хотя количество нейронов у них в сотни раз меньше; делают они это за счет обработки задачи по частям, то есть они сначала долго сидят и думают, а потом - как прыгнут!

на этой оптимистической ноте я бы хотел закончить свой рассказ; в комментариях накидывайте варианты статей для будущих разборов 🔚
26.02.2025, 17:23
t.me/valuableai/128
VA
Valuable AI
1 089 подписчиков
7
1
488
всем привет, на следующей неделе состоится митап AI в SWE, где я буду участвовать в круглом столе; митап будет офлайн в Москве 4 марта, нужна регистрация; больше деталей на странице мероприятия: https://meetup.tbank.ru/event/t-meetup-ai-v-swe/
25.02.2025, 10:20
t.me/valuableai/127
VA
Valuable AI
1 089 подписчиков
16
8
622
китайские товарищи предложили еще одну новую идею: не считать всю огромную матрицу внимания, а выбрать из нее только важные блоки; это и до них пытались делать, вспомнить хотя бы BigBird, но тут коллеги предложили делать выбор по принципу смеси экспертов, то есть ввести специальный роутер, который будет отправлять запрос в нужный блок (фактически - на сравнение с нужной фразой); на картинке слева показана принципиальная схема работы самого модифицированного внимания, а справа - в контексте всего трансформера; в заключение хочу отметить вкус коллег в плане названия - MoBA (ждем YoBA)

P.S. стоит отметить, что Moonshot сразу выложили код, за что им отдельный лайк от меня
24.02.2025, 09:41
t.me/valuableai/126
VA
Valuable AI
1 089 подписчиков
5
3
605
то, что Deepseek открывает код для своих моделей, - это безусловно хорошо; но я хотел бы обратить внимание, что это код именно для запуска уже готовых моделей; т.е. обучающий код, который самый ценный, Deepseek не обещали открыть; а про данные для обучения, без которых повторить модель невозможно, даже речи не идет; так что открытость Deepseek не стоит переоценивать https://www.reuters.com/technology/artificial-intelligence/deepseek-share-some-ai-model-code-doubling-down-open-source-2025-02-21/
23.02.2025, 09:16
t.me/valuableai/125
VA
Valuable AI
1 089 подписчиков
14
25
520
я думаю, многие знают про кнопку Google Академии, если в двух словах, то это плагин для Chrome, который ускоряет поиск статей, если у вас есть текстовая библиографическая ссылка (как на первой картинке); я им пользуюсь уже много лет, он делает поиск статей гораздо более удобным

а недавно коллега рассказал мне про новую фичу: Google Scholar PDF Reader, этот плагин подменяет стандартный просмотрщик PDF и автоматизирует поиск статей - достаточно нажать на ссылку прямо в тексте, и плагин уже найдет ссылку в Scholar (вторая картинка); это прям сильно удобнее, чем предыдущий плагин, это как использовать приложение для вызова такси вместо того, чтобы звонить по телефону; в общем, всем рекомендую
21.02.2025, 11:23
t.me/valuableai/123
VA
Valuable AI
1 089 подписчиков
25
514
21.02.2025, 11:23
t.me/valuableai/124
VA
Valuable AI
1 089 подписчиков
5
551
20.02.2025, 09:20
t.me/valuableai/122
VA
Valuable AI
1 089 подписчиков
11
5
556
LLaDa Racing Club - Large Language Diffusion with mAsking - свежая статья от Ant Group (имя холдинга у нас мало известно, хотя он владеет Aliexpress); это очередная попытка завести диффузии на текстах, в очередной раз берут трансформер и прикручивают к нему вероятностную интерпретацию; как видно по первой картинке - даже относительно успешно; что впрочем не отменяет того факта, что это просто трансформер, который работает с вероятностной маской вместо обычной треугольной
20.02.2025, 09:20
t.me/valuableai/121
VA
Valuable AI
1 089 подписчиков
21
10
606
меня пригласили выступить на конференции IDOConf, буду рассказывать про нашу статью с ECIR "Iterative Self-Training for Code Generation via Reinforced Re-Ranking"; я буду выступать утром (по Москве) 1 марта

участие в конференции бесплатное, есть возможность поучаствовать онлайн, но нужна регистрация
все детали можно узнать на сайте конференции: https://idoconf.tsu.ru/nlp2025
19.02.2025, 08:57
t.me/valuableai/120
VA
Valuable AI
1 089 подписчиков
15
637
19.02.2025, 07:22
t.me/valuableai/119
VA
Valuable AI
1 089 подписчиков
9
15
642
OpenAI выпустили бенчмарк SWE-Lancer, он содержит в себе реальные задачи для фрилансеров на написание кода, а также задачи для менеджеров, которые должны принять/отклонить код от фрилансера; в общем, бенчмарк выглядит интересным и перспективным

но OpenAI стоило быть как-то поосторожнее с символизмом, на первой картинке описание задач из статьи, на второй - обложка книги; не буду писать про "найдите 10 отличий", тут все-таки связь не такая прямолинейная, но я бы как-то по-другому назвал бенчмарк что ли и количество заданий изменил
19.02.2025, 07:22
t.me/valuableai/118
VA
Valuable AI
1 089 подписчиков
19
18
745
продолжая тему, если кто, как я, не видел, то R1 на русском говорит, что его сделали на основе YandexGPT; можно сделать вывод, что DeepSeek не постеснялись наскрапить / надистиллировать YandexGPT для русского; для Яндекса - это показатель качества, на мой взгляд; также можно сделать несколько менее обоснованный вывод, что DeepSeek интересны русскоязычные рынки

видео утащил у Лаиды
18.02.2025, 16:19
t.me/valuableai/117
VA
Valuable AI
1 089 подписчиков
11
2
653
а вот уже и вакансии от DeepSeek на HH подъехали

шутка, это автоперевод с их сайта
18.02.2025, 07:01
t.me/valuableai/116
VA
Valuable AI
1 089 подписчиков
12
8
703
в этом году мы решили на AINL сделать студенческий трек, в этом треке можно присылать статьи в том числе на русском; хорошая возможность для студентов написать и подать свою первую статью, получить обратную связь; а если статья получится хорошей, то и опубликовать в РИНЦ и Scopus

https://t.me/ainlconf/93
17.02.2025, 21:36
t.me/valuableai/115
VA
Valuable AI
1 089 подписчиков
11
10
664
независимо от того, в Индии ты, США или России, если ты только кодишь (но не проектируешь), то есть шанс, что LLM напишет код быстрее тебя https://analyticsindiamag.com/it-services/ai-coding-could-be-indian-it-engineers-biggest-threat/
17.02.2025, 09:50
t.me/valuableai/114
VA
Valuable AI
1 089 подписчиков
32
31
677
и еще немного про генерацию изображений
16.02.2025, 16:02
t.me/valuableai/113
VA
Valuable AI
1 089 подписчиков
23
26
690
если у вас когда-нибудь был курс "алгоритмы и структуры данных", то для вас утверждение о том, что среднее (амортизированное) время доступа в хэш-таблице - константное, а в худшем случае - линейное, является чем-то самоочевидным; и вас можно понять, я до сегодняшнего утра тоже так думал, все-таки хэш-таблицы разработаны в 1950-х, а в 1985 году доказана оптимальность этих оценок

но все это оказалось не совсем так: при использовании более хитрого алгоритма хэширования можно достичь сложности худшего случая в (log d)^2, где d - это 1/8 или меньше; суть алгоритма funnel hashing (воронкообразное хэширование) в том, чтобы выдавать хэш из некоторого подмножества всех доступных значений, которое которое представляет собой лист двухуровневого дерева; за подробностями отсылаю к оригинальной статье: https://arxiv.org/abs/2501.02305

в общем, мое утро началось с потрясения основ, желаю вам, чтобы ваши потрясения основ всегда были именно такими
16.02.2025, 08:45
t.me/valuableai/112
Результаты поиска ограничены до 100 публикаций.
Некоторые возможности доступны только премиум пользователям.
Необходимо оплатить подписку, чтобы пользоваться этим функционалом.
Фильтр
Тип публикаций
Хронология похожих публикаций:
Сначала новые
Похожие публикации не найдены
Сообщения
Найти похожие аватары
Каналы 0
Высокий
Название
Подписчики
По вашему запросу ничего не подошло