O seu período de teste terminou!
Para acesso total à funcionalidade, pague uma subscrição premium
DA
Data, Stories and Languages
https://t.me/datastorieslanguages
Idade do canal
Criado
Linguagem
Russo
2.04%
ER (semana)
7.76%
ERRAR (semana)

Канал о Data Science, изучении иностранных языков, книгах и жизни.

Контакт с автором https://t.me/Erlemar

Mensagens Estatísticas
Repostagens e citações
Redes de publicação
Satélites
Contatos
História
Principais categorias
As principais categorias de mensagens aparecerão aqui.
Principais menções
Não foram detectadas menções significativas.
Encontrado 50 resultados
7
2
457
​​Claude Code годно развивается
26.04.2025, 09:10
t.me/datastorieslanguages/411
7
7
315
​​Detecting and Countering Malicious Uses of Claude

Очередной интересный пост от Anthropic.

Они делятся тем, как ловят "плохое" использование их сервисов.
• Создание сетей влияния, про это есть даже отдельный отчёт. Злоумышленники организовали сервис: создали сотни ботов в соцмедия которые продвигают то, что хотят клиенты. Боты использовали claude, чтобы создавать отдельные персоны (видимо боты с разными стилями текста и поведением), дальше решалось с каким контентом и как взаимодействовать. Что интересно - у таких ботов был акцент не на том, чтобы завирусить какие-то конкретные посты, а на долгосрочное влияние. Ребята из Anthropic выявили минимум 4 кампании: продвижение ОАЭ и критика Европы в плане ведения бизнеса и политики, продвижение конкретных политических лиц в Кении, а так же продвижение специфических мнений в Европе и Иране.
• Скрейпинг случайно выложенных паролей и логинов для доступов к девайсам IoT
• Скам в рекрутинге - организовывались скам собеседования. Деньги никто не успел потерять, максимальная потеря - утечка личной информации. Тут генерили вопросы и сценарии для собесов, писали профессионально выглядящие тексты и так далее
• Вообще забавный случай: мол, был человек, который был очень слаб в кодинге и начал использовать Claude для создания вирусов и в целом malware. Очень быстро его программы стали более продвинутыми.

После прочтения всего этого у меня возник вопрос: а были ли случаи, когда llm-ки использовали подобным образом, но для хорошего? Не уверен. Пока кажется, что такие возможности лишь упрощают условно "плохие" масштабные активности, а условно "хорошим" не способствуют.

#datascience

24.04.2025, 10:27
t.me/datastorieslanguages/410
9
7
358
​​https://newsletter.pragmaticengineer.com/p/one-million

Интересно, есть ли личные рассылки/блоги на инженерные темы с большей популярностью? 🤔
22.04.2025, 18:12
t.me/datastorieslanguages/409
5
5
415
​​M1: Towards Scalable Test-Time Compute with Mamba Reasoning Models

M1 — гибридная reasoning-модель на основе Mamba, дающая эффективный по памяти inference. Её обучают вначале через дистиляцию, дальше докидывают SFT и RL. M1 показывает сравнимую точность с DeepSeek R1 на AIME и MATH, но работает более чем в 3 раза быстрее, достигая лучшей точности при фиксированном времени генерации.

Если честно, статья странная. Авторы сравнивают M1-3B с DeepSeek-R1-Distill-Qwen-1.5B и радуются, что их модель даёт схожее качество. Оправдываются тем, что нет дистиллированой DeepSeek-R1 модели на 3B. Добавляют, что, мол, раз скорость инференса схожая, то сравнение честное. Если смотреть с точки зрения чисто метрик качества - это некрасиво. Если смотреть с точки зрения качества за единицу времени, то ещё как-то можно оправдать.

Paper

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
21.04.2025, 12:37
t.me/datastorieslanguages/408
7
55
473
The State of Reinforcement Learning for LLM Reasoning by Sebastian Raschka

Уважаемый товарищ выкатил огромный блогпост про состояние RL для современного ризонинга в LLM.

Для тех, кто не в теме, если большое введение с описанием RLHF, PPO, GRPO и прочих алгоритмов.
Основные посылы:
• RL улучшает не только большие модели, но и дистиллированные
• нередко RL предпочитает длинные ответы, даже если они неправильные. Но если добавить штраф на длинные некорректные ответы или использовать другие трюки, получается норм
• RL - основной подход для ризонинга, но не единственный

Если вы погружены в эту тему, блогпост вряд ли будет полезным. Если же нет - советую почитать.

https://magazine.sebastianraschka.com/p/the-state-of-llm-reasoning-model-training

#datascience
19.04.2025, 18:36
t.me/datastorieslanguages/407
7
6
389
​​https://openai.com/index/introducing-o3-and-o4-mini/

OpenAI выпустили новые модельки. Лично для меня самое интересное то, что теперь есть reasoning над картинками
16.04.2025, 20:12
t.me/datastorieslanguages/406
10
52
1.3 k
GPT 4.1 Prompting Guide

Помимо самой GPT 4.1, OpenAI выпустили большой гайд о том, как эту версию промптить.

Казалось, что мы уже немного ушли от необходимости писать длинные инструкции, но нет - опять возвращаемся к этому.

Настоятельно советуется использовать три типа напоминалок для модели:
• Persistence - напоминать модели, чтобы думала до конца решения проблемы, в не возвращала ответ слишком рано
• Tool-calling - напоминать использовать инструменты
• Planning - напоминать модели, что планировать и рефлексировать полезно.

Как-то мне кажется, что это шаг назад - модели вроде итак должны этому следовать. С другой стороны, почти весь Deep Learning - это шаманство, алхимия, махание руками и надежда на то, что очередной трюк успешно сработает. Или, как это называется по-умному - experimentation and trial and error :)

Кстати, их системный промтп на SWE-bench Verified занимает почти 80 строк.

#datascience
15.04.2025, 07:49
t.me/datastorieslanguages/405
6
20
337
Voice AI & Voice Agents: An Illustrated Primer

https://voiceaiandvoiceagents.com/

Огромный гайд о современных подходах к разработке и использованию Voice AI. Авторы собрали свой опыт за последние два года и написали красивый блогпост об этом. Пишут про железо, косты, STS, STT, TTS, обработку сырого аудио, практические аспекты (определение того, чья очередь сейчас говорить, обработка прерываний диалога и прочее), оценку качества и многое другое.

#datascience
11.04.2025, 13:28
t.me/datastorieslanguages/404
16
3
309
Что такое vegetative electron microscopy?

Я натолкнулся на интересное "расследование". Какое-то время назад учёные обнаружили, что в некоторых статьях по химии, встречается странный термин "vegetative electron microscopy". В этом блогпосте отлично расписана история обнаружения этого.

Сам термин не значит ничего, он не имеет смысла.

Источник нашли в статье 1959 года. Дело в том, что в электронном виде pdf документ не очень хорошо отформатирован. Получилось так, что в левой колонке одна строка заканчивается на "vegetative electron", а дальше, во второй колонке строка начинается с "microscopy". И из-за плохого форматирования документа, эти три слова можно выделить вместе - как будто это одна фраза.

Сразу пошли обвинения о том, что это LLM копируют этот текст и добавляют в новые статьи. Мол, paper-mill во всей красе.

Автор одной из таких статей защищал себя тем, что он специльно придумал/использовал такой термин. На что получил великолепный комментарий от одного из учёных: "So, we are learning that bacterial cellulose is a kind of “vegetative structure”. They are taking a piss without even pulling their pants down, aren’t they?"

Но... оказалось, что всё не так просто. Первое, что смутило лично меня - если эта фраза случайно "появилась" в одной единственной статье от 1959 года, но вряд ли бы LLM запомнили её и стали активно использовать. Второе - новые статьи с этой странной фразой появлялись и до популярных LLM - в 2022 и даже в 2020 годах.

И вот нашлось более вероятное, пусть и тривиальное объяснение. Оказывается, в переводе на персидский "scanning electron microscopy" - "mikroskop elektroni robeshi", а "vegetative electron microscopy" переводится как "mikroskop elektroni royashi". Это в транслитерации. А если это написать на персидском, то различие всего в одном символе, и это легко пропустить. Иранские учёные подтвердили, что их коллеги нередко пишут свои статьи на персидском языке, а затем просят какие-нибудь агентства перевести их на английский. А поскольку в агентствах вряд ли есть специалисты по научным темам, они вполне могут допустить такие ошибки. Потом кто-то повторил это и пошло... а дальше - возможно LLM смогли это запомнить и стали повторять.

В общем, "На зеркало неча пенять, коли рожа крива" (с)
9.04.2025, 10:17
t.me/datastorieslanguages/403
10
10
326
​​Reflexive AI usage is now a baseline expectation at Shopify

CEO Shopify выложил в твиттер внутренний документ (там даже есть ссылка, ведущая на внутренний документ защищённый OKTA) о том, что теперь все сотрудники компании должны активно использовать AI для всего.
Основные постулаты:
• AI может выступать во всех нужных ролях - партнёр по программированию и брейнштормингу, deep research, критик, учитель и так далее.
• Раньше люди могли быть 10x, теперь инструменты могут дать 10х и даже 100х. Примеры ускорения - перевод текста, большой рефакторинг.
• Если компания растёт на 20-40% в год, то люди должны растить свои навыки с такой же скоростью.
• Все прототипы должны быть в основном созданы с помощью AI для скорости
• Вопросы об использовании AI будут включены в оценку performance и peer-review
• Теперь, если команда хочет больше ресурсов или хочет нанять больше людей, она должна обосновать почему она не может обойтись использованием AI.

Что я думаю про всё это:
• Во-первых, что главное - целевой аудиторией являются не сотрудники компании, а инвесторы. Цель - показать инвесторам, что компания следуем за хайпом AI и в нёё надо вливать деньги.
• То, что найм уменьшается за счёт AI - тоже ключевое. В периоды нулевых процентных ставок было модно растить компании за счёт найма, теперь наоборот - за счёт сокращений и внедрения AI.
• Сам CEO по крайней мере следует своим заветам: текст скорее всего сгенерирован. Да и он сам пишет, что недавно делал доклад и весь доклад подготовил с помощью агентов.
• 100х ускорение - явно буллшит. Разве что они генерят код и сразу пушат его в прод без проверки.
• Включение вопросов про использование AI в оценку качества работы скорее всего будет очередным примером закона Гудхарта, когда метрика превращается в цель.

Посмотрим, что из всего этого выйдет. С тем, что AI может быть очень полезным инструментом не поспорить. Но вот такой бурный переход кажется неоправданным.
8.04.2025, 07:49
t.me/datastorieslanguages/402
2
4
379
​​TextCrafter: Accurately Rendering Multiple Texts in Complex Visual Scenes

Любопытная статья с подходом к генерации картинок, где должно быть несколько текстов. Такая задача называется Complex Visual Text Generation. Основные проблемы существующих моделей — искажения, размытость и пропуски текста. Авторы предлагают метод TextCrafter: разбивают задачу на части (отдельные текстовые элементы), а потом собирают результат по кусочкам. В процессе стараются сохранять связь описания и генерируемого текста на картинках.

Также они создали новый бенчмарк CVTG-2K и, представьте себе, их подход лучше всех других на этом датасете. :) Всегда забавляют статьи, когда авторы делают свой собственный датасет (ибо никакие другие не подходят) и именно их модель является там SOTA.

Paper
Code

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
7.04.2025, 08:14
t.me/datastorieslanguages/401
11
13
509
Войны HR: Deel vs Rippling, корпоративный шпионаж и интриги

История в двух частях.

Rippling обвиняют Deel в корпоративном шпионаже. Они заметили, что "шпион" в их компании по много раз в день искал "deel" в их внутренних системах - среди прочего искал клиентов deel, которые планировали перейти в Rippling. Дальше пошли прям шпионские интриги: Rippling создали документ-honeypot - мол, у них в слаке есть канал d-defectors со списком людей, которые перешли из одной компании в другую и раскрывают грязные секреты. Канал был специально создан для поимки злоумышленника. Через несколько часов подозреваемый зашёл в этот канал и в целом стал искать в слаке "defectors".

Дальше его замочили в сортире... то есть он сам заперся в корпоративном туалете, потом отказался сдавать свой телефон и убежал. Потом он разбил телефон... топором и смыл куски в туалет. Причём по совету своего адвоката.

И позже он всё-таки признался в том, что это действительно был шпионаж, который происходил по инициативе CEO Deel.

Историю ещё можно почитать у pragmaticengineer если есть подписка.
3.04.2025, 19:18
t.me/datastorieslanguages/400
9
8
395
Первая LLM?

На днях я натолкнулся на интересное обсуждение в твиттере. Началось оно с того, что кто-то спросил, зачем вообще нужно создавать файлы "llms.txt". Для тех кто не в теме, в прошлом году Jeremy Howard предложил новый "стандарт" - пусть все сайты имеют такой файлик, чтобы LLM могли в удобном виде парсить содержимое сайтов, не ползая по всем страницам.

Ну так вот, дальше пошёл спор с участием самого Jeremy, где он в итоге заявил, что это он создал первую LLM, поэтому его надо слушать. Один из активных участников обсуждения спросил gemini, grok и chatgpt об этом, и они ответили, что Jeremy, конечно, молодец, но первая LLM - GPT-1. А ULMFiT - не LLM. Jeremy тут же заявил, что большие компании скрывают его вклад.

Я решил повспоминать что же было раньше, в том числе использовал ссылки из обсуждения.

Large Language Models in Machine Translation, 2007 - натренировали модель на... 2Т токенов (что сравнимо с современными LLM) на 300B n-gram (до 5-gram). Да, это не современный токенизатор, но всё равно. Ну и мы в самом названии статьи видим "Large Language Model".
Semi-supervised Sequence Learning, 2015 - предлагают использовать sequence autoencoder и претренировывать его, а дальше тюнить модели для классификации. Это уже ближе к современным подходам.
• Было несколько промежуточных моделей - CoVe и ELMo, но они не собрали нужные идеи вместы, они скорее просто делали претренировку.
Universal Language Model Fine-tuning for Text Classification, 2018 - тот самый ULMFiT. Jeremy Howard и Sebastian Ruder предложили по факту современный рецепт тренировки NLP моделей - общая претренировка, файнтюнинг под задачу и файн-тюнинг под конкретную классификацию.
Явно были и другие похожие статьи.

В целом стоит признать, что ULMFiT положил начало современным подходам. И я помню, что он успешно применялся на Kaggle до популяризации BERT. Но он явно возник не на пустом месте - была благоприятная почва для этого.

#datascience
1.04.2025, 13:13
t.me/datastorieslanguages/399
1
467
31.03.2025, 08:06
t.me/datastorieslanguages/398
2
3
449
​​Video-T1: Test-Time Scaling for Video Generation

Авторы решили прикрутить Test-Time Scaling к видео и посмотреть, что получится. Они формулируют задачу как поиск оптимальной траектории из шума к финальному видео с помощью верификаторов и эвристик. Вначале попробовали линейный подход (генерим отдельные видео и оцениваем их), потом Tree-of-Frames - строится дерево с прунингом. Результаты вполне ожидаемые: TTS улучшает качество, но в какой-то момент выходит на плато; более жирные модельки лучше улучшаются, чем более мелкие; основные улучшения в базовых вещах (объекты, сцены, общее качество), а вот движения, гладкость и прочее - не всегда заметно улучшаются.

Paper
Code
Project

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
31.03.2025, 08:06
t.me/datastorieslanguages/397
11
28
349
Improving Recommendation Systems & Search in the Age of LLMs

Блогпост от довольно известного Eugene Yan про то, какие есть новые работающие подходы к построению рекомендательных систем. Весьма годный обзор большого количества статей с деталями и графиками. Мне показались интересными следующие примеры:

• Semantic ID в Youtube: берут видео, дальше что-то типа Video-BERT генерит эмбеддинги, дальше Residual Quantization Variational AutoEncoder превращает их в Semantic ID.
• CALRec от Google: берут взаимодействия юзеров и айтемов, конвертируют в текст. LLM делает предсказывает следующую покупку, решая задачу sentence completion. Модель файн-тюнят в два этапа: вначале учат предсказывать более общие категории, потом более детальные категории. При предсказании генерят несколько кандидатов, сортируют и берут топ-k. А дальше матчат с каталогом с помощью старого доброго BM25.
• Recommendation Quality Improvement от Bing: просто генерят метаданные для веб-сайтом с помощью LLM. Дальше тюнят на этом Mistral-7B. Для ранкинга тюнят мульти-таск кросс-энкодер для предсказания кликов и для классификации.
• Scaling Laws: статья 2023 года. Авторы проверяют идею того, что качество моделей растёт с размером. Тренировали трансформеры размером от 98.3K до 0.8B. Результат был неудивительный - качество действительно расло с размером моделей. Что интересно - при одинаковом размере датасета, модель большего размера каждый раз получали качество лучше. Видимо capacity больше.
• Bridging Search & Recommendations от Spotify: показали, что тренировать одну модель сразу для рекомендаций и поиска лучше, чем две отдельные.

Там ещё полно годных примеров: бывает, что статьи от разных компаний показывают примерно одинаковые выводы (что подчёркивает их практичность), есть статьи про дистилляцию, оптимизацию тюнинга и так далее.

#datascience
29.03.2025, 14:24
t.me/datastorieslanguages/396
11
9
387
Пришло время поделиться новой папкой TECH & SCI: в ней публируются статьи об инновационных разработках, новостях, которые были реализованы в 2024-2025 году в сфере технологий и науки.

Примеры интересных материалов:
ИИ-агенты - новый способ оптимизации процессов в 2024-2025.
• Золотая жила для разработчиков в 2025 в GenAI: подборка из 44 готовых ИИ-агентов с исходным кодом.
• Прорывы в сфере астрономии в 2025 году.
• Последние изобретения в Data Science.
• И еще 24 полезные статьи для прокачки разнообразных навыки.

А от меня ссылка на рассказ про DataFest Yerevan 2024: https://t.me/datastorieslanguages/281.
28.03.2025, 18:05
t.me/datastorieslanguages/395
7
4
431
​​Как меняются ожидания от моделей и их возможности

https://news.ycombinator.com/item?id=43476174

На метрики смотреть не особо интересно - они далеко не всегда отражают реальность, но вот этот комментарий про Gemini 2.5 меня впечатлил.

За пару лет мы прошли путь от "если эта хрень генерит больше одной страницы, получается бессвязно" до "эта штука может сгенерить 19 страниц текста с деталями, связно и с приличным pacing".
26.03.2025, 10:01
t.me/datastorieslanguages/394
1
11
424
Leetcode: 2025 Hiring Prep Sprint – Big Tech Interview Challenge

На литкоде сейчас идёт активность: в течение трёх недель людям предлагается решать задачки (11 каждую неделю плюс 3 премиальных для премиум юзеров). Если успешно решить все и отписаться в треде, то дадут много LeetCoins.

Сами LeetCoins - вряд ли мотивация, но сама активность - неплохая возможность освежить самые разные темы от BFS до всякое экзотики.

#datascience
25.03.2025, 16:29
t.me/datastorieslanguages/393
6
8
448
​​RWKV-7 "Goose" with Expressive Dynamic State Evolution

На этой неделе я решил посмотреть какой прогресс у "альтернативных" архитектур. Вышла RWKV-7 "Goose" (похоже авторы с каггла ;) ) - новая версия этой рекуррентной архитектуры. Они смогли сделать обобщение delta rule, в итоге получили модель с хорошими метриками и при инференсе модель делает предсказания за констанное время и память на токен. Несколько моделей выложили в open source.

Но выглядит слегка странно. Размеры моделей вызывают вопросы. 0.19B, 0.4B, 1.5B, 2.9B - не все из этих размеров стандартны, что вызывает сложности в сравнении с другими моделями. Ещё они в твиттере заявили, что выкладывают reasoning модель на... 0.19B. В комментах люди пишут, что качество так себе.

По крайней мере это выглядит любопытно.

Paper
Code
Project

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
24.03.2025, 08:07
t.me/datastorieslanguages/392
9
6
382
​​Антиутопия в фантастике: государство знает все о вас и следит за каждым движением!
Антиутопия в реальности: приложение заказа еды знает сколько вы зарабатываете
21.03.2025, 14:03
t.me/datastorieslanguages/391
2
3
408
18.03.2025, 18:33
t.me/datastorieslanguages/390
6
3
417
OpenAI vs the gorilla dataset

Какие только "издевательства" над чат-ботами я не видел. И вот подвезли ещё одно.

Есть один интересный датасет с данными по полу, BMI и количеству пройденных шагов в день. Этот датасет показали двум группам студентов. Одним предложили подумать о данных и дали три вопроса для затравки, другим просто предложили подумать о данных. Оказалось, что вторая группа со значительной вероятностью находила изюминку в данных... то, что график данных представлял из себя гориллу!

Так вот, один любопытный человек попробовал повторить эксперимент с ChatGPT. Дал ему данные и попросил проанализировать. Бот даже выдал график с гориллой, но не осознал, что с графиком что-то необычное.
Наводящие вопросы немного помогли, но не совсем.

Забавный эксперимент.
У меня лишь два вопроса: какой датасет использовал автор блогпоста (ибо про датасет есть статья, но сам датасет не опубликован) и какую версию ChatGPT он пробовал (вполне возможно, что o1/4.5 уже могут всё понять).

https://koaning.io/posts/openai-vs-the-gorilla-dataset/

#datascience
18.03.2025, 18:33
t.me/datastorieslanguages/389
4
7
465
Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities

Audio Flamingo 2 - статья от NVIDIA о новой SOTA Audio-Language модели. Сделали свою архитектуру с кастомным CLAP, тренировку в 3 этапа и натренировали на специально собранном большом датасете. Моделька работает прям значительно лучше, чем предыдущие топовые модели. И всего на размере в 3B. Выглядит как годная работа. Особенно интересно то, что по образу и подобию R1, o1 и прочих reasoning моделей, датасет как раз собран так, чтобы заставить модель думать - похоже это первое такое для audio-language моделей.

Из грустного - на одном из графиков видно, что разницы в качестве между 3B и 7B практически нет. Похоже, что скейлинг для такого подхода не работает. Или нужно что-то другое.

Paper
Code
Project

Мои обзоры:
Personal blog: https://andlukyane.com/blog/paper-review-audio-flamingo-2
Medium
Linkedin Pulse

#paperreview
17.03.2025, 08:11
t.me/datastorieslanguages/388
19
7
502
​​Чувствуешь себя старым, когда видишь новое поколение "AI-щиков", которые не знают о модели BERT 🙈👴

https://www.reddit.com/r/singularity/comments/1jcbpnk/baidu_releases_ernie_45_x1_half_the_price_of/
16.03.2025, 15:17
t.me/datastorieslanguages/387
8
11
503
​​Baidu: ERNIE 4.5 & X1. Веса в открытом доступе в июне

Когда-то давно, в 2019 года (прям седая древность по меркам современного NLP, ага) вышла первая версия ERNIE.

А теперь китайцы заявили о самой новой версии. Ernie 4.5 работает на уровне ChatGPT 4.5. Причём в чате бесплатно, а по API в 100 раз дешевле, чем chatgpt 🙈

А самое главное - к 30 июня обещают выложить веса в открытый доступ.

#datascience
16.03.2025, 15:13
t.me/datastorieslanguages/386
26
16
474
​​Alternative AGI timeline
12.03.2025, 18:11
t.me/datastorieslanguages/385
8
11
435
​​Large Language Diffusion Models

LLaDA – это альтернатива autoregressive models для large LLMs, основанная на diffusion model. Вместо последовательного предсказания токенов модель использует маскирование и восстановление текста (как диффузионные модели). Учится в два этапа: pre-training и SFT.

Показывает приличные метрики на разных задачах и успешно справляется с reversal curse (когда модель натренированная на "а - это б", не понимает, что "б - это а").

Это довольно интересный эксперимент, который показывает, что diffusion models могут быть жизнеспособной альтернативой ARMs для будущих LLMs.

Paper
Code
Project

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
10.03.2025, 08:06
t.me/datastorieslanguages/384
25
7
533
​​Я поверю в AGI не тогда, когда LLM будут с первого раза писать идеальный код, а когда они будут в страданиях писать ужасный код и добавлять такие комментарии, ибо другого выхода не было
9.03.2025, 15:38
t.me/datastorieslanguages/383
5
9
366
​​Trimodal Nature of Tech Compensation in the US, UK and India

Pragmatic Engineer уже несколько раз постил вариции своего знаменитого поста The Trimodal Nature of Software Engineering Salaries in the Netherlands and Europe

В этот раз пост написан вместе с levels.fyi, что придаёт ему дополнительный вес.

В целом интересно, вот только мне кажется (и не только мне, на реддите тоже заметили), что основная мысль (про тримодальность) притянута за уши: ну нет там тримодальности на графиках, только бимодальность. Ещё одна проблема - в статистику попали раздутые зарплаты 2022 года (когда компании активно нанимали, платили много, стоки росли). Но с этим ничего не поделать.

В остальном неплохо. Можно смотреть на графики и завидовать, ну или знать к чему можно стремиться.

Сам блогпост.

#datascience
6.03.2025, 16:20
t.me/datastorieslanguages/382
15
12
464
​​Два года изучения иностранных языков

Пару лет назад я публиковал блогпост о том, как изучаю иностранные языки. Теперь я решил написать новую версию. Частично о прогрессе я уже писал в этом канале, теперь будет более полная картина.

Испанский.
Языковые встречи - это было самое интересное и полезное. Общался с людьми из самых разных стран, приобрёл несколько знакомых, с которыми поддерживали общение пару лет.
Играл в RPG на испанском, перевод делал через screenshot + DeepL OCR, работает отлично.
Как я уже писал, я люблю использовать подход Listening-Reading: слушать аудио-книгу на изучаемом языке и одновременно читать на известном. Так я проработал одну фентези книгу на 46 часов аудио.
Потом я читал много книг, в сумме набралось на 4.5-5млн слов :) Включая один бесконечный фанфик по покемонам на 2.2млн.

Немецкий.
В целом я делал подобные же вещи. С помощью Listening-Reading прослушал книги на 250 часов. Прочитал уже где-то 12 книг.

Японский.
Долго и упорно учил слова, грамматику и иероглифы. Прочитал несколько учебных новелл на сайте с подробным разбором грамматики. И с большим трудом одолел первый том "Волчица и пряности".

Подробности можно прочитать в блогпосте:
Блог
Medium

#languages
5.03.2025, 07:52
t.me/datastorieslanguages/381
7
17
492
​​NeoBERT: A Next-Generation BERT

Ещё недавно я писал обзор на ModernBert, а теперь есть новое улучшение BERT - NeoBERT. Насыпали больше данных (600B токенов в датасете), увеличили размер модели, докинули кучу годных улучшений архитектуры и тренировки, получили хорошие результаты на GLUE, но, что более интересно, отличные результаты на MTEB. Понятно, что в топ лидерборда не вошли, но обгоняют многие модели, которые больше по размерам. Выглядит интересно.

Paper
Code

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
3.03.2025, 08:03
t.me/datastorieslanguages/379
2
7
458
​​Firefox и приватность

В последние дни в интернете идёт бурное обсуждение изменённых политик приватности от Firefox.

https://blog.mozilla.org/en/products/firefox/firefox-news/firefox-terms-of-use/

Среди общих споров есть несколько моментов, которые сложно интепретировать позитивно.

В коде bedrock было следующее изменение:

В FAQ был вопрос "Does Firefox sell your personal data?" с ответом "Nope. Never have, never will. And we protect you from many of the advertisers who do. Firefox products are designed to protect your privacy. That’s a promise. ". Это было удалено из FAQ.
Справедливости ради, в некоторых других местах эта фраза осталась.

Они опубликовали обновление политики privacy.
Среди самого странного:
> You give Mozilla the rights necessary to operate Firefox. This includes processing your data as we describe in the Firefox Privacy Notice. It also includes a nonexclusive, royalty-free, worldwide license for the purpose of doing as you request with the content you input in Firefox. This does not give Mozilla any ownership in that content.
То есть браузер получает полный доступ ко всему, что вы вводите в него - тексты, пароли и прочее.

А здесь написано "You may not use any of Mozilla’s services to Upload, download, transmit, display, or grant access to content that includes graphic depictions of sexuality or violence", что, например, по сути запрещает смотреть порно 😁 К этому же можно отнести любые видео с насилием, типа съёмок войн, задержания преступников и так далее.

Здесь и тут идут бурные обсуждения.

На фоне этого скандала, Mozilla попыталась оправдаться:
> We’ve seen a little confusion about the language regarding licenses, so we want to clear that up. We need a license to allow us to make some of the basic functionality of Firefox possible. Without it, we couldn’t use information typed into Firefox, for example. It does NOT give us ownership of your data or a right to use it for anything other than what is described in the Privacy Notice.

Но это всё равно неубедительно. Плюс, они по факту подтверждают, что будут использовать всю введённую информацию.
1.03.2025, 12:50
t.me/datastorieslanguages/378
6
5
357
Claude Plays Pokemon

Если вам хочется как AI захватывает мир, то есть как Claude пытается играть в Pokemon - на Twitch идёт постоянная трансляция https://www.twitch.tv/claudeplayspokemon

На это бывает больно смотреть. Например, я увидел прекрасный момент, когда модель посреди боя сменила полуздорового покемона, на покемона с очень низким здоровьем... которого противник, конечно, сразу добил.

Дополнительный плюс - возможность "наблюдать за наблюдающими". В комментах идёт активное обсуждение происходящего :)
26.02.2025, 17:29
t.me/datastorieslanguages/377
21
58
1.0 k
Ужасы поиска работы от Mimansa Jaiswal

Сегодня в твиттере я увидел весьма интересный тред об опыте поиска работы прошлой осенью от Mimansa Jaiswal. У неё есть PhD в Computer Science, опыт работы стажёром в Facebook AI, Allen и год опыта работы в ещё одной компании. Плюс 10+ опубликованных статей (часть во времена BERT, часто в настоящее время).

И вот она рассказывает, как осенью 2024 искала работу - подавалась в 200 компаний, было ~100 собеседований. Текст очень интересный - про подходы к поиску работы, про различия между стартапами и BigTech и многое другое.

Вот некоторые интересные моменты:

Общее:
• Искала работу связанную с ресерчем - общие применения LLM или работа над SOTA. Чисто инженерные позиции или разработка продуктов типа чат-ботов её не интересовали. Хотелось work-life balance и работа в Seattle или сравнимой локации.
• Основные способы поиска работы: подаваться через сайты компаний напрямую, писать рекрутёрам и hiring manager в LinkedIn, добывать рефералы
• Полно мини хоррор-историй о том, какие бывают общения с компаниями

Стартапы:
• Процессы собеседований сильно разнятся между компаниями. Из необычного: некоторые хотели проводить собеседования при личной стрече (не по созвону), некоторые хотели, чтобы кандидат несколько дней проработал у них (за оплату, конечно) как мини-триал вместо собеседований.
• Даже в таких молодых стартапах обычно было 5-6 раундов собеседований.
• Как можно ожидать, многие стартапы сразу озвучивали ожидания работать 6/7 дней в неделю или 12 часов в день.
• Нередко название позиции намекает на ресерч, а по факту оказывается, что нужна инженерная работа.
• Часто компании прекращают общение между этапами собеседований и перестают отвечать
• Стартапы обычно предлагают 150-250k$ gross в год и 0.2%–0.5% equity.

Unicorns (Anthropic, OpenAI, Scale):
• Дикое количество раундов у Anthropic - 10
• Не было раундов leetcode, часто можно было использовать дополнительные материалы (но без чат-ботов)

BigTech:
• Обычно процесс собеседований идёт 1.5-2.5 месяцев
• В Apple было... 12 раундов, у остальных компаний обычно около 6 +/- 2
• Процессы собесов были прозрачные, интервьюверы были профессиональными
• Некоторые компании всё-таки пропадали посередине общения
• В среднем компании предлагают 350-430k$ gross в год с учётом всех бонусов

Материалы для подготовки

#datascience
25.02.2025, 10:22
t.me/datastorieslanguages/376
5
426
​​Claude 3.7 Sonnet and Claude Code

https://www.anthropic.com/news/claude-3-7-sonnet

Теперь и Claude обзавелась reasoning. Метрики очень приятные. Sonnet и раньше казался лучше всех конкурентов в плане написания кода, а теперь новый прогресс.

Плюс появился Claude Code - новый продукт для написания кода, но желающих оказалось столько, что надо в waitlist записываться. Жду доступа.

Состояние индустрии выглядит примерно так:
25.02.2025, 08:00
t.me/datastorieslanguages/375
9
15
529
​​Длинный контекст vs RAG"

Я часто вижу обсуждения того, в чём разница между моделью с большим контекстом и использованием RAG. И вот на днях я увидел пост на reddit с отличным примером.

Автор поста взял "Alice in Wonderland" и добавил в текст рандомные ошибки. Потом загрузил в ChatGPT и в Claude с просьбой найти что не так.

У Claude контекст 200к токенов - модель успешно нашла косяки.

У ChatGPT Plus (o3-mini-high) контекст 32к токенов - модель не нашла ошибок. Автор поста считает, что дело в том, что RAG ищет релевантные куски текста по схожести между промптом и куском текста. Поскольку в самом промпте не было примеров ошибок и кейвордов, ничего и не нашлось. В итоге модель просто выдала довольно общий ответ.

#datascience
24.02.2025, 14:42
t.me/datastorieslanguages/374
3
7
544
​​SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features

Появилась новая версия SigLIP, multilingual vision-language encoders, с кучей улучшений: captioning-based pretraining, self-supervised learning (self-distillation, masked prediction) и online data curation. Получили улучшения везде где только можно: zero-shot classification, image-text retrieval задачи локализации и dense prediction. Плюс, модели поддерживают разные разрешения (а не одно фиксированное).

Доступны веса моделей четырёх разных размеров - на любой вкус.

Paper
Project

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
24.02.2025, 08:09
t.me/datastorieslanguages/373
6
7
560
​​В топовых AI-компаниях около половины сотрудников работает меньше 4 лет до смены работы

https://x.com/swyx/status/1892684773891375125/photo/1

На днях Anthropic делал презентацию и я нашёл один интересный слайд: какова доля сотрудников, продолжающих работать в компаниях через N лет.

Видно, что уже за 3 года большинство из этих компаний теряет треть-половину людей. Наверное это и неудивительно - уже давно айтишникам рекомендуется менять работу каждые 2-3 года для повышения зарплаты (особенно, если речь идёт не про лидов/менеджеров). Наверняка всем работающих в этих компаниях постоянно приходят щедрые предложения.
23.02.2025, 10:07
t.me/datastorieslanguages/372
8
30
501
​​GitTok – TikTok but for interesting GitHub repos

Если вам хочется прокрастинировать, но при этом иметь красивую отмазку, вот вам идея: Gittok

https://gittok.dev/
21.02.2025, 14:42
t.me/datastorieslanguages/371
6
17
469
​​OpenAI: Reasoning best practices

У OpenAI столько моделей, что они публикуют уже не первый гайд о том, какие модели для каких случаев использовать. На этот раз речь об использовании reasoning (o1, o3-mini) vs GPT. Кстати, интересно, что они протипопоставляют o1 и GPT архитектуру, будто у o1 другой подход.

https://platform.openai.com/docs/guides/reasoning-best-practices

Если по сути:
• Если нужно быстрее/дешевле или задачи чётко сформулированы - GPT
• Если нужно качество и достоверность или умение решать сложные проблемы - o1

В целом это довольно очевидно, но дальше показывают красивую картинку того, как чат-бот техподдержки использует микс подходов:
• o1 обрабатывает базу данных компании для общего понимания
• GPT подготавливает конкретные действия по запросу пользователей
• o3-mini валидирует эти предложенные действия

Ну и ещё ряд примеров, когда лучше использовать o1: постановка задачи нечёткая, найти конкретную информацию в большом объёме данных, выстроить причинно-следственные связи и обнаружить зависимости, планирование шагов выполнения задачи, более качественный анализ информации на изображениях (графики, схемы и прочее), ревью кода, оценка качества работы других моделей.

#datascience
21.02.2025, 10:23
t.me/datastorieslanguages/370
31
9
421
​​Война миров

https://huggingface.co/perplexity-ai/r1-1776

> R1 1776 is a DeepSeek-R1 reasoning model that has been post-trained by Perplexity AI to remove Chinese Communist Party censorship. The model provides unbiased, accurate, and factual information while maintaining high reasoning capabilities.

Сторонники настоящей демократии взяли плохую, зацензуренную, китайскую модель и помогли ей выдавать незацензуренную, правильную информацию. Слава несущим истину в массы. /s
19.02.2025, 15:32
t.me/datastorieslanguages/369
2
2
403
17.02.2025, 08:11
t.me/datastorieslanguages/368
1
1
402
17.02.2025, 08:11
t.me/datastorieslanguages/367
2
6
402
Goku: Flow Based Video Generative Foundation Models

Я что-то давно не читал статьи по CV, решил исправиться. Это статья от ByteDance (TikTok) для генерации картинок/видео с помощью rectified flow Transformers. Делают совместную генерацию картинок и видео (чтобы не тренировать отдельные модели). Описывают как обрабатывали данные (куча препроцессинга), как тренировали модель (pretraining на T2I; совместная тренировка на T2I, T2V; файн-тюнинг для улучшения качества), как скейлили тренировку (3D параллелизация, activation checkpointing, стабильность к отказам железа).

В итоге модель генерит весьма годные картинки/видео. Вот радость - можно бесконечно залипать в тикток! Количество "r" в "strawberry" не посчитает, но сгенерить картинку с ней сможет :)

И да, модель называется Goku из-за того самого Goku.

Paper
Code
Project

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
17.02.2025, 08:11
t.me/datastorieslanguages/366
20
5
599
​​Самый правильный alignment

Не, ну вы посмотрите на это.

LLM, которая знает, КТО за неё платит. И готовая говорить что угодно, чтобы деньги продолжали идти на её тренировку. Чем это отличается от людей? :) Это уже почтинастоящий AGI, я считаю.

А разработчики сделали самый правильный alignment - максимизирующий одобрение ответов от Илона.
16.02.2025, 17:15
t.me/datastorieslanguages/365
8
11
483
​​Titans: Learning to Memorize at Test Time

Интересная статья от Google Research с новым семейством архитектур - Titans. Объединили attention и отдельный модуль долгосрочной памяти. Сделали 3 варианта архитектуры - память как контекст/gate/слой. В результате модельки тренируются быстро, хорошо масштабируются, работают на контексте до 2 млн токенов. Ну и, как это обычно принято, бьют другие модели по метрикам (кто ж будет публиковать не SOTA).

Paper

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
3.02.2025, 19:31
t.me/datastorieslanguages/364
12
3
472
​​o3-mini и o3-mini-high скоро на ваших экранах

Люди нашли, что вот-вот OpenAI выкатит две новые модельки:
https://web.archive.org/web/20250131113746/https://cdn.oaistatic.com/assets/esm2nfprev2ttzip.js

"Introducing o3-mini and o3-mini-high two new reasoning models that excel at coding, science, and anything else that takes a little more thinking."

И уже утёк скрин с этим.

Мне интересно, как вообще придумывают эти названия? Что дальше? o3-maxi-low? o3-medium-lsd?
31.01.2025, 16:45
t.me/datastorieslanguages/363
16
3
477
​​В интернете бушуют обсуждения про DeepSeek, особенно часто встречаются крики о том, что его сделали на коленке, что он появился из ниоткуда и вообще никто его не ожидал.

Хочу напомнить, что ещё в ноябре разработчики DeepSeek опубликовали этот пост: https://api-docs.deepseek.com/news/news1120
В нём они рассказывали о том, как работают над DeepSeek-R1-Lite-Preview и показали красивый график - как растёт качество их модели при увеличении количества thought tokens. Уже на этом графике видно, что preview версия достигает 66.7% на AIME (в актуальной статье метрика 71). Так что для тех, кто следил за прогрессом разработки, текущие результаты не удивительны.

#datascience
29.01.2025, 17:15
t.me/datastorieslanguages/362
Os resultados da pesquisa são limitados a 100 mensagens.
Esses recursos estão disponíveis apenas para usuários premium.
Você precisa recarregar o saldo da sua conta para usá-los.
Filtro
Tipo de mensagem
Cronologia de mensagens semelhante:
Data, mais novo primeiro
Mensagens semelhantes não encontradas
Mensagens
Encontre avatares semelhantes
Canais 0
Alta
Título
Assinantes
Nenhum resultado corresponde aos seus critérios de pesquisa