Привет! Я
Даша Воронкина ✌️
— выпускница и ментор AI Talent Hub, Team Lead Data Analyst в OneCell.ai
Каждый день я работаю с данными и вижу, как их роль в AI меняется. В этой колонке делюсь наблюдениями о том, почему в 2025 году, данные ценнее самих моделей.
0️⃣1️⃣ Рост параметров моделей больше не даёт прорыва
Чем больше параметров у модели, тем меньше отдача от их увеличения. Именно поэтому акцент смещается на data-centric AI — подход, где успех зависит от качества, а не количества данных.
➡️ Практический пример: новая серия моделей OpenAI o1, где ставка сделана не на размер модели, а на специальную донастройку с привлечением экспертов. OpenAI сообщает, что «секретным ингредиентом» модели o1 стал дополнительный этап обучения на данных и фидбэке, курируемых PhD-специалистами и отраслевыми экспертами.
0️⃣2️⃣ Крупные компании исчерпали открытые данные
OpenAI, Google, Anthropic и Meta столкнулись с нехваткой уникальных текстов для обучения. Спрос на качественные датасеты растёт быстрее, чем их предложение. Побеждают те, кто умеет не просто собирать данные, а тщательно их фильтровать, обогащать и размечать.
0️⃣3️⃣ Маленькие модели могут быть мощнее гигантов
Стартап
Upstage доказал, что качественные данные важнее размера: их модель с 30 млрд параметров превзошла 70-миллиардного конкурента по некоторым метрикам за счёт продуманного датасета и оптимизированного обучения. Это подтверждает, что стратегическое управление данными играет ключевую роль.
0️⃣4️⃣ Человек остаётся незаменимым в разметке
Автоматическая разметка снижает затраты на 62%, но создаёт риск систематических ошибок и байасов. Лидеры рынка внедряют гибридные схемы, где ИИ работает в паре с людьми (пример –
Appen). Человеческий контроль остаётся необходимым в задачах высокой сложности.
0️⃣5️⃣ Синтетические данные не решают всех проблем
ИИ, обученный на синтетических данных, просто воспроизводит уже известные паттерны, что ограничивает его потенциал. Особенно важно наличие реальных данных в критически значимых сферах:
➡️ Медицина – AI помогает диагностировать заболевания и персонализировать лечение, но требует высококачественных и тщательно проверенных данных.
➡️ Юриспруденция – интеллектуальные алгоритмы анализируют правовые документы, однако без экспертной разметки высок риск ошибок.
➡️ Автомобили – автономное вождение зависит от точных данных о дорожных условиях, поведении водителей и безопасности.
➡️ Почему рынок данных сейчас в центре внимания?
ИИ — это не только технологии, но и пространство для креативности и предпринимательства. Конкурировать с гигантами в общем объёме данных сложно, но инновационные подходы и нишевые решения дают стартапам огромные возможности.
0️⃣6️⃣ Рынок услуг по разметке и подготовке данных стремительно растёт – по некоторым оценкам, его глобальный объём превысит $2 млрд в 2025 году и далее будет расти более чем на 30% в год.
➡️ Перспективные направления:
✔️ Кастомные датасеты для конкретных индустрий: медицина, юриспруденция, автомобили.
✔️ Разметка сложных модальностей: изображения, видео, аудио.
✔️ Self-improving pipelines — AI сам определяет сложные случаи и направляет их на доразметку (пример –
Snorkel)
💡 Так что, будущее AI принадлежит не тем, у кого больше данных, а тем, кто умеет их эффективно собирать, фильтровать и использовать. Компании и стартапы, которые сделают ставку на высококачественные, стратегически обработанные датасеты, зададут правила игры в новой эре искусственного интеллекта.
✈️ Подписывайся на мой Telegram-канал @aishipuchka — там ты найдешь шипучки пососать на досуге про данные и ИИ 💝
#КолонкаМентора #AITalentHub #ITMO #NapoleonIT