Как я тестировала Telegram-бот для расшифровки интервью
Работа с записями интервью — это всегда задачка. В наших прикладных проектах мы обычно не справлялись своими силами и прибегали к услугам расшифровщиков. У этого есть свои плюсы и минусы, но меня больше всего расстраивало что всегда приходилось переслушивать и редактировать ошибки: исправлять, скажем, «московскую тундру» на правильную, «носковскую» (Носок — поселок на Таймыре). Это нестрашно, но иногда ошибки бывали и смысловые, а это уже грустно. Особенно, когда средств на такую работу потрачено немало.
Последние пару лет я тестила разные транскрипторы с ИИ, но у всех выходило все равно хуже, чем у человека, пусть и далекого от тем интервью, делающего ошибки. Так вот
Memo AI, который я протестировала (спасибо ребятам за бесплатные минуты), показал себя лучше многих подобных. Он близок к результатам, которые я получала от живых расшифровщиков. А еще с ним удобно — работает прям в тг.
Что умеет бот?
📌 Переводить голос в текст с хорошей точностью (проблемы возникли, как водится, с географическими бы названиями и именами собственными, но это ок).
📌 Автоматически делить речь на спикеров (вот это прямо очень хорошо вышло).
📌 Создавать краткие содержания записей (это может быть удобно для создания базы источников).
📌 Делать «семантический анализ» текста (это меня впечатлило, уровень, близкий к Claude, которого я нежно люблю и часто использую, размышляя о собранных материалах).
Сразу скажу: бот платный, тарифы разные и на самом базовом с большими файлами не поработать, т.к. есть ограничение по размеру 50мб (для сравнения — часовой файл интервью, записанного на айфон, весит ~100мб).
Как это работает?
1. Загружаем аудиофайл.
2. Бот его обрабатывает.
3. Получаем расшифровку с кратким содержанием.
3. Если надо, запрашиваем «семантический анализ» — это встроенная функция.
В настройках не забудьте выбрать формат файла, в котором хотите получить расшифровку! По умолчанию стоит pdf, а мне вот удобнее doc.
В общем, рекомендую. Вот тут еще
раз ссылка на бот.