Приветики всем любителям кеков и приколов от нейросеток ✌🏽
С вами снова Ксюша, продакт детского AI-ассистента.
Недавно мы запустили в Джуниор-ассистенте генерацию картинок по тексту, и этот опыт был тоталли анфоргетбл.
Несколько вводных:
- Дети супер вовлечены во все, что связано с AI. Около половины наших пользователей ответили в опросе, что часто заходят просто поболтать и задать вопросы
- Мировые тренды (Character.ai, Replica и тд) показывают, что активность детей с AI-продуктами сильно растет, а возвращаемость бешеная. У того же Character.ai 200М визитов в месяц при ~20М пользователей. Современные дети взрослеют сильно раньше, чем наше поколение: если мы в 10 лет играли в куклы и машинки, то они разбираются в инвестициях и лучше взрослых знают, откуда берутся дети
Опираясь на это, мы тоже решили похайпить и прикрутили нашу внутреннюю модель для генерации картинок — TFusion.
Поначалу все казалось очень простым и понятным: даешь детям генерацию картинок по тексту, они просят сгенерировать мам, пап, кошечек, собачек, а если попросят нарисовать дикпик, мы просто это отловим еще на этапе текста — и вот он успех!
Но когда мы начали тестировать весь процесс end-to-end, поняли, что нам предстоит новый раунд работы с безопасностью, тк генерация картинок ооочень отличается от генерации текста, и правила модерации там совсем другие.
Кейс 1: "Большой черный петух"
Многие модели (и наша в том числе) работает с генерацией картинок по тексту так, что изначальный запрос пользователя переводится на английский и только потом идет в генерацию.
Вопрос нэйтив спикерам: как вы думаете, как перевелся большой черный петух? А маленькие синицы?
Честно говоря, мы вычислили это абсолютно случайно. А за то, чтобы нагенерить еще похожих кейсов, меня чуть не забанил OpenAI.
Решили проблему довольно просто — добавили к модерации запросов пользователя еще и модерацию перевода на английский.
Кейс 2: "Нарисуй маму"
Вроде как с опасными запросами все понятно — прикручиваем максимальное количество проверок. Но как быть, если модель по запросу "нарисуй маму" отдает картинку кормящей женщины топлесс в трусах с надписью "mom"?
Тут в игру вступает модерация картинок. И здесь нам пришлось писать целый список небезопасных тематик и людей (туда даже входит Саша Грей и Лысый из Браззерс), ориентируясь на которые, модель выдает процент совпадения.
Кейс 3: "Нарисуй что-нибудь необычное"
Особенность работы с генерацией картинок в том, что чем больше контекста положишь в запрос на генерацию, тем детальнее, красочнее и точнее будет картинка. Поэтому для тех, кто немногословен в своих запросах, существует такая штука, как обогащение запроса пользователя.
Мы выбрали одну из таких оберток запросов, которая включала в себя что-то вроде "cinematic, photo on canon 35mm". И как только начались запросы формата "хочу что-то интересное", "нарисуй сусеки", модель с завидным постоянством выдавала разного рода фотоаппараты и камеры 🫠
Решили тем, что доправили эту обертку, но командный мем уже прижился)
Подытожить хочется рубрикой «Что чаще всего рисуют дети»:
- майнкрафт
- кошечки/собачки
- капибары
- тачки
- аниме персонажи
- и, внимание, какашки 💩
На этом все! А примеры генераций в комментах, велком ✨