Два года назад мы в Unistory разработали для Бхакти и его лекций отдельный сайт, мини-YouTube для последователей и учеников. Разработали все на Firebase, большой базе данных от Google, которая позволяет веб-сервисам и приложениям работать без бэкенда. Лекции в формате видео и аудио выходят на YouTube и собственной площадке в большом количестве. Сейчас там больше 120 тысяч подписчиков, загружено больше 2500 видео.
Через два года после разработки площадки заказчик вернулся к нам с новой идеей: разместить на сайте расшифровки видеолекций. Оказалось, что значительная часть аудитории Бхакти предпочитает именно текстовый формат. Но транскрибировать сотни и тысячи лекций вручную — непосильный труд. Нашей задачей стала автоматизация этого процесса.
Как это сделать? Если вам пришло в голову слово «нейросети», — поздравляем, вы не ошиблись. Дальше в кейсе подробно рассказываем, как мы автоматизировали перевод из видео в текст, с какими нюансами, и почему наша технология лучше любого сервиса транскрибации.
Еще одна идея заказчика: помочь пользователям более точечно искать информацию на платформе. Типичный юзеркейс: последователь приходит на YouTube-канал, чтобы посмотреть, например, что его духовный учитель думает об отношениях в семейной паре. Поиск выдает ролики, и далеко не все из них релевантны запросу: некоторые про отношения с гуру или друзьями, другие — про взаимоотношения с Богом.
Еще одна проблема: даже если пользователь нашел нужное видео, оно может длиться два или три часа и содержать много мыслей на самые разные темы. Вместе с заказчиком мы решили помочь последователям Бхакти найти ответы на их вопросы.
Чтобы транскрибировать видео, мы решили использовать специализированную нейросеть Whisper AI. Искусственный интеллект хорошо справляется с задачей транскрибации, но итоговый текст, как правило, недостаточно презентабельный. Материал все равно требует ручной обработки, а в нашем случае из-за огромного количества видео это не представлялось возможным. Чтобы сделать качественный чистовик лекций вручную, пришлось бы загрузить несколько десятков сотрудников работой на месяц.
Чтобы обработать текст после транскрибации, мы реализовали алгоритм, который прогоняет расшифровку через ChatGPT. Результат — более качественная расшифровка лекции, стилистически выверенная и без ошибок.
Скрипт проводил обработку лекций в течение нескольких месяцев. Да, это долго — но в тысячу раз быстрее и дешевле, чем делать вручную.
При обработке текста через ChatGPT все равно сохраняется вероятность ошибок, стилистических и фактических. Мы решили дать пользователям возможность указать на эти ошибки. Посетитель площадки может репортить о найденной ошибке администратору, который затем исправляет текст или отклоняет репорт. Сейчас заканчиваем работу над технической реализацией этой фичи.
Мы превратили аудио и видео в текст, но перед нами стояла еще одна задача — помочь пользователям найти внутри лекций отдельные слова. В качестве решения мы выбрали Elasticsearch — инструмент, который позволяет искать данные в огромных датасетах.
Elasticsearch не может искать слово в аудио или видео, поэтому поиск на платформе происходит по расшифровкам лекций, которые мы автоматизировали на предыдущем этапе работ. Каждая расшифровка привязана к своей видео/аудио версии, поэтому Elasticsearch может найти, сколько раз в той или иной лекции упоминалось нужное пользователю слово.
В рамках UI мы разделили поиск на два варианта: обычный поиск и Deepsearch, поиск внутри лекций. Пользователь может выбрать, искать ему лекцию по названию или по словам, которые в ней упоминаются.
У клиента было две задачи, и мы решили обе, полагаясь на AI-расшифровки текста. Пользователи площадки получили возможность читать лекции проповедника и точечно искать нужные видео на основе самого контента, а не только названия.
В ближайших планах — при запросе Deepsearch показывать точные тайминги, в которые Бхакти говорил искомое слово на видео. Тайминги также будут подтягиваться из текстовой версии.
***
Наши студия разработки встретила этого клиента на бирже фриланса Upwork. Я решил поделиться опытом со всеми желающими — раздаю в своем Телеграм-канале подробный гайд о том, как начать работать на этой международной бирже. Все, что надо сделать — подписаться и попросить гайд в комменте к публикации.
В ответ наш пиарщик вышлет вам в личку подробную инструкцию по Upwork, где вы узнаете, как:
Документ пригодится как студиям, так и фрилансерам. Будет полезно директорам агентств, дизайнерам и разработчикам.