ИИ в «VK Видео» поднял точность субтитров на 25%

Новые алгоритмы искусственного интеллекта для автоматического распознавания речи и синтеза субтитров в роликах, шоу, клипах и другом контенте внедрены сервисом «VK Видео». Благодаря этому на 25 % улучшена точность анализа и расшифровки. Также нейросети освоили тысячи новых слов, среди которых есть имена собственные мемы, профессиональные термины и даже акронимы.
Для создания автоматических субтитров используются ML-моделей. Их задача – создать текст, расставить запятые и синхронизировать их с видео. Предусмотрено несколько этапов обработки, через которые проходит аудиопоток для повышения точности. Нейросеть исключает посторонние шумы, распознает речь и переводит ее в текст.
Далее к работе приступают модели пунктуации и денормализации – они создают хорошо читаемый текст из представленного им набора распознанных слов. Следующий цикл – синхронизация текста с аудиодорожкой, что тоже выполняется ИИ. Все эти манипуляции делают субтитры понятными и в любительских видео, и в профессиональных роликах.
Субтитры очень популярны среди пользователей «VK Видео». Эту функцию ценят не только люди, у которых есть нарушения слуха. Технология удобна, когда нет возможности включить звук при просмотре видео. За последний месяц на 28 % увеличилась доля пользователей, применяющих функцию в веб-версии. И сегодня субтитры – обязательная часть видео у 11 % всей аудитории платформы «VK Видео».
Источник: CNews
