Голос виртуального рассказчика в Яндекс Книгах стал более естественным
Манера чтения меняется в зависимости от жанра
Манера чтения меняется в зависимости от жанра
Яндекс Книги запустили новую версию виртуального рассказчика с улучшенной нейросетевой моделью синтеза голоса. Функция доступна более чем для 120 тысяч произведений. Новая модель демонстрирует высокое качество синтеза на русском языке: так, в 80% случаев она синтезирует голос лучше ElevenLabs.
Виртуальный рассказчик позволяет слушать книги, у которых пока нет готовой аудиоверсии. Это открывает доступ к книгам незрячим и слабовидящим людям. Прежняя нейросетевая модель быстро синтезировала голос, но он мог звучать слишком монотонно.
Для обучения модели использовали фрагменты речи, которые записали вместе с профессиональными дикторами. Они зачитывали тексты разных жанров: фантастику, детективы, романы и учебники. Благодаря этому виртуальный рассказчик меняет интонацию в зависимости от жанра произведения. Модель научилась определять, когда начинается диалог, и выделять интонационно реплики героев. А чтобы речь звучала плавно и без задержек, ИИ начинает синтезировать первые звуки слова, параллельно генерируя следующие.
Виртуальный рассказчик появился в Яндекс Книгах летом прошлого года. Функция доступна в веб-версии и мобильном приложении сервиса. В настройках можно выбрать мужской или женский голос рассказчика. Чаще всего люди слушают аудиокниги по будням в 7-9 утра и вечером после семи, то есть по дороге на работу и обратно.
По данным замеров методом слепого тестирования, новая модель синтезирует голос заметно лучше предыдущей. По общему впечатлению от голоса она выигрывает в 74% случаев, по интонации — в 78%, по естественности звучания — в 73%.