Yandex TTS

Ответить
Аватара пользователя
speech
Обыватель

Yandex TTS

#401

Сообщение speech »

speeck писал(а):
02 июл 2020 11:53
Честно, не знал, притом, что на всех обычных голосах интонация таки меняется, не только для jane или omazh.
Меняются сами голоса с переключением эмоции, просто вы не замечаете, видимо. Происходит подстановка другим голосом, близким по тембру, только и всего, причем с теми же голосовыми "припадками" в предложениях.

Аватара пользователя
Sylvia
Постоялец

Yandex TTS

#402

Сообщение Sylvia »

Да уж, эта смена интонации (точнее перескок на другие голоса) порядком напрягает. Пока что нашла для себя только 2 голоса, которые не меняют пол и тембр - Самохвалов и Вальц. Точнее, подсказали добрые люди. Еще, кажется, Ермил и Захар более-менее постоянны, но они мне не нравятся своим тембром.

speeck
Обыватель

Yandex TTS

#403

Сообщение speeck »

speech писал(а):
02 июл 2020 19:02
Меняются сами голоса с переключением эмоции, просто вы не замечаете, видимо
Ну лично я всегда пишу книги на нейтральной интонации.

speeck
Обыватель

Yandex TTS

#404

Сообщение speeck »

Sylvia писал(а):
02 июл 2020 19:52
Пока что нашла для себя только 2 голоса, которые не меняют пол и тембр - Самохвалов и Вальц
Могу добавить еще Оксану, почти идеально, и слушать приятно.
Чередую её с Самохваловым, он действительно почти стабилен. Правда на последней книге, которая ничем особо не выделяется, Самохвалов часто трансформировался. Но это скорее исключение.

Аватара пользователя
Эхо
Интересующийся

Yandex TTS

#405

Сообщение Эхо »

Онлайн и офлайн синтез Алёной

https://drive.google.com/file/d/1qdmknA ... sp=sharing
https://drive.google.com/file/d/10mjm91 ... sp=sharing

Надеюсь Яндекс перестанет муйнеё маяться с попыткой монетизации синтеза речи, и хотя бы в свой браузер вставит бесплатный набор своих голосов.

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#406

Сообщение tonio_k »

Эхо писал(а):
07 июл 2020 14:04
офлайн синтез Алёной
в смысле озвучивание вообще без интернета? Голосовой движок Алены локальный?

Аватара пользователя
Эхо
Интересующийся

Yandex TTS

#407

Сообщение Эхо »

tonio_k писал(а):
07 июл 2020 15:26
Голосовой движок Алены локальный?
Да, именно так. Технология превращения премиум голосов в офлайн синтез ничем не отличается от описанной ранее в этой ветке. В парадигме глубокого обучения нейросетей, ключевым залогом успеха является датасет. Яндекс его не может не дать собрать, поэтому попытки заработать на "неспешном" нейросинтезе бесперспективны. Ниша остается только для решений заточенных под колцентры, где из железок выжимают всё, что можно и нельзя.

В начале 90-ых от вычислительной бедности был придуман синтез речи на микроволнах, который умещался в 64кб памяти и работал в реалтайме на процессоре интел 8086 с частотой около 1 мегагерца. Он был чуть хуже, чем известная многим "говорящая мышь" и последовавший за ней голосовой движок DIGALO, т.к. был прородителем их. Сейчас тенденция развития TTS идет в том же направлении, когда синтез речи уровня премиум голосов пытаются получить на вычислительных мощностях уровня микроконтроллеров (или SoC) и заработать на этом т.к. зарабатывать на пользователях, которым в 99% случаев нужен однопоточный "неспешный" синтез, и у них есть видеокарта, бесперспективно.

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#408

Сообщение tonio_k »

И где можно прощупать офлайн версию Алёны?

speeck
Обыватель

Yandex TTS

#409

Сообщение speeck »

tonio_k писал(а):
08 июл 2020 19:51
И где можно прощупать офлайн версию Алёны?
Нигде нельзя, товарищ Эхо фантазирует.

speeck
Обыватель

Yandex TTS

#410

Сообщение speeck »

Эхо писал(а):
08 июл 2020 19:38
Да, именно так. Технология превращения премиум голосов в офлайн синтез ничем не отличается от описанной ранее в этой ветке. В парадигме глубокого обучения нейросетей, ключевым залогом успеха является датасет. Яндекс его не может не дать собрать, поэтому попытки заработать на "неспешном" нейросинтезе бесперспективны.
Без обид пожалуйста, но не нужно писать сказки.
1. У вас есть алгоритм синтеза от Яндекса? Конкретный код, модель?
2. Как вы планируете собрать дата-сеты? Они что, лежат в открытом доступе?
Если вы имеете в виду синтезировать все леммы, и собрать на них дата-сеты, во-первых, вы уверены, что из этого получится рабочий голос? Во-вторых, вы уверены, что вообще сможете собрать все леммы? На это понадобятся не малые средства, в первую очередь временные, это нельзя назвать бесплатным занятием.
И тд тд.
Вы не первый раз пишете какие-то теоретические абстракции, но дайте же наконец осязаемое подтверждение оным? Покажите рабочий оффлайн синтез уровня любого голоса Яндекса, а?

Аватара пользователя
speech
Обыватель

Yandex TTS

#411

Сообщение speech »

speeck писал(а):
09 июл 2020 10:41
Без обид пожалуйста, но не нужно писать сказки.
1. У вас есть алгоритм синтеза от Яндекса? Конкретный код, модель?
2. Как вы планируете собрать дата-сеты? Они что, лежат в открытом доступе?
Если вы имеете в виду синтезировать все леммы, и собрать на них дата-сеты, во-первых, вы уверены, что из этого получится рабочий голос? Во-вторых, вы уверены, что вообще сможете собрать все леммы? На это понадобятся не малые средства, в первую очередь временные, это нельзя назвать бесплатным занятием.
так или иначе, в большинстве своём по объёму написанного текста люди пишут абстракции и фантазии, как я, например, или Вы...
здесь где-то был небольшой отчет по результатом тестирования датасета в домашних условиях, так что не торопитесь с выводами

speeck
Обыватель

Yandex TTS

#412

Сообщение speeck »

speech писал(а):
14 июл 2020 12:57
здесь где-то был небольшой отчет по результатом тестирования датасета в домашних условиях
Одна коротусенькая фраза? Ну-ну....
Давайте таки дождемся ответа Эхо, если он действительно располагает чем-то осязаемым и бесплатным, и покажет это, с превеликим удовольствием признаю, что поторопился с выводами, был не прав, и отправлю даже пару бакшиша на вкусное пиво :drinking:

Аватара пользователя
Эхо
Интересующийся

Yandex TTS

#413

Сообщение Эхо »

speeck писал(а):
14 июл 2020 13:22
если он действительно располагает чем-то осязаемым и бесплатным,
Онлайн и офлайн синтез Алёной :)

Сейчас тренирую Филиппа, потом примусь за голоса ЦРТ. Офлайн синтез сделан на реализации Кубоянга (корейца), которую он разместил на гитхабе, повторив в коде мат. модель описанную в одной японской статье. Такого добра на Гитхабе полно с разными подходами к синтезу, одна из реализаций от Мозилы - бери и делай офлайн синтез - не хочу.

это офлайн синтез на нейросетях:

Филипп

человек

Алена

Аватара пользователя
Sylvia
Постоялец

Yandex TTS

#414

Сообщение Sylvia »

Эхо, А можно каким-то образом с помощью Филиппа записать в мр3 книгу? Через Балаболку или Демагог, или через другую программу?

Аватара пользователя
Эхо
Интересующийся

Yandex TTS

#415

Сообщение Эхо »

Sylvia писал(а):
18 июл 2020 08:34
А можно каким-то образом с помощью Филиппа записать в мр3 книгу?
уже слушаю, но как тестирование.
Синтез идет на коде, который требует установки моря зависимостей

видел на гитхабе код, студента из Белоруссии, он уже сделал синтез в виде бэк-энда для сервера Джанго

в сети видел укроязычный отчет о такой-же работе, но без кода на гитхабе
и такой же отчет из Чечни, там реализовали синтез на их языке

speeck
Обыватель

Yandex TTS

#416

Сообщение speeck »

Эхо писал(а):
18 июл 2020 08:20
Онлайн и офлайн синтез Алёной :)

Сейчас тренирую Филиппа, потом примусь за голоса ЦРТ
То есть, вы взяли движок корейца, и на дата сетах Алены/Филиппа делаете синтез?

speeck
Обыватель

Yandex TTS

#417

Сообщение speeck »

Эхо писал(а):
18 июл 2020 08:49
Синтез идет на коде, который требует установки моря зависимостей
Интересно узнать немного деталей, поделитесь?

speeck
Обыватель

Yandex TTS

#418

Сообщение speeck »

Эхо писал(а):
18 июл 2020 08:20
Сейчас тренирую Филиппа
Между Аленой и Филиппом есть разница произношения в ваших примерах, вы вручную подгоняете произношение под каждого?
Да, и как вы собрали дата сеты? Не обязательно раскрывать детали, достаточно в общих чертах.

Аватара пользователя
Эхо
Интересующийся

Yandex TTS

#419

Сообщение Эхо »

GwentDaily писал(а):
21 июл 2020 16:47
Какой вокодер используете ? WaveRNN ?
нет, там у японцев спец. отдельная свёрточная нейронка, которая разряженный мел спектр превращает в амплитудный, а дальше однопоточный гриф-лим

суть их работы была избавиться от lstm

Аватара пользователя
Эхо
Интересующийся

Yandex TTS

#420

Сообщение Эхо »

speeck писал(а):
22 июл 2020 13:26
То есть, вы взяли движок корейца, и на дата сетах Алены/Филиппа делаете синтез?
да, на хабре была статья сотрудника црт, как он это сделал. Кореец выложил примеры, из которых следовало, что даже Такатрон 2 дает меньшую мос оценку, чем dctts, поэтому в црт решили на тот момент ковырять dctts. Сейчас у них уже другая архитектура в фаворе (есть видос на ютюбе о ней)

Аватара пользователя
Эхо
Интересующийся

Yandex TTS

#421

Сообщение Эхо »

speeck писал(а):
22 июл 2020 13:26
Интересно узнать немного деталей, поделитесь?
всё по шагам из статьи на хабре https://habr.com/ru/company/speechpro/blog/358816/ и рекомендаций корейца на гитхабе + установка драйверов к видяхе с кудойднн

Аватара пользователя
Эхо
Интересующийся

Yandex TTS

#422

Сообщение Эхо »

speeck писал(а):
22 июл 2020 13:28
Между Аленой и Филиппом есть разница произношения в ваших примерах, вы вручную подгоняете произношение под каждого?
Да, и как вы собрали дата сеты? Не обязательно раскрывать детали, достаточно в общих чертах.
Пока Филипп лучше Алены, но из-за того, что у Филиппа был больший датасет

эта реализация нейросинтеза не предполагает что им можно управлять кроме нормализации текста, поэтому в ней невозможно указать где ставить ударение и какие фонемы использовать

это энд_Ту_энд решение, где нейросеть учится буквам ставить в соответствие сразу волну (аудиосигнал) У Яндекса сначала идет преобразование букв в фонемы с расстановкой ударений и на этой смеси они учат нейросеть (если их синтез сделан как нейросинтез, а не смесь юнитселекшена с нейросетями)

датасеты собираются скриптами на питоне, как закончу сбор могу отдать в общее пользование. Ими действительно можно синтезировать речь премиум голосами прямо с сайтов. Но боюсь лавочку быстро прикроют, если возрастет нагрузка, так например у ЦРТ демо синтез и без того сам часто падает.

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#423

Сообщение tonio_k »

Эхо писал(а):
24 июл 2020 09:52
поэтому в ней невозможно указать где ставить ударение и какие фонемы использовать
означает ли это, что пользовательские словари тут не будут работать?
Имеется в виду, как сейчас в Яндексе реализовано: можно принудительно в самом тексте, (который затем передаётся голосовому движку) указать ударение в слове за счёт вставки знака "+" перед буквой, на которое должно быть ударение.

Аватара пользователя
GIS88
Интересующийся

Yandex TTS

#424

Сообщение GIS88 »

Эхо, а какая у вас скорость синтеза речи, реалтайм или можно её делать с ускорением? Какую видеокарту вы используете? Нужна именно от Nvidia с поддержкой CUDA или можно как-нибудь это сделать на Radeon?

speeck
Обыватель

Yandex TTS

#425

Сообщение speeck »

Эхо писал(а):
24 июл 2020 09:52
Пока Филипп лучше Алены, но из-за того, что у Филиппа был больший датасет

эта реализация нейросинтеза не предполагает что им можно управлять кроме нормализации текста, поэтому в ней невозмож
Эхо писал(а):
24 июл 2020 09:52
Пока Филипп лучше Алены, но из-за того, что у Филиппа был больший датасет
Скажите, как сейчас работает ваша система на больших текстах? Насколько я понимаю, там много косяков произношения, которые сразу не исправить, и вы их подпиливаете вручную?
Можете озвучить пример большего текста? Например этот рассказ: http://lib.ru/ILFPETROV/ilf_pohod.txt.

Аватара пользователя
Nxtpr
Интересующийся

Yandex TTS

#426

Сообщение Nxtpr »

Когда что-нибудь делают взамен покупного, есть большая вероятность что "все посчитали до вас" и никакого выйгрыша не получится. Стоимость аудиокнижки, даже только по электроэнергии и вероятности компа сдохнуть при загрузке сутками на 100%, может оказаться дороже премиум-тарифов Яндекса.

speeck
Обыватель

Yandex TTS

#427

Сообщение speeck »

GwentDaily писал(а):
30 июл 2020 00:26
Пока бесплатные голоса не прикрыли можно не париться. anton_samokhvalov лучше озвучивает чем реализация от эхо. И занимает это 5-10 минут
Но все же бесплатная реализация от тов. Эхо это круче пока-бесплатного сервиса от Яндекса, это надо признать. Вопрос к качеству.
Еще особо интересно то, что модель синтеза которую использует Эхо, от некоторого корейца, можно связать с любым независимо собранным дата-сетом, и писать книги практически любым голосом, если я правильно понял. Это очень круто, но вопрос к качеству не закрыт :dont_know:

Аватара пользователя
konsys
Прохожий

Yandex TTS

#428

Сообщение konsys »

Если есть у кого готовый для сборки конструктор для Deep Voice
скиньте плиз (желательно с инструкцией по установке)

Ответить

Вернуться в «Онлайн-сервисы для синтеза речи»