Словари для IVONA TTS 1.6.75. Обсуждение, предложения

Два русскоязычных голосовых модуля от компании IVONA обладающие хорошим звучанием, неплохим качеством синтезируемой речи и поддерживающие SAPI-5 с частотой 22 КГц.

Модераторы: good_cat, wasyaka

Ответить
Аватара пользователя
Fenix
Администратор

Словари для IVONA TTS 1.6.75. Обсуждение, предложения

#1

Сообщение Fenix » 28 июн 2018 11:00

В этой теме обсуждаем всё связанное со словарями.

good_cat писал(а): Nov 26 2017
skreb писал(а):Выложенные Вами Словари *.rex, *.dic для программ "Balabolka" и ''Demagog" подходят для только голоса Алёна или для голосов Максим и Татьяна тоже?
Расстановка ударений в текстах для этих голосов одинаковое - прописной (заглавной) гласной буквой.
Поэтому можно использовать без сомнений.


skreb писал(а):Существует ряд словарей Dic, Rex, Pls, Hmg. Для полноты понимания, объясните, пожалуйста, просто (как для чайника), их назначение, применение, все ли они нужны для озвучки, допустим, Максимом в «Балаболке».
Файлы Hmg - это файлы со списком омографов и правилами расстановки ударений.
Пример фрагмента словаря

Код: Выделить всё

спешил=спЕшил,спешИл
спешила=спЕшила,спешИла
спешили=спЕшили,спешИли
спешило=спЕшило,спешИло
спешим=спЕшим,спешИм
спешит=спЕшит,спешИт
спешите=спЕшите,спешИте
спешить=спЕшить,спешИть
спешишь=спЕшишь,спешИшь
спешу=спЕшу,спешУ
По этим словарям обрабатываются омографы в тексте, в частности, программой "Homograph". Они могут быть разные по наполняемости.

Файлы Pls - это словари для синтезатора речи IVONA TTS. В них содержатся правила озвучивания записанных в них слов. С помощью этих словарей корректируется произношение слов.

О словарях Dic, Rex почитайте в теме диалоги с автором программы "Demagog", я лучше не смогу обьяснить. В этой же теме есть ссылка на ответ автора программы "Balabolka".
flegont писал(а):
skreb писал(а):Для полноты понимания, объясните...
Для начала, попробуйте просто послушать, как читает Максим вообще без словарей. Вполне вразумительно.

У меня, к примеру, Максим версии 74 и (до последнего времени) ни одного подключенного словаря. Ни пресловутых PLS, ни rex, ни dic. Да, Максим иногда делает ошибки в ударениях и, изредка, читает в слове букву "е" там, где подразумевается "ё". Где-то так 3-4 ошибочки на страницу.
Через некоторое время, когда красота голоса (а он, довольно качественный, смею заметить) уже не будет так изумлять и восхищать, некоторые постоянные ошибки уже начнут слегка раздражать. Или даже не слегка... Вот тогда и наступит время подумать о подключении словарей.

Тут главное - без фанатизма!

"Исправлять надо лишь то, что раздражает" (с) В. Шойтов-Харитановский - автор программы MP3book2005

Лично я, кроме словаря-ёфикатора, расставляющего букву "ё" вместо "е" везде, где она точно должна быть, пользуюсь еще словарем омографов, чтобы вручную разобраться с омографом "все/всё". Он - самый нервирующий, на мой взгляд. И - самый частый, около 50% случаев.

Итак:
1) словарь-ёфикатор
2) словарь омографов для ручной правки вот этой бандитской десятки Ё-омографов: все перед всем слезы села небо чем-то жены сестры берег

Осталось рассказать, как я борюсь с ошибками ударения Максима. Тут я - кустарь-одиночка. Никого, конечно, не призываю следовать своему примеру.

Есть у меня маленький словарик Maxim-ipa.dic, который постепенно пополняется. Для предъявления на всеобщее обозрение он пока не готов.
Но принцип его - тот же, что описан good_cat в руководстве по созданию аудиокниг: вставка управляющего тега прямо в текст. Например, Максим упорно читает: в своей дУше вместо в своей душЕ Исправляется это добавлением в мой словарик вот такого правила:
*ей душе=ей <phoneme alphabet="ipa" ph="dʊʂˈe"/>

И т.д. и т.п.

В общем, повторю еще раз: не надо торопиться сразу подключать любой словарь, подвернувшийся под руку.
"Лучше ничего не делать, чем сделать что-нибудь не так" (с) Лайф-хак от легионеров Римской империи.


tonio_k писал(а):Хочу поделиться такой своей находкой

в файле 2_corector_ivona_ru.rex - из mytts_dic_rex.zip
п. 12.4. "Коррекция букв в словах кроме аббревиатур". Оно делает все слова в книге с маленькой буквы.

Если это правило сработает в самом начале обработки текста, то все правила типа: $И все?=И всЁ? не будут работать так как они привязаны к регистру. Если его запустить в самом конце, то правила типа вдоль облака=вдоль Облака потеряют смысл, так как всё опять заменится на облака.

Выход из ситуации я для себя нашел такой:

Сначала содержимое п. 12.4. в файле 2_corector_ivona_ru.rex надо заремарить или удалить ( только правила с буквами русского алфавита) иначе дальнейшее не имеет смысла.

Теперь создадим 3 файла


1) Постобработка резервируем омографы с ударением на 1 букву.DIC

одна из строк файла:
$Облака=zfkrfdgkzl1138
где каждому омографу я присваиваю уникальный код.
В файле собраны ВСЕ Омографы, у которых ударение падает на первую букву.
я их вытащил из файла all_omographs.hmg - тот что идет с программой Homograph.

2) Постобработка смена регистра.REX
это скопированный п. 12.4.
одна из строк файла:
@\b[О]([^А-ЯЁ\d]+)=о$1
меняем на нижний регистр все первые буквы слов в тексте

3) Постобработка восстановление омографы с ударением на 1 букву.DIC
тут делаем обратную операцию к п. 1
одна из строк файла:
zfkrfdgkzl1138=Облако

Теперь запускаем их строго друг за другом по порядку в самом конце обработки книги.
т.е. не кидаем скопом в папку со словарями, а именно сначала получаем текст по первому правилу, и полученный текст обрабатываем следующим правилом. Так как 2 по порядку это REX словарь.

Альтернатива - тогда можно будет, действительно, кинуть все в одну папку со словарями и поставить галочку напротив. Тогда балаболка / демагог сделает разом, это если второй файл будет .DIC а правила в нем будут типа $О*=о, но тогда у вас могут абривиатуры поплыть типа сССР или бАМ

Вот и всё. Все слова будут в маленькой буквы, а нужные нам омографы, с ударением на первую букву, - останутся без изменений.

у кого возникает проблема с "быстрым проговариванием без паузы на одном дыхании" оглавление текста в начале книги типа:
Роман Злотников
ШАГ К ЗВЕЗДАМ
Пролог
Блаблабла....конец книги.

в 2_corector_ivona_ru.rex нужно добавить строчку
([A-Za-zА-яЁё]|\,)(\r)(\n)=$1<silence msec="500"/>

Аватара пользователя
tonio_k
V.I.P.

Re: Словари для IVONA TTS 1.6.75 (Татьяна и Максим)

#2

Сообщение tonio_k » 02 июл 2018 13:25

в словарь 3_vse_vsyo.rex рекомендую в самом начале словаря поставить строку:
\bвсё\b=всеъ, а в самом конце строку:\bвсеъ\b=всё
Что это даст? Если автор книги в тексте сам расставил бувы ё в словах все=всЁ, то эти выше указанные строки резервируют от ошибочных исправлений

Аватара пользователя
wasyaka
V.I.P.

Re: Словари для IVONA TTS 1.6.75 (Татьяна и Максим)

#3

Сообщение wasyaka » 02 июл 2018 21:52

tonio_k писал(а):
02 июл 2018 13:25
\bвсё\b=всеъ, а в самом конце строку:\bвсеъ\b=всё
Т. е. все на всё ошибочно исправлять допускается? :up: :big_smile: А словарик отключить? :suspect:

Аватара пользователя
wasyaka
V.I.P.

Словари для IVONA TTS 1.6.75. Обсуждение, предложения

#4

Сообщение wasyaka » 16 окт 2018 21:20

tonio_k писал(а):
16 окт 2018 09:47
словарь 3_vse_vsyo.rex условно состоит из 2 разделов:
vse_vsyo.rex как и chisla.rex - это своего рода наставление: начальный набор - далее если "вкуриш" тему относительно просто улучшить.
Я попытался:
1. все=>всЕъ(dic) -изначально правильное Е
2. все=>всЁъ(dic) -изначально правильное Ё
3. все=>всЁ(rex) - всё что может применится к всё
4.всЁ=>всЕ(rex) - вторичный фильтр
5 всЕ=>всЁ(rex) - вторичный фильтр
6.всЕ,всЁ=>всЕ(rex) - фильтр третьего уровня
7.всЕ=>всЁ(rex) - фильтр четвёртого уровня
8.всё=>всеъ(dic) - фильтр пятого уровня
В остатке фразы которые вносить в словарь не имеет смысла...
Я слушаю, именно слушаю, а не как фон, чтоб заполнить уши, - все ошибки фиксирую и редактирую-дополняю, если есть смысл...

Аватара пользователя
tonio_k
V.I.P.

Словари для IVONA TTS 1.6.75. Обсуждение, предложения

#5

Сообщение tonio_k » 16 ноя 2018 11:51

Иногда правила не срабатывают, когда в тексте между тире и словом отсутствует пробел.
Корректировка для таких случаев(словарь rex):

Код: Выделить всё

# Исправление "прилипания" тире к слову типа: "именно.- для" или "именно: -для" или "именно- для"
(\w+\S?)\s\-(\w+)=$1 - $2
(\w+\S?)\-\s(\w+)=$1 - $2

Аватара пользователя
tonio_k
V.I.P.

Словари для IVONA TTS 1.6.75. Обсуждение, предложения

#6

Сообщение tonio_k » 20 фев 2019 00:01

Меня раздражало, как Максим произносит слова типа:
► Показать
своей четкой произносимой тО хотя вслух мы произносим примерно:
все варианты словосочетаний с -то в словаре фонем не запишешь.
Для себя решил вопрос такой заменой:

Код: Выделить всё

(\w+)-то\b=$1-тоъ
Стало звучать приятнее

Ответить

Вернуться в «Ivona Татьяна и Максим»