Интернет магазин китайских планшетных компьютеров



Компьютеры - Синтез речи

23 января 2011


Оглавление:
1. Синтез речи
2. История
3. ПО и ОС с поддержкой синтеза речи



в широком смысле — восстановление формы речевого сигнала по его параметрам; в узком смысле — формирование речевого сигнала по печатному тексту.

Применение синтеза речи

Синтез речи может потребоваться во всех случаях, когда получателем информации является человек.

  • Синтез речи по тексту или коду сообщения может быть использован в информационно-справочных системах, для помощи слепым и немым, для управления человеком со стороны автомата.
  • Для выдачи информации о технологических процессах: в военной и авиакосмической технике, в робототехнике, в акустическом диалоге человека с компьютером.
  • Как звуковой эффект нередко используется в создании электронной музыки.

Способы синтеза речи

Все способы синтеза речи можно подразделить на три группы:

  • параметрический синтез;
  • конкатенативный, или компиляционный синтез;
  • синтез по правилам.

Параметрический синтез

Параметрический синтез речи является конечной операцией в вокодерных системах, где речевой сигнал представляется набором небольшого числа непрерывно изменяющихся параметров. Параметрический синтез целесообразно применять в тех случаях, когда набор сообщений ограничен и изменяется не слишком часто. Достоинством такого способа является возможность записать речь для любого языка и любого диктора. Качество параметрического синтеза может быть очень высоким. Однако параметрический синтез не может применяться для произвольных, заранее не заданных сообщений.

Компиляционный синтез

Компиляционный синтез сводится к составлению сообщения из предварительно записанного словаря исходных элементов синтеза. Размер элементов синтеза не меньше слова. Очевидно, что содержание синтезируемых сообщений фиксируется объёмом словаря. Как правило, число единиц словаря не превышает нескольких сотен слов. Основная проблема в компилятивном синтезе — объёмы памяти для хранения словаря. В этой связи используются разнообразные методы сжатия/кодирования речевого сигнала. Компилятивный синтез имеет широкое практическое применение. За рубежом разнообразные устройства оснащаются системами речевого ответа. В нашей стране системы речевого ответа до недавнего времени использовались в основном в области военной техники, сейчас они находят всё большее применение в повседневной жизни, например, в справочных службах операторов сотовой связи при получении информации о состоянии счета абонента.

Полный синтез речи по правилам

Полный синтез речи по правилам обеспечивает управление всеми параметрами речевого сигнала и, таким образом, может генерировать речь по заранее неизвестному тексту. В этом случае параметры, полученные при анализе речевого сигнала, сохраняются в памяти так же, как и правила соединения звуков в слова и фразы. Синтез реализуется путём моделирования речевого тракта, применения аналоговой или цифровой техники. Причём в процессе синтезирования значения параметров и правила соединения фонем вводят последовательно через определённый временной интервал, например 5—10 мс. Метод синтеза речи по печатному тексту базируется на запрограммированном знании акустических и лингвистических ограничений и не использует непосредственно элементов человеческой речи. В системах, основанных на этом способе синтеза, выделяется два подхода. Первый подход направлен на построение модели речепроизводящей системы человека, он известен под названием артикуляторного синтеза. Второй подход — формантный синтез по правилам. Разборчивость и натуральность таких синтезаторов может быть доведена до величин, сравнимых с характеристиками естественной речи.

Синтез речи по правилам с использованием предварительно запомненных отрезков естественного языка — это разновидность синтеза речи по правилам, которая получила распространение в связи с появлением возможностей манипулирования речевым сигналом в оцифрованной форме. В зависимости от размера исходных элементов синтеза выделяются следующие виды синтеза:

  • микросегментный;
  • аллофонический;
  • дифонный;
  • полуслоговой;
  • слоговой;
  • синтез из единиц произвольного размера.

Обычно в качестве таких элементов используются полуслоги — сегменты, содержащие половину согласного и половину примыкающего к нему гласного. При этом можно синтезировать речь по заранее не заданному тексту, но трудно управлять интонационными характеристиками. Качество такого синтеза не соответствует качеству естественной речи, поскольку на границах сшивки дифонов часто возникают искажения. Компиляция речи из заранее записанных словоформ также не решает проблемы высококачественного синтеза произвольных сообщений, поскольку акустические и просодические характеристики слов изменяются в зависимости от типа фразы и места слова во фразе. Это положение не меняется даже при использовании больших объёмов памяти для хранения словоформ.



Просмотров: 3407


<<< Прямой доступ к памяти
Скроллинг >>>