Интернет магазин китайских планшетных компьютеров



Компьютеры - Клонирование голоса - Услуга через сайт и телефон

23 января 2011


Оглавление:
1. Клонирование голоса
2. Услуга через сайт и телефон
3. Применение



Ранее, некоторые компании предлагали на коммерческой основе услугу изменения голоса абонента по телефону в режиме реального времени. Производилось это следующим образом:

  1. Предварительно абонентом на web-сайте заказывался обратный звонок на свой телефон и звонок на телефон «мишени копирования» и системе предоставлялись образцы голосов заказчика и «мишени копирования»;
  2. Затем абонент заказывал обратный звонок на свой телефон и телефон интересующего его абонента. Система соединяла абонента, сигнал от него проходил через сервер компании, где менялись частотные характеристики и тембральная окраска голоса на параметры голоса человека — «мишени копирования». Абонент слышал слова заказчика, но для него эти слова звучали голосом человека — «мишени копирования».

Описание технологии

Технология клонирования речи в условиях телефонного разговора в режиме реального времени базируется на известных алгоритмах математической обработки сигнала-носителя голоса. При этом используются методы DFT анализа частот в дискретном сигнале, полученном оцифровкой аналогового телефонного сигнала с применением узкополосного речевого кодека G.729. Синтез измененной речи на основе сигнал-носителя, то есть получившийся «клонированный голос» реализует возможность максимального сохранения персональных акустических характеристик копируемого исходного голоса: фонетических особенностей произношения, акцента и даже артефактов такого рода, как заикание. Таким образом идентифицировать искусственность говорящего невозможно даже при специальной обработке и математическом анализе исходного телефонного сигнала. Незаконное использование технологии клонирования речи строго исключается в соответствии со специальной программой защиты он-лайн сервиса, предоставляющего данную услугу. Описываемая технология клонирования голоса в телефонных сетях являелась, по утверждению создателей, новейшим продуктом, не имевшим аналогов ранее.

Предшествующий уровень

Существующие сейчас системы создания машинной речи хорошо зарекомендовали себя в определенных технических нишах: в навигационных системах автомобилей, наручных часах, электронных «читающих» словарях-переводчиках и так далее. В подобных системах не ставится задача подражания голосу конкретного человека, поэтому получаемая машинная речь также не является персонифицированной, и легко узнается по причине своего ярко выраженного искусственного происхождения.

Ранее попытки синтезировать речь конкретного человека базировались на принципе создания «ядра» речевого клона, который содержит полный набор акустических, фонетических и просодических признаков — индивидуальных особенностей речи. Для этого требовалось наличие довольно подробной персонифицированной базы данных «копируемого» голоса. Человеку, голос которого требовалось скопировать, необходимо было прочитать длинный подготовленный текст, специально разработанный и содержащий в себе большое количество фонем, для максимального выявления особенностей речи говорящего.

Это представляло определенные трудности, так как известно, что обычный человек утомляется даже после 15-ти минут непрерывного чтения, а после 20 минут чтения его голос может и вовсе сорваться. Даже для профессионального диктора 45 минут непрерывного чтения с сохранением всего комплекса индивидуальных характеристик речи — довольно трудная задача. Требования к качеству записи голоса также предъявлялись весьма высокие — требовалось исключение различного рода шумов, способных помешать моделированию. Полученная таким образом персонифицированная запись исходного голоса подвергалась частотному анализу и математической обработке, причем вычислительный процесс часто занимал не одни сутки. После этого индивидуальная база данных голоса конкретного человека могла использоваться синтезатором речи. Естественно, длительность процесса кодирования и главное — необходимость записи эталонной речи в условиях студии существенно сужало спектр применения системы копирования речи в обычных условиях.



Просмотров: 3379


<<< THX
BeOS >>>