Rambler's Top100
 поиск по сайту:

Пара слов о речи

Автор: Михаил Брауде-Золотарев
Опубликовано в журнале "Компьютерра" №15 от 12 апреля 1999 года

В этой теме мы попытались взглянуть на проблемы обработки речи с технологической точки зрения. Обзоров прикладных программных продуктов, работающих с речью, опубликовано немало, в том числе и в "Компьютерре", но на саму речь - как на "объект", подлежащий обработке, - внимание обращают реже. А он весьма и весьма интересен.


Если механизм речеобразования более или менее изучен, то в отношении восприятия человеком звуков ясности совсем немного. Вероятно, потому, что точно разделить, где кончается физиология восприятия, а где начинается обработка, "подцепляющая" интеллект и культурный опыт слушателя, невозможно, и именно поэтому лучше говорить о психофизиологии восприятия. С этой тонкостью постоянно сталкиваются разработчики речевых алгоритмов - скажем, повсеместно используемый в технике среднеквадратический критерий в качестве меры близости сигналов для речи подходит довольно плохо, и используют его только потому, что ничего лучше не предложено. Известен также эффект привыкания (обучения) слушателя, когда звучание какого-либо кодека, показавшееся при первом с ним столкновении неприемлемым, со временем становится настолько привычным и комфортным, что замена его на более качественный может вызвать протест и недовольство. Хороший пример тому - пользователи первых вокодеров, на первых порах не желавшие признавать преимущества более совершенных кодеков.

 
ИКМ, вокодеры, далее везде

Если передавать оцифрованную речь "как есть", не подвергая ее никакой обработке, то для сохранения "телефонного" качества звучания потребуется пропускная способность канала на уровне 100 кбит/с. Проецируя полученное число на скорость твоего, читатель, модемного соединения, ты без труда поймешь, что при таком подходе поговорить "по Интернету" не удастся никак... А ведь для полного дуплекса - одновременной двустронней передачи речи - придется еще умножить 100 кбит/с на два!

Но сделав первый шаг в сторону сжатия и применив элементарную (и вычислительно, и концептуально) обработку по рекомендации G.711 1960 года Международного союза электросвязи (ITU), мы уже получим скорость передачи 64 кбит/с. Процедура, называемая логарифмической импульсно-кодовой модуляцией (ИКМ), такова: отсчеты аналоговой речи дискретизируют и квантуют на базе 8-разрядной нелинейной логарифмической шкалы, имеющей малый шаг квантования на слабых сигналах и увеличенный на сильных, чем достигается эффект независимости шумов квантования от уровня сигнала. Эта очень простая и эффективная технологияпередачи речи по цифровым сетям применяется и поныне.

Что ж, 64 кбит/с немного лучше, чем 100, но именно немного. Настоящее сжатие речи - некая ее обработка, приводящая к сокращенному цифровому описанию, сохраняющему требуемые параметры качества, - появилось позднее. Традиционно устройства, реализующие такое сжатие, называются вокодерами, или кодеками речи (и то, и другое от англ. voice coder-decoder).

Первым таким устройством, фильтровавшим спектр речи с интервалом в 20-30 мс на несколько полос, в каждой из которых измерялась энергия, стал параметрический вокодер Дадли. На каждом интервале определялась характеристика речи "звонкая-глухая" и, в случае звонкой речи, частота основного тона. Эти параметры вместе с общей оценкой громкости передавались на прием. Декодер по полученным параметрам с помощью соответствующих фильтров восстанавливал речь - фильтры возбуждались импульсами соответствующей величины, следующими с интервалами основного тона, а при воспроизведении глухих звуков - шумом. Спектр полученного в результате звука был похож на спектр исходной речи, что обеспечивало высокую разборчивость и низкую скорость (до 2,4 кбит/с), но качество вокодерной речи было очень плохим. Резкие изменения спектральных параметров на границах интервалов, грубые переходы между глухими и звонкими звуками, неточная передача основного тона, неспособность воспроизводить частично приглушенные звуки и другие "свойства" значительно снизили возможности узнавания голоса и придавали речи неестественный характер. Хотя в одном телефонном канале можно было передать несколько вокодерных, из-за своей сложности и недостаточной надежности аппаратуры вокодерная телефония в сетях общего пользования применения не получила.

Чтобы повысить качество, в некоторых вокодерах низкочастотную часть спектра придумали передавать обычным путем, без параметрического кодирования. Благодаря неискаженной передаче первых гармоник основного тона у полувокодеров, как их назвали, достигалось более естественное звучание и качество речи, хотя широкого применения они не получили. Оценка качества звучания такого вокодера была на уровне 1-2 баллов по пятибалльной шкале MOS.

Критерий MOS (mean opinion score - усредненная субъективная оценка) используется как альтернатива "технократическому" среднеквадратическому критерию, не в полной мере отражающему истинное качество синтеза речи. Испытания для получения MOS проводятся на репрезентативном речевом материале, произносимом дикторами с разными голосами. Оценка слушателями выставляется по принципу: 1 - плохо, 2 - посредственно, 3 - удовлетворительно, 4 - хорошо, 5 - отлично. В тестах должно участвовать достаточное число неподготовленных слушателей (минимум 40), чтобы полученные ими выводы были представительны. Провести такое испытание, кстати, под силу только крупным организациям, так как оно не только дорого, но и требует крайне высокой грамотности от организаторов испытания. - Ю.Б.-З.


Ведущие игроки на рынке обработки речи хорошо известны и всячески продвигают свои стандарты. Например - многоплатформный Speech Recognition API (SRARI), поддерживающий распознавание, синтез речи и некоторые другие прикладные речевые задачи. В разработке SRARI участвуют Novell, Dragon Systems, IBM, Intel и множество других компаний (Microsoft, как водится, идет своим путем, предлагая собственный API).

А что вообще можно делать с речью? По большому счету, технологий обработки всего три. Первая из них - сжатие речи (темапервой статьи) - весьма специфична и внешне схожа с той, что решают многочисленные программы-архиваторы. Но хоть и схожа, а на деле совсем иная: попробуйте, записав с помощью микрофона и звуковой карты пару слов, обработать их архиватором. Хорошего сжатия вы не получите из-за специфики избыточности речи. Собственно, все специализированные сжимающие алгоритмы тем и занимаются - устраняют заложенную в речи избыточность, а вот архиваторы распознавать ее не умеют. Области применения сжатия речи - это все те задачи, где требуется ее передача по каналу связи или, что в статье не упоминается, хранение, например, в аудиоархивах. Область тоже огромная и только зарождающаяся, так как раньше в отсутствиедешевых и экономичных кодеков и носителей информации ее развитие было просто невозможно. Еще одна намеренно исключенная область - сжатие высококачественной широкополосной речи (и музыки). Это слишком большой и отдельный вопрос, так как подходы там во многом другие, да и скорости передачи отличаются на порядки. Возможно, мы еще уделим этому внимание, например, в рамках обсуждения технологии МР3.

Распознавание речи - вторая статья темы номера, - наверное, самая "волнующая" из всех. Оптимизм по поводу распознавания в 70-е годы достиг такого уровня, что, казалось, вот-вот и мы получим новый интерфейс с машинами, но до сих пор пока что-то не получается... Проблемы все те же - нереализуемость для машины функции распознавания смысловой и интонационной нагрузки речи и недостаточная надежность ввода, отягощенная к тому же довольно специфичными требованиями к акустическим свойствам помещения и произношению диктора. Поэтому в статье Елены Галяшиной в большей степени рассматриваются "технологические" вопросы распознавания, а не прикладные свойства доступных на рынке систем. Что-то прикладное, конечно, постепенно "прорастает" - на сегодня областями применения речевого ввода стали средства взаимодействия человек-машина для людей с физическими недостатками, например, с ослабленным зрением, а также отдельные компьютерно-телефонные системы (автоматизированный заказ билетов, получение справок и т. п.), работающие с ограниченным словарем, в который могут входить, например, всего десять цифр и несколько спецсимволов, имеющихся у телефонных аппаратов.

Но распознавание речи - это лишь одна, "вводная", часть интерфейса человека и машины. "Ответная" технология - синтез речи, необходимый для всевозможных систем интерактивного взаимодействия (компьютерная телефония, игры и пр.), стал третьей и последней затронутой нами темой. Тут тоже часто возникает путаница, так же как и с архиваторами, поскольку есть принципиальная разница между предварительно записанными речевыми фразами, выдаваемыми пользователям в соответствующих ситуациях, и "настоящим" синтезом, когда нужная фраза генерируется "на лету" по набору правил. Первый вариант, слов нет, хорош (ему, кстати, уделено должное внимание в третьей статье, где имеется прекрасный обзор истории "говорящих машин"), но требует много памяти и непригоден для озвучивания заранее неизвестных текстов. Интересующимся синтезом также могу предложить заглянуть в давнюю "КТ" #226 от 8 декабря 1997 года, в которой есть подборка статей по речевой тематике, в том числе и по синтезу речи, а также в тему номера "Идентификация личности" в "КТ" #288. Обратите внимание и на "КТ" #292, где в статье Дмитрия Симаненкова много внимания уделено спектральному анализу - основе основ обработки речи, а также в подготовленную им же тему номера "Цифра и звук" ("КТ" ##259, 260).

Сейчас, как и в 70-е, снова принято считать, что вскоре речевой интерфейс чуть ли не вытеснит традиционные клавиатуру и мышь. Прогресс, в самом деле, заметен, но оснований для избыточного "технооптимизма" я не вижу. Об этом, в частности, можно прочесть в статье про распознавание речи, а причина здесь та, о которой я уже говорил: процесс генерации и восприятия речи слишком сильно "завязан" на психофизиологию человека. По-моему, наибольшего прогресса стоит ждать на фронте сжатия речи, так как тут ставится относительно "чистая" задача - наилучшим способом повторить форму речевого сигнала безотносительно семантической и прагматической подоплеки сказанного. В задачах синтеза и особенно распознавания от этого ограничения избавиться труднее. Хотя, как ни крути, а перспективы применения речи в качестве универсального интерфейса очень заманчивы!

Логичным следствием сказанного и хорошим продолжением разговора, возможно, стал бы переход от темы речи как самостоятельного объекта к более общим вопросам коммуникации, языка и взаимосвязи всего этого с социокультурой и мышлением людей. Область менее техническая, но для техники более чем прикладная. Но это потом, и если получится, а пока займемся "чистой" речью.



Читайте на сайте тему номера Речь и другие статьи из журнала "Компьютерра" от 12 апреля 1999 года.

Обсудить статью в форуме (0)

Версия для печати | Послать другу | Написать в редакцию

Автор: Михаил Брауде-Золотарев. Другие статьи автора


Самый лучший IQ-тест

Весь мир куда-то глобализуется, и мы должны глобализоваться туда же, и отклонение хотя бы в деталях (и даже скорее в деталях и форме, чем в содержании) воспринимается как опасное вольнодумство; напротив, точное соблюдение подробностей крайне приветствуется нашими партнерами из Первого Мира и даже служит порой индульгенцией для несоответствия по существу.

Что такое "ум", "интеллект"и что измеряют тесты IQ?

Работники агентств по подбору персонала нередко встречаются с запросом типа: "Подберите мне не просто квалифицированного специалиста, а умного и хорошего человека".

Тесты, которые нас сортируют

В сегодняшней теме номера читатель познакомится с неожиданными результатами пристального анализа некоторых распространенных тестов IQ.

Желательно сироты

"Требуются молодые, тощие, выносливые парни не старше восемнадцати.

От пункта А к пункту Б

Чтобы понять, чем современные службы доставки отличаются от классической почты, я побеседовал с руководителями компаний, проехался с курьерами по маршруту и даже попытался отправить воображаемую книгу в совершенно реальный населенный пункт.

О проекте | Карта сайта | Реклама | Рассылки сайта | Контакты | Вакансии | Архив | КПК-версия
РЕГИОНАЛЬНАЯ КОМПЬЮТЕРРА | Подписка в регионах | RSS 2.0

© ООО "Компьютерра-Онлайн", 1997-2008
Редакция сайта: site@computerra.ru
Техподдержка сайта: websupport@computerra.ru
Редакция журнала: inform@computerra.ru
Отдел рекламы: reklama@computerra.ru
Телефон: (495) 232-22-61, (495) 232-22-63
Работает на «Битрикс: Управление сайтом»
Почта защищена сервером СПАМОРЕЗ

Сайт работает на сервере DEPO Computers

  TopList  Rambler's Top100



СЕГОДНЯ В "КОМПЬЮТЕРРЕ"

Интервью: чему учить российских "айтишников"  #

Дмитрий Дахновский, глава компании "Текама", занимающейся обучением разработчиков ПО, считает, что  от увеличения количества программистов и падения зарплат российская софтверная индустрия только выиграет.

Прочитать

Великие клавиатуры прошлого  #

Пока развитие компьютерных клавиатур не остановилось, каждая вычислительная машина имела собственную уникальную раскладку, отражавшую особенности её интерфейса.

Прочитать

Младшие братья медиацентра  #

Может ли миниатюрная приставка заменить медиацентр? Мы попытались это выяснить, протестировав одно из наиболее многообещающих устройств такого типа, и пришли к неутешительным выводам.

Прочитать

Гиды "Компьютерры-Онлайн"  #

- Мобильные браузеры. Opera Mini и шесть других веб-браузеров, предназначенных для работы на мобильных телефонах с поддержкой технологии Java 2 Micro Edition.

- Онлайновые переводчики и словари

- Четыре сервиса для обмена файлами: Box.net, Omnidrive, Yousendit и "Народ: диск".

- Текстовые редакторы для писателя. Между программированием и написанием статей или книг немало общего, но специализированные средства для авторов, похожие на программистские IDE, появились лишь недавно.

- Введение в наноблоговедение

Земля сисадминов  #

Сисадмины редко бывают героями книг. Фантастическая повесть Кори Доктороу "Когда сисадмины правили миром", публикацию которой начинает "Компьютерра-Онлайн", - исключение.

Прочитать

» Статьи, тестирования, обзоры
» Каталог "железа" - Цены

» Форум "Терралаба"