Устройство автоматического распознавания диктора по речи

Номер патента: U 6754

Опубликовано: 30.10.2010

Авторы: Аль-Хатми Мохаммед Омар, Зельманский Олег Борисович

Скачать PDF файл.

Текст

Смотреть все

(51) МПК (2009) НАЦИОНАЛЬНЫЙ ЦЕНТР ИНТЕЛЛЕКТУАЛЬНОЙ СОБСТВЕННОСТИ УСТРОЙСТВО АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ ДИКТОРА ПО РЕЧИ(71) Заявитель Учреждение образования Белорусский государственный университет информатики и радиоэлектроники(72) Авторы Зельманский Олег Борисович Аль-Хатми Мохаммед Омар(73) Патентообладатель Учреждение образования Белорусский государственный университет информатики и радиоэлектроники(57) Устройство для автоматического распознавания диктора по речи, включающее источник речевого сигнала, блок определения параметрического описания речевого сигнала в виде выделителя начала/конца речевого сигнала, сегментатора речевого сигнала на последовательность сегментов, блока умножения на взвешивающее окно, блока добавления к сигналу в сегменте нулей, вычислителя преобразования Фурье и формирователя параметрических описаний входного речевого сигнала, соединенных последовательно, коммутатор, блок сравнения параметрических описаний эталона и входного речевого сигнала,блок принятия решения о распознаваемом дикторе и запоминающее устройство, при этом источник речевого сигнала подключен к блоку определения параметрического описания речевого сигнала, выход которого соединен с входом коммутатора, первый выход которого подключен к первому входу блока сравнения параметрических описаний эталона и входного речевого сигнала, а второй выход соединен с входом запоминающего устройства, выход которого подключен ко второму входу блока сравнения параметрических описаний эталона и входного речевого сигнала, выход которого соединен с входом блока принятия решения о распознаваемом дикторе, выход которого является выходом устройства в целом, отличающееся тем, что блок определения параметрического описания речевого сигнала дополнительно содержит блок вычисления спектральной оценки сигнала,вход которого соединен с выходом вычислителя преобразования Фурье, а выход - с первым входом формирователя параметрических описаний входного речевого сигнала, блок вычисления автокорреляционной функции сигнала, блок вычисления огибающей сигнала,при этом их входы соединены с выходом блока умножения на взвешивающее окно, а выходы подключены к остальным входам формирователя параметрических описаний входного речевого сигнала, блок сравнения параметрических описаний эталона и входного речевого сигнала выполнен в виде блоков сравнения значений спектральной оценки сигнала, автокорреляционной функции сигнала, огибающей сигнала с эталонными значениями, Фиг. 1 67542010.10.30 входы которых соединены с соответствующими входами блока сравнения параметрических описаний эталона и входного речевого сигнала, а выходы соединены с входом блока принятия решения о распознаваемом дикторе. Полезная модель относится к области техники исследования речи, а именно к устройствам автоматического распознавания диктора по речи, и может быть использована для ограничения несанкционированного доступа и удаленного распознавания пользователей с использованием биометрических параметров. Известен способ автоматической идентификации личности по особенностям произношения парольной фразы этой личностью 1, заключающийся в том, что речевой сигнал разбивают на вокализованные зоны, выделяют временные интервалы в вокализованных зонах, для этого определяют параметры речевого сигнала, сравнивают их с эталонами, которые формируют с учетом математических ожиданий и допустимых разбросов этих параметров, для чего в конце первой, начале последней, в начале и конце остальных вокализованных зон выделяют временные интервалы, длительность временных интервалов устанавливают кратной периоду основного тона речевого сигнала, определяют оценки коэффициентов корреляции параметров речевого сигнала, которые включают в число сравниваемых с эталонами, при формировании эталонов дополнительно учитывают коэффициенты корреляции параметров речевого сигнала. Корме того, дополнительно вводят и обрабатывают речевой сигнал с ларингофона, контактирующего с телом говорящего. На основании отклика нейронной сети, на входы которой одновременно предъявляют параметры речевого сигнала и оценки коэффициентов корреляции этих параметров, принимают решение по идентификации личности. Недостатком известного способа идентификации личности 1 является низкая помехоустойчивость метода, так как для его работы требуется выделение во входном речевом сигнале точного положения границ основного тона голоса, что в условиях наличия акустических помех практически невозможно. Известны метод и устройство распознавания речи 2, использующие множественные акустические модели, и аппарат, реализующий этот метод и содержащий источник речевых сигналов (микрофон и процессор предварительной обработки), блок первичного выделения параметров речи, блок выделения сегментов шума и сегментов речи, блок определения типа шума и выбора акустической модели, устройство хранения данных о параметрах, блок устранения шума, блок вторичного анализа параметров речи, блок устранения шума по методу нормализации усреднением кепстра, блок хранения акустических моделей, блок хранения моделей языка и блок распознавания речи. Недостатком предложенных в 2 метода, программы и аппарата распознавания речи является многоступенчатая процедура анализа входных воздействий, сходимость которой к конкретному результату в патенте не проанализирована. В патенте нет сведений о возможности применения предложенных в нем средств для распознавания (или идентификации) дикторов. Наиболее близкими к предлагаемому устройству являются способ и устройство распознавания диктора 3, совпадающие с заявляемым устройством по наибольшему числу существенных признаков и принятые за прототип. В основу заявленного в 3 способа распознавания диктора положено сравнение входного речевого сигнала неизвестного диктора с заранее сохраненными эталонами, представляющими собой речевой сигнал голосо 2 67542010.10.30 вых паролей, произносимых заранее известными дикторами. Известное устройствопрототип включает в себя источник речевого сигнала, блок определения параметрического описания речевого сигнала в виде выделителя начала/конца речевого сигнала, сегментатора речевого сигнала на последовательность сегментов, блока умножения на взвешивающее окно, блока добавления к сигналу в сегменте нулей, вычислителя преобразования Фурье, вычислителя спектра мощности сигнала в сегменте, блока определения формантного вектора текущего сегмента и формирователя параметрических описаний входного речевого сигнала, соединенных последовательно, коммутатор, блок сравнения параметрических описаний эталона и входного речевого сигнала, блок принятия решения о распознаваемом дикторе и запоминающее устройство. Недостатком такого устройства является то, что оно все еще не обеспечивает запросы практики по надежности распознавания звуков речи и дикторов. Задачей данной полезной модели является, при сохранении в ее составе основных функциональных узлов и достоинств устройства-прототипа, увеличение помехоустойчивости, уменьшение вероятности ошибок распознавания звуков речи и повышение на этой основе надежности распознавания речевых сигналов и дикторов, включая возможность их идентификации. Поставленная задача решается тем, что в устройстве для автоматического распознавания диктора, включающем источник речевого сигнала, блок определения параметрического описания речевого сигнала в виде выделителя начала/конца речевого сигнала,сегментатора речевого сигнала на последовательность сегментов, блока умножения на взвешивающее окно, блока добавления к сигналу в сегменте нулей, вычислителя преобразования Фурье и формирователя параметрических описаний входного речевого сигнала,соединенных последовательно, коммутатор, блок сравнения параметрических описаний эталона и входного речевого сигнала, блок принятия решения о распознаваемом дикторе и запоминающее устройство, при этом источник речевого сигнала подключен к блоку определения параметрического описания речевого сигнала, выход которого соединен с входом коммутатора, первый выход которого подключен к первому входу блока сравнения параметрических описаний эталона и входного речевого сигнала, а второй выход соединен с входом запоминающего устройства, выход которого подключен ко второму входу блока сравнения параметрических описаний эталона и входного речевого сигнала, выход которого соединен с входом блока принятия решения о распознаваемом дикторе, выход которого является выходом устройства в целом, блок определения параметрического описания речевого сигнала дополнительно содержит блок вычисления спектральной оценки сигнала, включенный между вычислителем преобразования Фурье и формирователем параметрических описаний входного речевого сигнала, блоки вычисления автокорреляционной функции сигнала, огибающей сигнала, включенные параллельно друг другу между блоком умножения на взвешивающее окно и формирователем параметрических описаний входного речевого сигнала, блок сравнения параметрических описаний эталона и входного речевого сигнала выполнен в виде блоков сравнения значений спектральной оценки сигнала,автокорреляционной функции сигнала, огибающей сигнала с эталонными значениями,входы которых подключены к соответствующим входам блока сравнения параметрических описаний эталона и входного речевого сигнала, а выходы соединены с входом блока принятия решения о распознаваемом дикторе. Сущностью устройства является то, что в нем рассчитываются классификационные параметры сигнала как во временной области, а именно огибающая сигнала, значение автокорреляционной функции сигнала, так и параметр в частотной области, а именно изменение спектра сигнала. На фиг. 1 представлена функциональная схема устройства автоматического распознавания диктора по речи. На фиг. 2 приведена функциональная схема входящего в состав устройства автоматического распознавания диктора по речи блока определения параметрического описания речевого сигнала. 67542010.10.30 В соответствии с фиг. 1 устройство автоматического распознавания диктора содержит источник речевого сигнала в цифровой форме 1 с выходом 2 на блок определения параметрического описания речевого сигнала 3 с выходом 4 на коммутатор 5, блок запоминающего устройства для хранения эталонов параметрического описания речевого сигнала заранее известных дикторов 8 с входом 7, блок сравнения параметрических описаний эталона и входного речевого сигнала 10 с входами 6 и 9 и выходом 11, блок принятия решения о распознаваемом дикторе 12, выход 13 которого является выходом системы в целом. Для увеличения достоверности распознавания диктора в блок определения параметрического описания речевого сигнала 3 устройства автоматического распознавания диктора (фиг. 2), содержащий выделитель начала/конца речевого сигнала 14, сегментатор речевого сигнала на последовательность сегментов 15, блок умножения на взвешивающее окно 16, блок добавления к сигналу в сегменте нулей 17, вычислитель преобразования Фурье 19 и формирователь параметрических описаний входного речевого сигнала 22, введены блок вычисления спектральной оценки сигнала 21, блок вычисления автокорреляционной функции сигнала 18, блок вычисления огибающей сигнала 20. Работа блока определения параметрического описания речевого сигнала 3 происходит следующим образом. Из аудиосигнала, поступающего на вход 2 блока определения параметрического описания речевого сигнала (фиг. 1), при помощи выделителя начала/конца речевого сигнала 14 происходит формирование речевых участков, которые передаются в сегментатор речевого сигнала на последовательность сегментов 15. Сегментатор осуществляет формирование временных сегментов, содержащих отсчеты входного сигнала, и фильтрацию сигнала в этих сегментах с помощью полосового фильтра с полосой пропускания 0,3-3,4 кГц, которая соответствует частотному диапазону речевого сигнала. После умножения на взвешивающее окно в блоке 16 сегменты речевого сигнала поступают в блок добавления к сигналу в сегменте нулей 17, а также в блоки расчета классификационных параметров, а именно в блок вычисления автокорреляционной функции сигнала 18, блок вычисления огибающей сигнала 20. Добавление к сигналу в сегменте нулей обусловлено требованием четности для осуществления быстрого дискретного преобразования Фурье, выполняемого в вычислителе преобразования Фурье 19, результаты которого передаются в блок вычисления спектральной оценки сигнала 21, результатом работы которого является оценка динамики изменения спектра сигнала. Рассчитанные значения классификационных параметров поступают на входы формирователя параметрических описаний входного речевого сигнала 22, выход которого соединен с входом коммутатора 5. Совместное применение спектрального и временного анализов позволило создать надежное устройство автоматического распознавания диктора по речи, обеспечивающее высокоточные результаты. Данное устройство функционирует в режиме реального времени благодаря высокой скорости обработки аудиосигнала. Фиг. 2 Национальный центр интеллектуальной собственности. 220034, г. Минск, ул. Козлова, 20. 4

МПК / Метки

Авторы: Татур Михаил Михайлович, Жолтиков Руслан Романович

МПК: G06K 9/00

Метки: образов, корреляционного, бинарных, устройство, распознавания

Текст:

...ошибки для символов К, И, Н и т.д.Полезная модель направлена на повышение вероятности распознавания или, что то же самое, на снижение вероятности ошибки при распознавании бинарных изображений, нечетко совпадающих с эталоном.При неполном совпадении распознаваемого изображения с эталоном часть пикселей эталона, расположенных на границе объекта и фона, являются менее информативными,чем остальные пиксели изображения. Исключение этих пикселей из...

Предыдущий патент: Электротоковое микрореле

Следующий патент: Лазер с оптическим параметрическим генератором

Случайный патент: Устройство для приготовления, хранения и отгрузки топливоводяной эмульсии

Устройство автоматического распознавания диктора по речи

Текст

МПК / Метки

Код ссылки

О сайте

Архивы

Контакты