Устройство распознавания диктора

Номер патента: U 4214

Опубликовано: 28.02.2008

Авторы: Воробьев Василий Иванович, Давыдов Геннадий Владимирович, Шамгин Юрий Васильевич, Лыньков Леонид Михайлович, Давыдов Андрей Геннадьевич

Скачать PDF файл.

Текст

Смотреть все

(51) МПК (2006) НАЦИОНАЛЬНЫЙ ЦЕНТР ИНТЕЛЛЕКТУАЛЬНОЙ СОБСТВЕННОСТИ(71) Заявитель Учреждение образования Белорусский государственный университет информатики и радиоэлектроники(72) Авторы Воробьев Василий Иванович Давыдов Андрей Геннадьевич Давыдов Геннадий Владимирович Лыньков Леонид Михайлович Шамгин Юрий Васильевич(73) Патентообладатель Учреждение образования Белорусский государственный университет информатики и радиоэлектроники(57) Устройство распознавания диктора, содержащее источник речевого сигнала, блок определения параметрического описания речевого сигнала, соединенные последовательно,коммутатор, блок сравнения параметрических описаний эталона и входного речевого сигнала, блок принятия решения о распознаваемом дикторе и запоминающее устройство эталонов параметрических описаний речевых сигналов дикторов и фазовых квазиинвариантов, при этом источник речевого сигнала подключен ко входу блока определения параметрического описания речевого сигнала, выход которого соединен с первым входом коммутатора,первый выход которого подключен к первому входу блока сравнения параметрических описаний эталона и входного речевого сигнала, а второй выход соединен с входом запоминающего устройства эталонов параметрических описаний речевых сигналов дикторов и фазовых квазиинвариантов, выход которого подключен ко второму входу блока сравнения параметрических описаний эталона и входного сигнала, выход которого соединен со входом блока принятия решения о распознаваемом дикторе, выход которого является выходом устройства в целом, отличающееся тем, что дополнительно содержит блок межкомпонентной фазовой обработки речевого сигнала, выполняющий вычисление фазового квазиинварианта,под которым понимается совокупность разностей фаз между квазигармоническим колебанием на частоте основного тона и обертонами, вход которого подключен к выходу источника речевых сигналов, а выход - ко второму входу коммутатора.(56) 1. Мясников Л.Л. Объективное распознавание звуков речи // Журнал технической физики. - Т. . - Вып.3. - 1943. - С. 709-715. 2. Мясников Л.Л., Мясникова Е.Н. Автоматическое распознавание звуковых образов. Л. Энергия, 1970. - С. 183 - С. 135-138. 3. Патент 7,065,487 В 2, МПК 10 19/10. 4. Патент 2 230 375 С 2, МПК 10 15/00, 17/00. 5. Воробьев В.И., Давыдов Г.В., Шамгин Ю.В. Фазовые соотношения между основным тоном и обертонами гласных звуков // Доклады БГУИР. -2. - 2006. - С. 64-68. 6. Воробьев В.И. Межкомпонентная фазовая обработка речевых сигналов для их распознавания и идентификации дикторов. Акустика речи. Медицинская и биологическая акустика. Архитектурная и строительная акустика Шумы и вибрации. Сб. тр.сессии Российского акустического общества. Т 3. - М. ГЕОС, 2006. - С. 48-51. Полезная модель относится к устройствам распознавания диктора и может быть использована для распознавания дикторов с целью ограничения несанкционированного доступа к материальным и информационным ресурсам, а также, например, для снижения вероятности ошибок при преобразовании речи в текст. Известно устройство автоматического распознавания звуков речи 1, 2, содержащее источник речевых сигналов, подключенный к входу усилителя, выход которого подключен к попарному набору полосовых фильтров, предназначенных для выделения первой,второй и третьей формант звуков речи. Выходы фильтров через выпрямители подключены к кодирующему устройству, выполненному на электронных балансных реле. Выходы кодирующего устройства подключены к блоку принятия решения о распознаваемом звуке. Недостатком такого устройства является сравнительно низкая (75-80)вероятность распознавания гласных звуков 1 и лишь предположительная возможность преобразования речи в печатный текст. Кроме того, это устройство целевым образом ориентировано на независящее от диктора качество работы и, следовательно, не может обеспечивать распознавание и идентификацию дикторов. Известны метод и устройство распознавания речи 3, использующие множественные акустические модели, и аппарат, реализующий этот метод и содержащий источник речевых сигналов (микрофон и процессор предварительной обработки), блок первичного выделения параметров речи, блок выделения сегментов шума и сегментов речи, блок определения типа шума и выбора акустической модели, устройство хранения данных о параметрах, блок устранения шума, блок вторичного анализа параметров речи, блок устранения шума по методу нормализации усреднением кепстра, блок хранения акустических моделей, блок хранения моделей языка и блок распознавания речи. Недостатками предложенных в 3 метода, программы и аппарата распознавания речи являются многоступенчатая процедура анализа входных воздействий, сходимость которой к конкретному результату (в особенности, при распознавании русскоязычной речи) в патенте не проанализирована, и отсутствие конкретных сведений о надежности распознавания речи. В патенте нет сведений о возможности применения предложенных в нем средств для распознавания (или идентификации) дикторов. Наиболее близким к предлагаемому устройству являются способ и устройство распознавания диктора 4, совпадающее с заявляемым устройством по наибольшему числу существенных признаков и принятое за прототип. В основу заявленного в 4 способа распознавания диктора положено сравнение входного речевого сигнала неизвестного диктора с заранее сохраненными эталонами, представляющими собой речевой сигнал голосовых паролей, произносимых заранее известными дикторами. Известное устройствопрототип включает в себя источник речевого сигнала, блок определения параметрическо 2 42142008.02.28 го описания речевого сигнала в виде выделителя начала/конца речевого сигнала, сегментатора речевого сигнала на последовательность сегментов, блока умножения на взвешивающее окно, блока добавления к сигналу в сегменте нулей, вычислителя преобразования Фурье, вычислителя спектра мощности сигнала в сегменте и формирователя параметрических описаний входного речевого сигнала, соединенных последовательно, коммутатор,блок сравнения параметрических описаний эталона и входного речевого сигнала, блок принятия решения о распознаваемом дикторе и запоминающее устройство. Недостатком такого устройства является то, что оно все еще не обеспечивает запросы практики по надежности распознавания звуков речи и дикторов. Задачей данной полезной модели является при сохранении в ее составе основных функциональных узлов и достоинств устройства-прототипа снижение чувствительности к флуктуациям уровня речевого сигнала, увеличение помехоустойчивости, уменьшение вероятности ошибок распознавания звуков речи и повышение на этой основе надежности распознавания речевых сигналов и дикторов (включая возможность их идентификации). Указанная задача решается тем, что в устройство распознавания диктора, содержащее источник речевого сигнала, блок определения параметрического описания речевого сигнала, соединенные последовательно, коммутатор, блок сравнения параметрических описаний эталона и входного речевого сигнала, блок принятия решения о распознаваемом дикторе и запоминающее устройство, при этом источник речевого сигнала подключен к блоку определения параметрического описания речевого сигнала, выход которого соединен с входом коммутатора, первый выход которого подключен к первому входу блока сравнения параметрических описаний эталона и входного речевого сигнала, а второй выход соединен с входом запоминающего устройства, выход которого подключен ко второму входу блока сравнения параметрических описаний эталона и входного сигнала, выход которого соединен со входом блока принятия решения о распознаваемом дикторе, выход которого является выходом устройства в целом, дополнительно включен блок межкомпонентной фазовой обработки речевого сигнала, выполняющий вычисление фазового квазиинварианта, под которым понимается совокупность разностей фаз между квазигармоническим колебанием на частоте основного тона и обертонами, вход которого подключен к выходу источника речевых сигналов, а выход - ко второму входу коммутатора. При этом в анализ колебаний частоты основного тона и обертонов речевых сигналов включен ранее не использовавшийся частотный диапазон от 60 до 300 Гц. Для увеличения достоверности распознавания тональных звуков речи (гласных звуков речи) и звонких согласных в систему распознавания введен вычислитель разностей фаз между квазигармоническим колебанием на частоте основного тона и обертонами, вход которого подключен к выходу источника речевых сигналов, а выход - к входу блока принятия решения о распознаваемом звуке. Важно, что межкомпонентный анализ разностей фаз между квазигармоническим колебанием на частоте основного тона и обертонами отличается высокой помехоустойчивостью и малой чувствительностью к изменениям уровня анализируемых колебаний. Функциональная схема устройства распознавания дикторов представлена на фиг. 1. На фиг. 2 помещена функциональная схема входящего в состав устройства распознавания дикторов блока межкомпонентной фазовой обработки речевого сигнала. Устройство распознавания диктора (фиг. 1) содержит источник речевого сигнала в цифровой форме 1, например микрофон и аналого-цифровой преобразователь, с выходом 2 на блок определения параметрического описания речевого сигнала 3 и блок межкомпонентной фазовой обработки речевого сигнала 4, коммутатор 7 с двумя входами 5 и 6, блок запоминающего устройства для хранения эталонов параметрического описания речевого сигнала заранее известных дикторов и фазовых инвариантов 12 со входом 9, блок сравнения параметрических описаний эталона и входного речевого сигнала 12 со входами 8 и 11 и выходом 13, блок принятия решения о распознаваемом дикторе 14, выход которого 15 является выходом системы в целом. 3 42142008.02.28 Для увеличения достоверности распознавания тональных звуков речи (гласных звуков речи) и звонких согласных и распознавания диктора в устройство распознавания дикторов введен блок межкомпонентной фазовой обработки 4, осуществляющий вычисление фазового квазиинварианта (ФКИ), представляющего собой совокупность разностей фаз между квазигармоническим колебанием на частоте основного тона и обертонами. Функциональная схема блока 4 представлена на фиг. 2. Работа блока происходит следующим образом. Из пароля, поступающего с выхода 2 источника 1 речевых сигналов в цифровой форме(см. фиг. 1), в блоке сегментации тональных звуков парольной фразы 16 выделяются вокализованные участки речевого сигнала. Сегментирование таких участков достаточно распространено в речевых технологиях и дополнительных пояснений не требует. В рассматриваемом случае работа 16 существенно облегчается тем, что пароль известен заранее. В блоке оценки частоты основного тона 17 реализация каждого из выделенных тональных звуков пропускается через временное окно Хэннинга с длительностью, равной длительности этой реализации. Далее вычисляется кепстр мощности реализации, по которому определяется усредненная на длительности анализируемого звука оценка значения частоты его основного тона 0. По величине вычисляются примерные значения средних частот ближайших обертонов 02, 3, 4. В блоке синтеза полосовых фильтров и фильтрации 18 осуществляется расчет полосовых фильтров с центральными частотами 0, 20, 30, 40, полосами прозрачности 0,1 от центральных частот. Специфическим требованием к этим фильтрам является недопустимость внесения сдвига фаз между входными и выходными квазигармоническими колебаниями на центральных частотах 0, 20, 30, 40. В блоке 18 помимо синтеза полосовых фильтров осуществляется и вычисление их откликов на поступающие с выхода 2 источника 1 речевых сигналов воздействий. Полосовые фильтры синтезируются для каждого тонального звука пароля и каждого произносящего его диктора. Колебания с выходов фильтров поступают на блок оценки фазового квазиинварианта 19. Понятие фазового квазиинварианта (ФКИ) и способ его оценки требуют следующих пояснений. Колебание с ЧОТ и обертоны реализации обрабатываемого тонального звука , рассматриваемые как квазигармонические процессы, можно представить в виде гдеи Фр - медленно меняющиеся амплитуда и фаза -ой квазигармонической составляющей для реализации звука 0 - ЧОТ в реализации- число выбранных для анализа квазигармонических составляющих. В формуле (1) аргумент косинуса представляет собой текущее значение полной фазы р-го квазигармонического колебания в реализации звука х , равное20 Ф Для определения разности фаз 1 между колебанием с ЧОТ и р-ой квазигармонической составляющей (р 2, 3, 4) вычисленные по формуле (2) значения делятся на р и результат вычитается из полной фазы 1 колебания с ЧОТ (р 1)1,. Функция 1 не содержит линейно нарастающих слагаемых. Для достижения взаимного уничтожения линейно нарастающих слагаемых требуется непрерывность функций 42142008.02.28 Ф 1 и Фр, которая обеспечивается применением известной процедуры их сшивания в точках квазипериодически возникающих скачков фаз на величину 2. Диапазоном однозначного определения величины 1 является отрезок 0 2/р. Поэтому вычисляемые по формуле (3) значения 1 необходимо нормировать по мо дулю 2 / При вычислении разности фаз между любыми -ой и -ой квазигармонической составляющими формула (4) перепишется в виде Полные фазы отфильтрованных и доступных для преобразований по отдельности квазигармонических компонентов(( , (1, ) целесообразно определять с помощью перехода к аналитическим сигналам с использованием преобразования Гильберта. Для придания межкомпонентным фазовым характеристикам разных тональных звуков речи у различных дикторов компактной формы используется вектор который имеет смысл называть фазовым квазиинвариантом (ФКИ). Вычисление ФКИ в блоке 19 для каждого тонального звука пароля и каждого диктора производится с использованием формул (1-5). Фазовый квазиинвариант по линии связи 6 поступает на блок принятия решения о распознаваемом дикторе 14 и является дополнительным информационным признаком при принятии решения о распознаваемом дикторе 5, 6. Введение в устройство блока межкомпонентной фазовой обработки речевого сигнала позволило повысить достоверность распознавания диктора до 98 . Национальный центр интеллектуальной собственности. 220034, г. Минск, ул. Козлова, 20.

МПК / Метки

МПК: G10L 15/00

Метки: устройство, распознавания, диктора

Код ссылки

<a href="https://by.patents.su/5-u4214-ustrojjstvo-raspoznavaniya-diktora.html" rel="bookmark" title="База патентов Беларуси">Устройство распознавания диктора</a>

Похожие патенты

Способ распознавания речевых образов преимущественно для текстозависимой верификации диктора по речевому сигналу и устройство для его осуществления

Номер патента: 9430

Опубликовано: 30.06.2007

Авторы: Рылов Александр Сергеевич, Чижденко Виктор Анатольевич

МПК: G10L 17/00, G10L 15/00

Метки: речевому, осуществления, образов, преимущественно, текстозависимой, верификации, сигналу, диктора, устройство, распознавания, способ, речевых

Текст:

...речевых образов, включающий создание множества эталонных моделей для каждого класса образов, сравнение эталонных моделей с тестовой реализацией и принятие решения о распознавании (патент 70 Не 9919865, МПК 6 1 ОЬ 5/06, опубл. 22. 04. 99). Причем для повышения помехоустойчивости способа распознавания при возникновении каких-либо условий несопоставимости режимов обучения и распознавания (акустические условия, эмоциональные состояния дикторов...

Устройство корреляционного распознавания бинарных образов

Номер патента: U 1748

Опубликовано: 30.03.2005

Авторы: Татур Михаил Михайлович, Жолтиков Руслан Романович

МПК: G06K 9/00

Метки: образов, распознавания, устройство, бинарных, корреляционного

Текст:

...ошибки для символов К, И, Н и т.д.Полезная модель направлена на повышение вероятности распознавания или, что то же самое, на снижение вероятности ошибки при распознавании бинарных изображений, нечетко совпадающих с эталоном.При неполном совпадении распознаваемого изображения с эталоном часть пикселей эталона, расположенных на границе объекта и фона, являются менее информативными,чем остальные пиксели изображения. Исключение этих пикселей из...

Устройство защиты речевой информации от утечки по вибрационным и акустическим каналам

Номер патента: U 3053

Опубликовано: 30.10.2006

Авторы: Давыдов Геннадий Владимирович, Лобанов Борис Мефодьевич, Воробьев Василий Иванович, Попов Василий Александрович, Лыньков Леонид Михайлович, Потапович Александр Владимирович, Давыдов Андрей Геннадьевич, Лещенко Дмитрий Васильевич, Ивонин Александр Иванович

МПК: G10K 11/00, H04K 3/00

Метки: вибрационным, устройство, акустическим, каналам, защиты, речевой, информации, утечки

Текст:

...сложного маскирующего сигнала, состоящего из белого шума и речеподобного сигнала. Вышеуказанная задача решается тем, что в устройство защиты речевой информации от утечки по вибрационным и акустическим каналам, содержащее генератор речеподобных сигналов, усилитель, блок управления, блок питания, корпус, акустические и вибрационные преобразователи, введены генератор белого шума и сумматор сигналов белого шума и речеподобных сигналов с их...

Способ обнаружения и распознавания радиолокационных объектов

Номер патента: 1742

Опубликовано: 30.09.1997

Авторы: Любецкий Николай Васильевич, Максимович Елена Степановна, Дещенко Геннадий Николаевич, Михнев Валерий Александрович

МПК: G01S 13/00

Метки: способ, распознавания, объектов, радиолокационных, обнаружения

Текст:

...которой кодируют по закону псевдослучайной последовательности направление вращения отраженной кругополяризованной волны путем изменения на 180 разности фаз между ее ортогонально поляризованными составляющими, непрерывно определяют поляризацию отраженной волны и находят значение взаимнокорреляционной функции по известной кодированной зависимости. Сущность предложенного способа основывается на следующих положениях. Для повышения дальности и...

Устройство вычисления векторно-матричного произведения

Номер патента: U 1174

Опубликовано: 30.12.2003

Авторы: Мальцев Сергей Васильевич, Масляков Александр Николаевич

МПК: G06F 7/38

Метки: вычисления, произведения, векторно-матричного, устройство

Текст:

...произведения для матриц на основе функций Уолша (для вычисления коэффициентов преобразования по Уолшу) возможно лишь для бинарных матриц с определенной внутренней структурой и размерами, т.е. для матриц, размером , где 2, а строки матриц представляют собой функции Уолша. Однако существует ряд бинарных сигналов с хорошими корреляционными свойствами(квадратично-вычетные коды, характеристические последовательности и др.),...

Предыдущий патент: Отопительно-осветительно-варочное устройство

Следующий патент: Печь с выкатным подом

Случайный патент: Устройство для эркерного выпуска металла из дуговой сталеплавильной печи

Устройство распознавания диктора

Текст

МПК / Метки

Код ссылки

О сайте

Архивы

Контакты