Способ распознавания речевых образов преимущественно для текстозависимой верификации диктора по речевому сигналу и устройство для его осуществления
Номер патента: 9430
Опубликовано: 30.06.2007
Авторы: Чижденко Виктор Анатольевич, Рылов Александр Сергеевич
Текст
Модели речевого сигнала для каждого класса речевых образов на этапе обучения, которая составляется из двух субмоделей, моделирующих статику И динамику речевого тракта,сравнение составной эталонной модели речевого сигнала для данного класса образов с тестовой последовательностью характеристических векторов параметров речевого сигнала в режиме распознавания, состоящих из двух субвекторов для параметров статики и динамики речевого тракта соответственно с применением взвешенных мер близости и с применением решения о распознавании при использовании минимальной интегральной Меры близости, отличающийся тем, что создают множество составных эталонных моделей речевого сигнала для каждого класса речевых образов, причем при сравнении с ним речевой тестовой реализации применяют четыре разновидности мер близости между сравниваемыми речевыми сигналами, а именно минимальное из множества субмоделей расстояние между параметрами статики речевого тракта (МРПС) усредненное по множеству субмоделей расстояние между параметрами статики речевого тракта (УРПС) минимальное из множества субмоделей расстояние между параметрами динамики речевого тракта (МРПД) усредненное по множеству субмоделей расстояние между параметрами динамики речевого тракта (УРПД), а затем применяют многоступенчатый принцип принятия решения о распознавании речевых сигналов, учитывая приоритетность мер близости.2. Способ по п. 1, отличающийся тем, что для каждой из четырех мер близости, используя представительную базу данных для распознаваемых образов, априори рассчить 1 вают пару функций определения вероятностей для внутриклассовых и межклассовых значений мер близости, а затем по их максимальным и минимальным значениям в каждой паре этих распределений задают зоны уверенной принадлежности, неопределенности и уверенной непринадлежности тестовой последовательности к заданному классу образов.3. Способ по п. 2, отличающийся тем, что для каждой разновидности мер близости зона уверенной принадлежности задается между минимальными значениями меры близости в каждой паре внутриклассового и межклассового распределений, зона неопределенности - между минимальным значением меры близости в межклассовом и ее максимальным значением во внутриклассовом распределениях, а зона уверенной непринадлежности между максимальными значениями мер близости в каждой паре внутриклассового и межклассового распределений.4. Способ по пп. 1 и 2, отличающийся тем, что во время принятия решения переход на следующую, менее приоритетную, ступень происходит в случае попадания измеренного расстояния после процедуры сравнения в зону неопределенности на предыдущей, более приоритетной, ступени.5. Устройство для распознавания речевых образов преимущественно для текстозависимой верификации диктора по речевому сигналу, содержащее последовательно соединенные блоки определения начала и конца текстозависимой речи, выделения первичных кепстральных параметров, векторного квантования, а также подключенные через переключатель режимов работы блоки памяти эталонных моделей речевого сигнала, взвешивания кепстральных и А-кепстральных кодовых книг, взвешивания тестовых кепстральных и А-кепстральных характеристических векторов, сравнения кепстральных и Акепстральнь 1 х кодовых книг с соответствующими характеристическими векторами тестовой последовательности и блока принятия решения, кроме того, блок оценки весовых коэффициентов, включенный через переключатель режимов работы между блоком вь 1 деления первичных кепстральных параметров и блоками взвешивания кепстральных и Акепстральнь 1 х кодовых книг, а также взвешивания тестовых кепстральных и Акепстральнь 1 х характеристических векторов, а также устройство управления, два входа которого подключены к дополнительным выходам блоков определения начала и конца текстозависимой речи и блока векторного квантования, а шесть выходов соединены с до ПОЛНИТСЛЬНЫМИ входами бЛОКОВ ВСКТОрНОГО квантования, СРЗВНВНИЯ КСПСТРЗЛЬНЫХ И А 2кепстральных кодовых книг с соответствующими характеристическими векторами тестовой последовательности, принятия решения и памяти эталонных моделей речевого сигнала, и блок персонификации, выходы которого соединены с входами блока памяти эталонных моделей, отличающееся тем, что введен блок взвешивания и запоминания первичных параметров, включенный между блоками выделения первичных кепстральных параметров и векторного квантования, кроме того, между выходами блока сравнения кепстральных и А-кепстральных кодовых книг и входами блока принятия решения включены блоки оценки минимального кепстрального расстояния, среднего кепстрального расстояния, среднего А-кепстрального расстояния и минимального А-кепстрального расстояния. 6. Устройство по п. 5, отличающееся тем, что в блоке памяти эталонных моделей на каждого диктора формируется несколько (К) эталонных моделей речевого сигнала, причем каждый эталон представляется в виде пары кодовых книг из кепстральных и А КВПСТРЗЛЬНЫХ параметров, ПрИЧСМ ВХОДЫ И ВЫХОДЫ ОДНОИМВННЫХ КОДОВЫХ КНИГ ОбЪВДИНСНЫ.Изобретение относится к области информатики, в частности к способам распознавания речевых образов, а также к устройствам для их осуществления.Известен способ распознавания речевых образов (для текстозависимой верификации дикторов по речевому сигналу), включающий создание эталонных моделей классов образов на этапе обучения, сравнение эталонных моделей с характеристическими векторами тестовых реализаций в режиме распознавания (Рипп 5. Серзгга 1 Апа 1 у 515 Тесппще от Аигошайс 5 реа 1 ег Уегййсайоп // 1 ЕЕЕ Тгапз. Оп Асоизг. 5 реес 11 апб 51311211 Ргос. - Уо 1. А 55 Р. - 29, Ы 2. - 1981. - Р. 254-272). Причем для снижения ошибок распознавания в состав характеристических векторов вводят параметры динамики речевого тракта. Кроме того, для сравнения элементов эталонных моделей и тестовых реализаций применяют взвешенную меру близости. По ее интегральным и, определенному априори, пороговому значениям принимают решение о принадлежности или не принадлежности тестовой реализации к данному классу образов или об отказе от принятия решения. К недостаткам известного способа следует отнести смешивание статических и динамических параметров речевого тракта в одном характеристическом векторе, которое повышает вероятность возникновения ошибок распознавания на стадии принятия решения, так как в этом случае не представляется возможным применить принцип первоочередности сравнения наиболее информативных и приоритетных параметров речевого тракта. Кроме того, способ становится неработоспособным при возникновении каких-либо условий несопоставимости в режимах обучения и распознавания.Известно устройство ИНТЕГРАЛ для текстозависимой верификации и идентификации диктора по речевому сигналу (Рамишвили Г.С. Речевой сигнал и индивидуальность голоса. - Мецниереба, Тбилиси, 1976. - С. 149-153), содержащее блок формирования множества эталонов на каждого диктора, блок сравнения, в котором тестовая реализация сравнивается с каждым эталоном и относится к классу свой, если усредненная по всем эталонам, интегральная Евклидова мера близости ниже определенного порога. Причем Евклидово расстояние между эталоном и тестовой реализацией взвешивается в пространстве признаков весами, соответствующими их информативности. Недостатком известного устройства является использование в качестве составных элементов в характеристических векторах усредненных на звонких и глухих сегментах речи, спектральных параметров. Вопервых, здесь сама задача автоматического разбиения речи на звонкие и глухие фрагменты, как правило, решается с ошибками. Во-вторых, нет четкого разграничения между параметрами статики и динами речевого тракта. Это не позволяет при принятии решения в полной мере использовать высокую информативность статических параметров как основных и как вспомогательных динамических параметров. Все это приводит к увеличению ошибок верификации.Известен также способ распознавания речевых образов, включающий создание множества эталонных моделей для каждого класса образов, сравнение эталонных моделей с тестовой реализацией и принятие решения о распознавании (патент 70 Не 9919865, МПК 6 1 ОЬ 5/06, опубл. 22. 04. 99). Причем для повышения помехоустойчивости способа распознавания при возникновении каких-либо условий несопоставимости режимов обучения и распознавания (акустические условия, эмоциональные состояния дикторов и т.п. ) в режиме обучения создают множество эталонных моделей для множества возможных условий несопоставимости. В режиме распознавания сравнивают тестовую реализацию определенного диктора с множеством его эталонов. Затем выбирают самую минимальную интегральную меру близости из всего множества и принимают решение о распознавании. К недостаткам известного способа следует отнести смешивание статических и динамических параметров в одном характеристическом векторе. Это может привести к возрастанию ошибки распознавания из-за несоблюдения принципа первоочередности принятия решения для наиболее информативных и приоритетных параметров речевого тракта.Известно также устройство для текстозависимой верификации диктора по речевому сигналу (13111111 5. Сер 5 пга 1 Апа 1 у 515 Тес 11111 че Гог Ашошайс 5 реа 1 е 1 Уег 1 Г 1 саг 1 о 11 // 1 ЕЕЕ Тгапз. Оп Асоизг. 5 реес 11 ап 51311211 Ргос. Уо 1. А 55 Р. - 29, Ы 2. - 1981. - Р. 254-272), содержащее блок формирования характеристических векторов из кепстральных параметров и коэффициентов ортогональных полиномов, из-за объединения которых в один характеристический вектор, не представляется возможным на стадии принятия решения учесть более вь 1 сокий приоритет кепстральных параметров, по сравнению с коэффициентами ортогональных полиномов. Это обстоятельство увеличивает вероятность возникновения ошибок верификации из-за нивелирования различий в информативности статических и динамических параметров речевого тракта и невозможности принимать решение в первую очередь по самым информативным признакам, в данном случае по кепстральным параметрам. Кроме того, надежность верификации значительно снижается при возникновении какихлибо условий несопоставимости с условиями обучения.Наиболее близким к заявляемому является известный способ распознавания речевых образов (для текстозависимого и текстонезависимого распознавания диктора по речевому сигналу), включающий создание составных эталонных моделей классов образов на этапе обучения, сравнение составных эталонных моделей с составными характеристическими векторами тестовых реализаций в режиме распознавания и принятие решения о распознавании (500113 Р.К., КозепЬег А.Е. 011 Не Пзе оГ 1115 гаша 11 ео 115 а 111 Т 1 а 1151 г 1 о 11 а 1 5 ресгга 1 1 пГогшайоп 1 п 5 реа 1 е 1 Кесо 111 г 1 о 11 // 1 ЕЕЕ Тгапз. о 11 Асоизг. 5 реес 11 апб 513 па 1 Ргос. - Уо 1. 36,Ы 6. - 1988. - Р. 871-879). Причем для снижения ошибок распознавания каждую составную эталонную модель класса образов составляют из двух субмоделей. Субмодели формируют из характеристических субвекторов, описывающих либо статику, либо динамику речевого тракта. Кроме того, для сравнения элементов эталонных субмоделей и тестовых характеристических субвекторов применяют взвешенные меры близости. После этого их интегральные значения умножают на весовые коэффициенты, суммируют и сравнивают результат суммирования с порогом, определяемым априори. Использование операции суммирования для указанных выше интегральных мер близости следует отнести к недостаткам известного способа, так как в нем возникают ошибки распознавания на стадии принятия решения из-за несоблюдения принципа первоочередности принятия решения для наиболее информативных и приоритетных параметров речевого тракта. Кроме того, в данном способе не предусмотрены меры для сохранения его работоспособности при возникновении каких-либо условий несопоставимости в режимах обучения и распознавания.Ближайшим техническим решением является устройство для текстозависимой верификации диктора по речевому сигналу (500113 Р.К., КозепЬег А.Е. Оп Не Пзе оГ 111 згашапеоиз апб Т 1 а 1151 г 1 о 11 а 1 5 ресгга 1 1111011112111011 1 п 5 реа 1 е 1 Кесоп 1 г 1 о 11 // 1 ЕЕЕ Т 1 а 115. о 11 Асоизг. 5 реес 11 а 111 51311211 Р 1 ос. - Уо 1. 36, Ы 6. - 1988. - Р. 871-879), содержащее блоки формированияхарактеристических векторов, векторного квантования, сравнения и принятия решения. Причем каждый характеристический вектор состоит из субвектора кепстральнь 1 х и субвектора А-кепстральных параметров, а каждая эталонная модель диктора состоит из двух соответствующих субмоделей в виде кодовых книг, формируемых в блоке векторного квантования в режиме обучения. Кроме того, в режиме верификации кепстральные и Акепстральнь 1 е субвекторы сравниваются с соответствующими кодовыми книгами с использованием Евклидовых мер близости, взвешенных обратными интраиндивидуальнь 1 ми дисперсиями. К недостаткам этого устройства следует отнести отсутствие каких-либо специальных мер при создании субмоделей, способствующих отображению в кодовых книгах информации, относящейся именно к индивидуальности текстозависимой речи говорящего, а не к ее семантике введение дополнительного блока динамического программирования, как усложняющего работу устройства использование в блоке принятия решения обобщенной меры близости, получаемой в результате простого суммирования двух взвешенных интегральных мер близости, так как это является препятствием для повышения достоверности принимаемого решения за счет использования знаний об информативности сравниваемых параметров отсутствие каких-либо технических решений для повь 1 шения помехоустойчивости работы устройства. Все это, как следствие, снижает надежность верификации устройства.Задачей изобретения является повышение надежности распознавания речевых образов и упрощение функциональной схемы устройства.Технический результат - уменьшение количества ошибок и отказов от распознавания на стадии принятия решения, повышение точности определения характеристических векторов речевого сигнала и точности формирования эталонных моделей, унификация элементов устройства для реализации различных функциональных задач.Задача решается за счет того, что в предлагаемом способе распознавания речевых образов, включающем создание составной эталонной модели речевого сигнала для каждого класса речевых образов на этапе обучения, которая составляется из двух субмоделей, моделирующих статику и динамику речевого тракта, сравнение в режиме распознавания составной эталонной модели речевого сигнала для данного класса образов с тестовой последовательностью характеристических векторов параметров речевого сигнала в режиме распознавания, состоящих из двух субвекторов для параметров статики и динамики речевого тракта соответственно, с применением взвешенных мер близости и с применением решения о распознавании при использовании минимальной интегральной меры близости,согласно изобретению, на этапе обучения создают множество составных эталонных моделей речевого сигнала для каждого класса речевых образов. В режиме распознавания для сравнения множества составных эталонных моделей речевого сигнала для заданного класса речевых образов с составными характеристическими векторами тестовой реализации,применяют четыре разновидности мер близости, а именно минимальное из множества субмоделей расстояние между параметрами статики речевого тракта (МРПС) усредненное по множеству субмоделей расстояние между параметрами статики речевого тракта(УРПС) минимальное по множеству субмоделей расстояние между параметрами динамики речевого тракта (МРПД) усредненное по множеству субмоделей расстояние между параметрами динамики речевого тракта (УРПД). Причем для каждой из четырех мер близости, используют представительную базу данных для распознаваемых образов, априори рассчитывают пару функций распределения вероятностей для внутриклассовых и межклассовых значений мер близости, а затем по их максимальным и минимальным значениям в каждой паре этих распределений задают зоны уверенной принадлежности, неопределенности и уверенной не принадлежности тестовой реализации к заданному классу образов. При этом для каждой разновидности мер близости зону уверенной принадлежности задают между минимальными значениями меры близости в каждой паре внутриклассового и межклассового распределений, зону неопределенности - между минималь 5
МПК / Метки
МПК: G10L 17/00, G10L 15/00
Метки: сигналу, преимущественно, осуществления, устройство, речевому, распознавания, образов, текстозависимой, диктора, способ, речевых, верификации
Код ссылки
<a href="https://by.patents.su/20-9430-sposob-raspoznavaniya-rechevyh-obrazov-preimushhestvenno-dlya-tekstozavisimojj-verifikacii-diktora-po-rechevomu-signalu-i-ustrojjstvo-dlya-ego-osushhestvleniya.html" rel="bookmark" title="База патентов Беларуси">Способ распознавания речевых образов преимущественно для текстозависимой верификации диктора по речевому сигналу и устройство для его осуществления</a>
Предыдущий патент: Способ изготовления вощины
Следующий патент: Способ определения концентрации составляющих грунтового радона
Случайный патент: Укупорочное устройство