• No results found

ANALYSIS OF FREQUENCY DEVIATIONOF PHONATION, DURING THE DEMODULATION PROCESSING OF SPEECH SIGNAL

N/A
N/A
Protected

Academic year: 2020

Share "ANALYSIS OF FREQUENCY DEVIATIONOF PHONATION, DURING THE DEMODULATION PROCESSING OF SPEECH SIGNAL"

Copied!
6
0
0

Loading.... (view fulltext now)

Full text

(1)

УДК

681.391

В

.

Н

.

ЖУРАВЛЕВ

(

Запорожский

национальный

технический

университет

),

И

.

В

.

ЖУКОВИЦКИЙ

(

ДИИТ

)

АНАЛИЗ

ДЕВИАЦИИ

ЧАСТОТЫ

ФОНАЦИИ

ПРИ

ДЕМОДУЛЯЦИОННОЙ

ОБРАБОТКЕ

РЕЧЕВОГО

СИГНАЛА

Розглянутоалгоритмцифровоїобробкиідентифікаційногофрагментумови, щодозволяєнаосновіаналі

-зузначеннянесучоїчастотисигналумови, якийнаведенийувиглядісигналузфазовоюмодуляцією, підви

-щититочністьідентифікаціїпараметрівфонем.

Рассмотреналгоритмцифровойобработкиидентификационногофрагментаречи, позволяющийнаосно

-веанализадевиациинесущейчастотыречевогосигнала, представленноговвидесигналасфазовоймодуля

-цией, повыситьточностьидентификациипараметровфонем.

In clause the algorithm of digital processing of an identification fragment of speech allowing is considered, on the basis of the analysis deviation of carrying frequency of a speech signal submitted as a signal with phase modula-tion, to increase accuracy of identification of parameters phoneme.

Широкое распространение информацион -ных систем на железнодорожном транспорте предопределяет необходимость разработки ме -тодовзащитыинформации, котораяхранится и обрабатываетсяв этих системах, втом числе – методов идентификация абонентов системы. Одними из известных методов идентификации являются биометрические методы. При этом основная трудность применения речевых тех -нологийвсистемахбиометрическойидентифи -кацииабонентов сетей связи – это недостаточ -наяустойчивость методов распознавания слит -нойречипо отношению квходнымошибкам и ошибкам обработки. Большинство методов, которые применяются в настоящее время, ос -нованы на моделях генерации гипотез с ис -пользованием семантико-синтаксических или стохастических ограничений. Методы базиру -ются на применении теории цепей Маркова, теориинейронныхсетей [1], выделениягипотез фонем методом скользящего анализа сигналас последующей оценкой гипотез морфем на ос -нове акустического правдоподобия словоформ и правдоподобия временных интервалов [2],

оценивания спектральной энергии сегментов речевогосигнала [3].

Минимальными структурно-функциональ -ными звуковыми единицами в большинстве языков являютсяфонемы. Онисамипосебе не обладают смысловыми значениями, но потен -циально связаны со смыслом как элементы единой знаковой системы. В сочетании друг с другом, и нередко поотдельности, они образу -ют слова и обеспечивают опознавание (иден -тификацию) и различение (дифференциацию) языковыхзнаковкакзначимыхединиц.

Какправило, полноеописаниеречевогосигна -ла только его спектром невозможно. Наряду со спектральной информацией, необходима еще и информация о динамике речи, которую опреде -ляютпараметрыактивногосостоянияфонем. Для расчета параметров и характеристик, идентифи -цирующих активное состояние фонем в составе слов, наиболее часто применяются классические методыспектрально-временногоанализа [4].

Известен [1] алгоритм идентификации пара -метров активного состояния фонем, функцио -нальнаясхемакоторогопредставленанарис. 1.

(2)

Сигнал s t

( )

преобразовывается в блоке 1 (см. рис. 1) вцифровуюформу s nT

( )

аналого -цифровым преобразователем АЦП на основа -нии обобщенной теоремы отсчетов с частотой дискретизации

1 s

f = T,

где T – интервалдискретизации, котораядолж -на быть не менее удвоенной верхней частоты каналатональныхчастот (ТЧ).

Для последующей обработки сигнал s(nT) обрабатывается в блоке 2 фильтром с переда -точной характеристикой Hтч

(

ωтч

)

, соответст -вующейканалуТЧ:

( ) ( )

(

)

тч тч тч

s nT =s nT H ω . (1)

Блок 3 осуществляет оконное W T k

(

и,

)

сег -ментированиесигнала sтч

( )

nT спараметрами:

и

T – определяет длительность сегмента идентифицируемого сигнала на основании зна -ченияполосы частот ∆ωтч канала ТЧ ипосто -яннойвременислуха Tс [5]

(

тч

)

и , с

T = f ∆ω T ; (2)

k – определяет количество сегментов иден -тификации иявляется функциейот Tи икоэф -фициента перекрытия сегментов идентифика -ции Kпер, который обычно [3] принимается равным 0,5.

Идентификацию амплитуд A и мощности N

спектральных Si составляющих формант по n

полосам (ссерединнымичастотами ω …ω …ω1 i m) осуществляют блоки фильтров 4.1…4.i…4.m, с передаточными характеристиками H fi

( )

i , на выходахкоторыхобразуютсясигналы

( )

тч

( )

( )

i i i i

S ω =s nT H ω . (3)

В блоке 5 осуществляется обработка сигна -лов Si

( )

ωi с записью параметров формант (A N S, , i) вматрицуэталоновидентификацион -ныхпризнаковабонентов M z v

[ ]

, , где z – век -торабонентов, v – векторидентификационных параметровабонента.

Рассмотренный алгоритм позволяет анализи -ровать фрагменты речевых сигналов на времен -ном отрезке Tи. Таким образом, дискретность определения времени активного состояния фо -немызависитот Tи, что вноситпогрешность в идентификационныепараметры v абонента.

В данной работепредложеналгоритм иден -тификации фонем, основанный на анализе из -менениянесущейчастотыприфазовойдемоду -ляции речевого сигналаабонента. В основеал -горитма лежит наблюдение, что при фазовой демодуляции речевого сигнала, значение несу -щей частоты изменяется на границах фонем, а значит, может быть представлено как иден -тификационныйпараметр.

Сигнал s t

( )

на интервале времени иденти -фикации Tр является сигналом с конечной энергией, не содержит дельта-функций и раз -рывов. Основываясь на этом можно предполо -жить, чтопараметры его изменения можно оп -ределить, исследуя девиациюнесущейчастоты

∆ωн, при представлении речевого сигнала как сигналасугловоймодуляцией.

Представимречевой сигнал s t

( )

на сегмен -теидентификации Tр ввидесигналанесущейс частотой ωн, который модулирован информа -ционным сигналом s ty

( )

. Мгновенные ампли -туда A ty

( )

) и фаза ϕy

( )

t сигнала s t

( )

изме -няютсяпозаконуYпередаваемогосообщения

( )

y

( )

cos н y

( )

0

s t =A tω + ωt t + ϕ ⎤, (4)

где A ty

( )

– амплитудная огибающая сигнала

( )

s t ; ϕy

( )

t – мгновенная фаза сигнала s t

( )

;

0

ϕ – начальнаяфазасигнала s t

( )

.

Весь аргумент функции cos выражения (4) представляетполнуюфазу Ψ

( )

t сигнала s t

( )

:

( )

t нt y

( )

t 0

Ψ = ω + ϕ + ϕ . (5)

Длявыделения мгновеннойамплитудыифа -зы применим методнизкочастотного эквивален -та [6], который заключаетсяв заменеисходного сигнала s t

( )

его комплексной огибающей. За -пишемсигнал s t

( )

вэкспоненциальнойформе

( )

Re

{

( )

/ ( )t

}

y

s t = A t eΨ . (6)

Выражение в фигурных скобках является комплексной функцией действительной пере -менной

( )

y

( )

{

cos

( )

sin

( )

}

S t =A t ⎡Ψ t ⎤ + j ⎡Ψ t , (7)

действительная часть которой совпадает с ис -ходнымсигналом s t

( )

, амнимаячасть

( )

y

( )

sin

( )

(3)

отличается от исходного сигнала поворотом фазы на угол (−π 2) и является сопряженным гармоническим сигналом. Сопряженный гармо -нический сигнал получаем из исходного s t

( )

, проведянаднимпреобразованиеГильберта

( )

c

( )

0

1T s

u t d

t

τ

= τ

π τ −

, (9)

гдеt – текущеевремя; τ – подынтегральноевре -мясвертки.

Данный интеграл представляет собой ли -нейную свертку сигнала s

( )

τ и функции 1πt) и, таким образом, является идеальным фазов -ращателем, вносящим на всех частотах фазо -выйсдвиг, равный – 90°.

Можноопределить модульмгновеннойоги -бающей A ty

( )

сигнала s t

( )

( )

2

( )

2

( )

y

A t = s t +u t , (10)

полнуюмгновеннуюфазу

( )

t arctg u t

( )

( )

s t

⎡ ⎤

Ψ = ⎢ ⎥

⎢ ⎥

⎣ ⎦ (11)

имгновеннуючастоту ω′( )t

( )

t d

( )

t d arctg u t

( )

( )

dt dt s t

⎧ ⎡ ⎤⎫

Ψ

ω = = ⎨ ⎢ ⎥⎬=

⎢ ⎥ ⎪ ⎣ ⎦⎪ ⎩ ⎭

( ) ( ) ( ) ( )

( )

( )

2 2

du t ds t

s t u t

dt dt

s t u t

− =

+ . (12)

Выделив вмгновенной частотепостоянную несущую ωн и начальнуюфазу ϕ0, можно вы -числитьмгновеннуюфазу ϕy

( )

t

( )

( )

н 0

( )

y t t t s ty

ϕ = Ψ − ω − ϕ = , (13)

которая является искомой информационной составляющей s ty

( )

в фазомодулированном речевомсигнале s t

( )

.

Под индексом фазовой модуляции β пони -мают [6] отношениедевиациинесущейчастоты

н

∆ω к частоте ωyмодулирующего сигнала

( )

y

s t . Потребуем неизменности индексамоду -ляции наинтервале времени Tр иположим его равнымединице β =1

p

н 1

y T ∆ω

β = =

ω . (14)

В этом случае можно предположить, что изменения мгновенной фазы информационной составляющей ϕy

( )

t (13) на интервале Tр бу -дут отражены в функции девиации несущей частоты ∆ωн.

С целью увеличения точности идентифика -ции параметров фонем предлагается дополнить существующиеметодыследующималгоритмом. Сигнал s t

( )

преобразовывается в блоке 1 (рис. 2) в цифровую форму s nT

( )

аналого -цифровым преобразователем АЦП с частотой дискретизации fs.

Рис. 2. Функциональнаясхемаалгоритмаидентификациипараметранесущейчастотыфонем

Блок 2 осуществляет оконное W T k

(

u,

)

сег -ментированиесигнала sтч

( )

nT . Такимобразом, сигналнавыходеблока 2 будетопределяться

(

, u

) ( ) ( )

u

s nT T k =s nT W T k . (15)

Блок 3 производит декодирование сигнала

(

, u

)

s nT T k в соответствии с выражением (13)

насегменте длительностью Tu сопределением значениянесущейчастоты ωn

s nT Ty

(

, ,u ω β = = Ψн, 1

)

( )

nT − ωнnT− ϕ0, (16)

где Tu – время идентификации несущей час -тоты ωн.

В блоке 4 определяются значения несущей частотыωн наинтервалевремени Tр.

По предлагаемому алгоритму был произве -ден расчет несущей частоты ωn морфем «АКУЛА», «НАУКА» и «КУКЛА», содержа -щиходинаковыефонемы.

(4)

Рис. 3. Графикианализаморфемы «АКУЛА»:

а– графикзависимостисигналаморфемыотвремени s nT( ); б – графикдевиации параметранесущейчастотынаинтервалевремениидентификации ωн

( )

Tр

Рис. 4. Графикианализаморфемы «НАУКА»:

а– графикзависимостисигналаморфемыотвремени s nT( );

(5)

Рис. 5. Графикианализаморфемы «КУКЛА»:

а– графикзависимостисигналаморфемыотвремени s nT( );

б – графикдевиациипараметранесущейчастотынаинтервалевремениидентификации ωн( )Tu

Речевойсигналморфемзаписывалсянажест -кийдискПЭВМсчастотойдискретизации 96 кГц и 16-разряднымквантованиемпоуровню.

Проведя анализ вариации параметра несу -щей частоты ωн

( )

Tu для вокализованных фо -нем «а», «у» и «л» наинтервале Tр, можносде -латьследующиевыводы:

− несущая частота фонемы «а» лежит в пределах 480…650 Гц;

− несущая частота фонемы «у» лежит в пределах 220…250 Гц;

− несущая частота фонемы «л» лежит в пределах 180…270 Гц.

Однакохарактердевиациинесущейчастоты

( )

н Tu

ω наинтервалеидентификациивокализо -ванных фонем разный, поэтому для определе -ния обобщенных зависимостей параметров идентификациитребуетсяпроведениедополни -тельныхисследований.

Выводы

Полученные результаты позволяют сделать вывод о целесообразности применения пред -ложенного алгоритма при идентификации па -раметровфонем.

Повышение эффективности идентифика -ции достигается на основании проведения, дополнительно к существующим методам, анализа девиации несущей частоты фонем речи, представленной в виде сигнала с фазо -воймодуляцией.

Увеличение точности идентификации воз -можно при анализе статистической обработки девиациизначенийпараметранесущейчастоты дляфонемидентифицируемогоабонентасети.

БИБЛИОГРАФИЧЕСКИЙСПИСОК 1. ЛалетинП. А. Использованиесетей с са

-мостоятельной адаптацией для распозна -вания словчеловеческойречи / П. А. Ла -летин, Э. Г. Лалетина, Ю. П. Ланкин // Научная сессия МИФИ-2000. 2-яВсерос -сийскаянаучно-техническаяконференция «Нейроинформатика-2000»: Сборник на -учных трудов. В 2-х частях. Ч. 2. – М.: МИФИ, – 2000. – С. 88–95.

(6)

3. Филимонов В. В. Опыт создания систе -мыавтоматическогораспознаваниярус -ской речи: Тезисы международной кон -ференции «Информатизация правоох -ранительныхсистем», – М.: 1998. Ч. 2, – С. 104–106.

4. БондаркоЛ. В. Звуковойстройсовремен -ногорусского языка. – М.: Просвещение, 1997. – 175 с.

5. Цвикер Э. Ухо как приемник информа -ции / Э. Цвикер, Р. Фельдкеллер; Пер. с нем. под ред. Б. Г. Белкина. – М.: Связь, 1971. – 225 с.

6. Гоноровский И. С. Радиотехнические це -пи и сигналы: Учебник для вузов. – М.: Радиоисвязь, 1986. – 512 с.

References

Related documents

This article will demonstrate the use of the prevalence probability and case-control weighted targeted maximum likelihood estimation (MLE), as described by van der Laan (2008), in

The study has been focused on the concept of airport environmental capacity: a list of “green airports” case studies has been selected in order to identify methods, tools and

Complexity appears because the negation construction in German is quite different from that in Indonesian. In the German novel Träume Wohnen Überall, there are 46

The Facebook environment presents itself as a meaningful platform and context for community college students to learn new vocabulary and eventually enhance their vocabulary

IFIs have succeeded in creating trust in the eyes of depositors and receive deposits on profit and loss sharing basis, however, investment and financing options available to

The purpose of this study is to evaluate ESP textbooks and present four ESP instructors’ opinions with respect to critical thinking as a fundamental need for students of

The Federation of Law Societies of Canada (FLSC), for instance, defines itself as “a leading voice on the national and international scene in respect of the