ANALYSIS OF FREQUENCY DEVIATIONOF PHONATION, DURING THE DEMODULATION PROCESSING OF SPEECH SIGNAL

(1)

УДК

681.391 В

.

Н

.

ЖУРАВЛЕВ

(

Запорожский

национальный

технический

университет

),

И

.

В

.

ЖУКОВИЦКИЙ

(

ДИИТ

)

АНАЛИЗ

ДЕВИАЦИИ

ЧАСТОТЫ

ФОНАЦИИ

ПРИ

ДЕМОДУЛЯЦИОННОЙ

ОБРАБОТКЕ

РЕЧЕВОГО

СИГНАЛА

Розглянутоалгоритмцифровоїобробкиідентифікаційногофрагментумови, щодозволяєнаосновіаналі

-зузначеннянесучоїчастотисигналумови, якийнаведенийувиглядісигналузфазовоюмодуляцією, підви

-щититочністьідентифікаціїпараметрівфонем.

Рассмотреналгоритмцифровойобработкиидентификационногофрагментаречи, позволяющийнаосно

-веанализадевиациинесущейчастотыречевогосигнала, представленноговвидесигналасфазовоймодуля

-цией, повыситьточностьидентификациипараметровфонем.

In clause the algorithm of digital processing of an identification fragment of speech allowing is considered, on the basis of the analysis deviation of carrying frequency of a speech signal submitted as a signal with phase modula-tion, to increase accuracy of identification of parameters phoneme.

Широкое распространение информацион -ных систем на железнодорожном транспорте предопределяет необходимость разработки ме -тодовзащитыинформации, котораяхранится и обрабатываетсяв этих системах, втом числе – методов идентификация абонентов системы. Одними из известных методов идентификации являются биометрические методы. При этом основная трудность применения речевых тех -нологийвсистемахбиометрическойидентифи -кацииабонентов сетей связи – это недостаточ -наяустойчивость методов распознавания слит -нойречипо отношению квходнымошибкам и ошибкам обработки. Большинство методов, которые применяются в настоящее время, ос -нованы на моделях генерации гипотез с ис -пользованием семантико-синтаксических или стохастических ограничений. Методы базиру -ются на применении теории цепей Маркова, теориинейронныхсетей [1], выделениягипотез фонем методом скользящего анализа сигналас последующей оценкой гипотез морфем на ос -нове акустического правдоподобия словоформ и правдоподобия временных интервалов [2],

оценивания спектральной энергии сегментов речевогосигнала [3].

Минимальными структурно-функциональ -ными звуковыми единицами в большинстве языков являютсяфонемы. Онисамипосебе не обладают смысловыми значениями, но потен -циально связаны со смыслом как элементы единой знаковой системы. В сочетании друг с другом, и нередко поотдельности, они образу -ют слова и обеспечивают опознавание (иден -тификацию) и различение (дифференциацию) языковыхзнаковкакзначимыхединиц.

Какправило, полноеописаниеречевогосигна -ла только его спектром невозможно. Наряду со спектральной информацией, необходима еще и информация о динамике речи, которую опреде -ляютпараметрыактивногосостоянияфонем. Для расчета параметров и характеристик, идентифи -цирующих активное состояние фонем в составе слов, наиболее часто применяются классические методыспектрально-временногоанализа [4].

Известен [1] алгоритм идентификации пара -метров активного состояния фонем, функцио -нальнаясхемакоторогопредставленанарис. 1.

(2)

Сигнал s t

( )

преобразовывается в блоке 1 (см. рис. 1) вцифровуюформу s nT

( )

аналого -цифровым преобразователем АЦП на основа -нии обобщенной теоремы отсчетов с частотой дискретизации

1 s

f = T,

где T – интервалдискретизации, котораядолж -на быть не менее удвоенной верхней частоты каналатональныхчастот (ТЧ).

Для последующей обработки сигнал s(nT) обрабатывается в блоке 2 фильтром с переда -точной характеристикой H_тч

(

ω_тч

)

, соответст -вующейканалуТЧ:

( ) ( )

(

)

тч тч тч

s nT =s nT H ω . (1)

Блок 3 осуществляет оконное W T k

(

_и,

)

сег -ментированиесигнала s_тч

( )

nT спараметрами:

и

T – определяет длительность сегмента идентифицируемого сигнала на основании зна -ченияполосы частот ∆ωтч канала ТЧ ипосто -яннойвременислуха T_с [5]

(

тч

)

и , с

T = f ∆ω T ; (2)

k – определяет количество сегментов иден -тификации иявляется функциейот T_и икоэф -фициента перекрытия сегментов идентифика -ции K_пер, который обычно [3] принимается равным 0,5.

Идентификацию амплитуд A и мощности N

спектральных S_i составляющих формант по n

полосам (ссерединнымичастотами ω …ω …ω₁ _i _m) осуществляют блоки фильтров 4.1…4.i…4.m, с передаточными характеристиками H f_i

( )

_i , на выходахкоторыхобразуютсясигналы

( )

тч

( )

i i i i

S ω =s nT H ω . (3)

В блоке 5 осуществляется обработка сигна -лов S_i

( )

ω_i с записью параметров формант (A N S, , _i) вматрицуэталоновидентификацион -ныхпризнаковабонентов M z v

[ ]

, , где z – век -торабонентов, v – векторидентификационных параметровабонента.

Рассмотренный алгоритм позволяет анализи -ровать фрагменты речевых сигналов на времен -ном отрезке T_и. Таким образом, дискретность определения времени активного состояния фо -немызависитот T_и, что вноситпогрешность в идентификационныепараметры v абонента.

В данной работепредложеналгоритм иден -тификации фонем, основанный на анализе из -менениянесущейчастотыприфазовойдемоду -ляции речевого сигналаабонента. В основеал -горитма лежит наблюдение, что при фазовой демодуляции речевого сигнала, значение несу -щей частоты изменяется на границах фонем, а значит, может быть представлено как иден -тификационныйпараметр.

Сигнал s t

( )

на интервале времени иденти -фикации T_р является сигналом с конечной энергией, не содержит дельта-функций и раз -рывов. Основываясь на этом можно предполо -жить, чтопараметры его изменения можно оп -ределить, исследуя девиациюнесущейчастоты

∆ωн, при представлении речевого сигнала как сигналасугловоймодуляцией.

Представимречевой сигнал s t

( )

на сегмен -теидентификации T_р ввидесигналанесущейс частотой ω_н, который модулирован информа -ционным сигналом s t_y

( )

. Мгновенные ампли -туда A t_y

( )

) и фаза ϕ_y

( )

t сигнала s t

( )

изме -няютсяпозаконуYпередаваемогосообщения

( )

y

( )

cos н y

( )

0

s t =A t ⎡_⎣ω + ωt t + ϕ ⎤_⎦, (4)

где A t_y

( )

– амплитудная огибающая сигнала

( )

s t ; ϕ_y

( )

t – мгновенная фаза сигнала s t

( )

;

0

ϕ – начальнаяфазасигнала s t

( )

.

Весь аргумент функции cos выражения (4) представляетполнуюфазу Ψ

( )

t сигнала s t

( )

:

( )

t нt y

( )

t 0

Ψ = ω + ϕ + ϕ . (5)

Длявыделения мгновеннойамплитудыифа -зы применим методнизкочастотного эквивален -та [6], который заключаетсяв заменеисходного сигнала s t

( )

его комплексной огибающей. За -пишемсигнал s t

( )

вэкспоненциальнойформе

( )

_Re

{

( )

/ ( )t

}

y

s t = A t eΨ . (6)

Выражение в фигурных скобках является комплексной функцией действительной пере -менной

( )

_y

( )

{

cos

( )

sin

( )

}

S t =A t ⎡Ψ_⎣ t ⎤ +_⎦ j ⎡Ψ_⎣ t ⎤_⎦ , (7)

действительная часть которой совпадает с ис -ходнымсигналом s t

( )

, амнимаячасть

( )

_y

( )

sin

( )

(3)

отличается от исходного сигнала поворотом фазы на угол (−π 2) и является сопряженным гармоническим сигналом. Сопряженный гармо -нический сигнал получаем из исходного s t

( )

, проведянаднимпреобразованиеГильберта

( )

c

( )

0

1T s

u t d

t

τ

= τ

π τ −

∫

, (9)

гдеt – текущеевремя; τ – подынтегральноевре -мясвертки.

Данный интеграл представляет собой ли -нейную свертку сигнала s

( )

τ и функции 1πt) и, таким образом, является идеальным фазов -ращателем, вносящим на всех частотах фазо -выйсдвиг, равный – 90°.

Можноопределить модульмгновеннойоги -бающей A t_y

( )

сигнала s t

( )

2

( )

2

( )

y

A t = s t +u t , (10)

полнуюмгновеннуюфазу

( )

t arctg u t

_{( )}

( )

s t

⎡ ⎤

Ψ = ⎢ ⎥

⎢ ⎥

⎣ ⎦ (11)

имгновеннуючастоту ω′( )t

( )

t d

( )

t d arctg u t

( )

_{( )}

dt dt s t

⎧ ⎡ ⎤⎫

Ψ _⎪ _⎪

′

ω = = ⎨ ⎢ ⎥⎬=

⎢ ⎥ ⎪ ⎣ ⎦⎪ ⎩ ⎭

( ) ( ) ( ) ( )

( )

2 2

du t ds t

s t u t

dt dt

s t u t

− =

+ . (12)

Выделив вмгновенной частотепостоянную несущую ω_н и начальнуюфазу ϕ₀, можно вы -числитьмгновеннуюфазу ϕ_y

( )

t

( )

н 0

( )

y t t t s ty

ϕ = Ψ − ω − ϕ = , (13)

которая является искомой информационной составляющей s t_y

( )

в фазомодулированном речевомсигнале s t

( )

.

Под индексом фазовой модуляции β пони -мают [6] отношениедевиациинесущейчастоты

н

∆ω к частоте ω_yмодулирующего сигнала

( )

y

s t . Потребуем неизменности индексамоду -ляции наинтервале времени T_р иположим его равнымединице β =1

p

н ₁

y T ∆ω

β = =

ω . (14)

В этом случае можно предположить, что изменения мгновенной фазы информационной составляющей ϕ_y

( )

t (13) на интервале T_р бу -дут отражены в функции девиации несущей частоты ∆ω_н.

С целью увеличения точности идентифика -ции параметров фонем предлагается дополнить существующиеметодыследующималгоритмом. Сигнал s t

( )

преобразовывается в блоке 1 (рис. 2) в цифровую форму s nT

( )

аналого -цифровым преобразователем АЦП с частотой дискретизации f_s.

Рис. 2. Функциональнаясхемаалгоритмаидентификациипараметранесущейчастотыфонем

Блок 2 осуществляет оконное W T k

(

_u,

)

сег -ментированиесигнала s_тч

( )

nT . Такимобразом, сигналнавыходеблока 2 будетопределяться

(

, _u

) ( ) ( )

_u

s nT T k =s nT W T k . (15)

Блок 3 производит декодирование сигнала

(

, _u

)

s nT T k в соответствии с выражением (13)

насегменте длительностью T_u сопределением значениянесущейчастоты ω_n

s nT T_y

(

, ,_u ω β = = Ψ_н, 1

)

( )

nT − ω_нnT− ϕ₀, (16)

где T_u – время идентификации несущей час -тоты ω_н.

В блоке 4 определяются значения несущей частотыωн наинтервалевремени T_р.

По предлагаемому алгоритму был произве -ден расчет несущей частоты ωn морфем «АКУЛА», «НАУКА» и «КУКЛА», содержа -щиходинаковыефонемы.

(4)

Рис. 3. Графикианализаморфемы «АКУЛА»:

а– графикзависимостисигналаморфемыотвремени s nT( ); б – графикдевиации параметранесущейчастотынаинтервалевремениидентификации ωн

( )

Tр

Рис. 4. Графикианализаморфемы «НАУКА»:

а– графикзависимостисигналаморфемыотвремени s nT( );

(5)

Рис. 5. Графикианализаморфемы «КУКЛА»:

а– графикзависимостисигналаморфемыотвремени s nT( );

б – графикдевиациипараметранесущейчастотынаинтервалевремениидентификации ωн( )Tu

Речевойсигналморфемзаписывалсянажест -кийдискПЭВМсчастотойдискретизации 96 кГц и 16-разряднымквантованиемпоуровню.

Проведя анализ вариации параметра несу -щей частоты ω_н

( )

T_u для вокализованных фо -нем «а», «у» и «л» наинтервале T_р, можносде -латьследующиевыводы:

− несущая частота фонемы «а» лежит в пределах 480…650 Гц;

− несущая частота фонемы «у» лежит в пределах 220…250 Гц;

− несущая частота фонемы «л» лежит в пределах 180…270 Гц.

Однакохарактердевиациинесущейчастоты

( )

н Tu

ω наинтервалеидентификациивокализо -ванных фонем разный, поэтому для определе -ния обобщенных зависимостей параметров идентификациитребуетсяпроведениедополни -тельныхисследований.

Выводы

Полученные результаты позволяют сделать вывод о целесообразности применения пред -ложенного алгоритма при идентификации па -раметровфонем.

Повышение эффективности идентифика -ции достигается на основании проведения, дополнительно к существующим методам, анализа девиации несущей частоты фонем речи, представленной в виде сигнала с фазо -воймодуляцией.

Увеличение точности идентификации воз -можно при анализе статистической обработки девиациизначенийпараметранесущейчастоты дляфонемидентифицируемогоабонентасети.

БИБЛИОГРАФИЧЕСКИЙСПИСОК 1. ЛалетинП. А. Использованиесетей с са

-мостоятельной адаптацией для распозна -вания словчеловеческойречи / П. А. Ла -летин, Э. Г. Лалетина, Ю. П. Ланкин // Научная сессия МИФИ-2000. 2-яВсерос -сийскаянаучно-техническаяконференция «Нейроинформатика-2000»: Сборник на -учных трудов. В 2-х частях. Ч. 2. – М.: МИФИ, – 2000. – С. 88–95.

(6)

3. Филимонов В. В. Опыт создания систе -мыавтоматическогораспознаваниярус -ской речи: Тезисы международной кон -ференции «Информатизация правоох -ранительныхсистем», – М.: 1998. Ч. 2, – С. 104–106.

4. БондаркоЛ. В. Звуковойстройсовремен -ногорусского языка. – М.: Просвещение, 1997. – 175 с.

5. Цвикер Э. Ухо как приемник информа -ции / Э. Цвикер, Р. Фельдкеллер; Пер. с нем. под ред. Б. Г. Белкина. – М.: Связь, 1971. – 225 с.

6. Гоноровский И. С. Радиотехнические це -пи и сигналы: Учебник для вузов. – М.: Радиоисвязь, 1986. – 512 с.