УДК
681.391
В
.
Н
.
ЖУРАВЛЕВ
(
Запорожский
национальный
технический
университет
),
И
.
В
.
ЖУКОВИЦКИЙ
(
ДИИТ
)
АНАЛИЗ
ДЕВИАЦИИ
ЧАСТОТЫ
ФОНАЦИИ
ПРИ
ДЕМОДУЛЯЦИОННОЙ
ОБРАБОТКЕ
РЕЧЕВОГО
СИГНАЛА
Розглянутоалгоритмцифровоїобробкиідентифікаційногофрагментумови, щодозволяєнаосновіаналі
-зузначеннянесучоїчастотисигналумови, якийнаведенийувиглядісигналузфазовоюмодуляцією, підви
-щититочністьідентифікаціїпараметрівфонем.
Рассмотреналгоритмцифровойобработкиидентификационногофрагментаречи, позволяющийнаосно
-веанализадевиациинесущейчастотыречевогосигнала, представленноговвидесигналасфазовоймодуля
-цией, повыситьточностьидентификациипараметровфонем.
In clause the algorithm of digital processing of an identification fragment of speech allowing is considered, on the basis of the analysis deviation of carrying frequency of a speech signal submitted as a signal with phase modula-tion, to increase accuracy of identification of parameters phoneme.
Широкое распространение информацион -ных систем на железнодорожном транспорте предопределяет необходимость разработки ме -тодовзащитыинформации, котораяхранится и обрабатываетсяв этих системах, втом числе – методов идентификация абонентов системы. Одними из известных методов идентификации являются биометрические методы. При этом основная трудность применения речевых тех -нологийвсистемахбиометрическойидентифи -кацииабонентов сетей связи – это недостаточ -наяустойчивость методов распознавания слит -нойречипо отношению квходнымошибкам и ошибкам обработки. Большинство методов, которые применяются в настоящее время, ос -нованы на моделях генерации гипотез с ис -пользованием семантико-синтаксических или стохастических ограничений. Методы базиру -ются на применении теории цепей Маркова, теориинейронныхсетей [1], выделениягипотез фонем методом скользящего анализа сигналас последующей оценкой гипотез морфем на ос -нове акустического правдоподобия словоформ и правдоподобия временных интервалов [2],
оценивания спектральной энергии сегментов речевогосигнала [3].
Минимальными структурно-функциональ -ными звуковыми единицами в большинстве языков являютсяфонемы. Онисамипосебе не обладают смысловыми значениями, но потен -циально связаны со смыслом как элементы единой знаковой системы. В сочетании друг с другом, и нередко поотдельности, они образу -ют слова и обеспечивают опознавание (иден -тификацию) и различение (дифференциацию) языковыхзнаковкакзначимыхединиц.
Какправило, полноеописаниеречевогосигна -ла только его спектром невозможно. Наряду со спектральной информацией, необходима еще и информация о динамике речи, которую опреде -ляютпараметрыактивногосостоянияфонем. Для расчета параметров и характеристик, идентифи -цирующих активное состояние фонем в составе слов, наиболее часто применяются классические методыспектрально-временногоанализа [4].
Известен [1] алгоритм идентификации пара -метров активного состояния фонем, функцио -нальнаясхемакоторогопредставленанарис. 1.
Сигнал s t
( )
преобразовывается в блоке 1 (см. рис. 1) вцифровуюформу s nT( )
аналого -цифровым преобразователем АЦП на основа -нии обобщенной теоремы отсчетов с частотой дискретизации1 s
f = T,
где T – интервалдискретизации, котораядолж -на быть не менее удвоенной верхней частоты каналатональныхчастот (ТЧ).
Для последующей обработки сигнал s(nT) обрабатывается в блоке 2 фильтром с переда -точной характеристикой Hтч
(
ωтч)
, соответст -вующейканалуТЧ:( ) ( )
(
)
тч тч тч
s nT =s nT H ω . (1)
Блок 3 осуществляет оконное W T k
(
и,)
сег -ментированиесигнала sтч( )
nT спараметрами:и
T – определяет длительность сегмента идентифицируемого сигнала на основании зна -ченияполосы частот ∆ωтч канала ТЧ ипосто -яннойвременислуха Tс [5]
(
тч)
и , с
T = f ∆ω T ; (2)
k – определяет количество сегментов иден -тификации иявляется функциейот Tи икоэф -фициента перекрытия сегментов идентифика -ции Kпер, который обычно [3] принимается равным 0,5.
Идентификацию амплитуд A и мощности N
спектральных Si составляющих формант по n
полосам (ссерединнымичастотами ω …ω …ω1 i m) осуществляют блоки фильтров 4.1…4.i…4.m, с передаточными характеристиками H fi
( )
i , на выходахкоторыхобразуютсясигналы( )
тч( )
( )
i i i i
S ω =s nT H ω . (3)
В блоке 5 осуществляется обработка сигна -лов Si
( )
ωi с записью параметров формант (A N S, , i) вматрицуэталоновидентификацион -ныхпризнаковабонентов M z v[ ]
, , где z – век -торабонентов, v – векторидентификационных параметровабонента.Рассмотренный алгоритм позволяет анализи -ровать фрагменты речевых сигналов на времен -ном отрезке Tи. Таким образом, дискретность определения времени активного состояния фо -немызависитот Tи, что вноситпогрешность в идентификационныепараметры v абонента.
В данной работепредложеналгоритм иден -тификации фонем, основанный на анализе из -менениянесущейчастотыприфазовойдемоду -ляции речевого сигналаабонента. В основеал -горитма лежит наблюдение, что при фазовой демодуляции речевого сигнала, значение несу -щей частоты изменяется на границах фонем, а значит, может быть представлено как иден -тификационныйпараметр.
Сигнал s t
( )
на интервале времени иденти -фикации Tр является сигналом с конечной энергией, не содержит дельта-функций и раз -рывов. Основываясь на этом можно предполо -жить, чтопараметры его изменения можно оп -ределить, исследуя девиациюнесущейчастоты∆ωн, при представлении речевого сигнала как сигналасугловоймодуляцией.
Представимречевой сигнал s t
( )
на сегмен -теидентификации Tр ввидесигналанесущейс частотой ωн, который модулирован информа -ционным сигналом s ty( )
. Мгновенные ампли -туда A ty( )
) и фаза ϕy( )
t сигнала s t( )
изме -няютсяпозаконуYпередаваемогосообщения( )
y( )
cos н y( )
0s t =A t ⎡⎣ω + ωt t + ϕ ⎤⎦, (4)
где A ty
( )
– амплитудная огибающая сигнала( )
s t ; ϕy
( )
t – мгновенная фаза сигнала s t( )
;0
ϕ – начальнаяфазасигнала s t
( )
.Весь аргумент функции cos выражения (4) представляетполнуюфазу Ψ
( )
t сигнала s t( )
:( )
t нt y( )
t 0Ψ = ω + ϕ + ϕ . (5)
Длявыделения мгновеннойамплитудыифа -зы применим методнизкочастотного эквивален -та [6], который заключаетсяв заменеисходного сигнала s t
( )
его комплексной огибающей. За -пишемсигнал s t( )
вэкспоненциальнойформе( )
Re{
( )
/ ( )t}
ys t = A t eΨ . (6)
Выражение в фигурных скобках является комплексной функцией действительной пере -менной
( )
y( )
{
cos( )
sin( )
}
S t =A t ⎡Ψ⎣ t ⎤ +⎦ j ⎡Ψ⎣ t ⎤⎦ , (7)
действительная часть которой совпадает с ис -ходнымсигналом s t
( )
, амнимаячасть( )
y( )
sin( )
отличается от исходного сигнала поворотом фазы на угол (−π 2) и является сопряженным гармоническим сигналом. Сопряженный гармо -нический сигнал получаем из исходного s t
( )
, проведянаднимпреобразованиеГильберта( )
c( )
0
1T s
u t d
t
τ
= τ
π τ −
∫
, (9)гдеt – текущеевремя; τ – подынтегральноевре -мясвертки.
Данный интеграл представляет собой ли -нейную свертку сигнала s
( )
τ и функции 1πt) и, таким образом, является идеальным фазов -ращателем, вносящим на всех частотах фазо -выйсдвиг, равный – 90°.Можноопределить модульмгновеннойоги -бающей A ty
( )
сигнала s t( )
( )
2( )
2( )
y
A t = s t +u t , (10)
полнуюмгновеннуюфазу
( )
t arctg u t( )
( )
s t
⎡ ⎤
Ψ = ⎢ ⎥
⎢ ⎥
⎣ ⎦ (11)
имгновеннуючастоту ω′( )t
( )
t d( )
t d arctg u t( )
( )
dt dt s t⎧ ⎡ ⎤⎫
Ψ ⎪ ⎪
′
ω = = ⎨ ⎢ ⎥⎬=
⎢ ⎥ ⎪ ⎣ ⎦⎪ ⎩ ⎭
( ) ( ) ( ) ( )
( )
( )
2 2du t ds t
s t u t
dt dt
s t u t
− =
+ . (12)
Выделив вмгновенной частотепостоянную несущую ωн и начальнуюфазу ϕ0, можно вы -числитьмгновеннуюфазу ϕy
( )
t( )
( )
н 0( )
y t t t s ty
ϕ = Ψ − ω − ϕ = , (13)
которая является искомой информационной составляющей s ty
( )
в фазомодулированном речевомсигнале s t( )
.Под индексом фазовой модуляции β пони -мают [6] отношениедевиациинесущейчастоты
н
∆ω к частоте ωyмодулирующего сигнала
( )
y
s t . Потребуем неизменности индексамоду -ляции наинтервале времени Tр иположим его равнымединице β =1
p
н 1
y T ∆ω
β = =
ω . (14)
В этом случае можно предположить, что изменения мгновенной фазы информационной составляющей ϕy
( )
t (13) на интервале Tр бу -дут отражены в функции девиации несущей частоты ∆ωн.С целью увеличения точности идентифика -ции параметров фонем предлагается дополнить существующиеметодыследующималгоритмом. Сигнал s t
( )
преобразовывается в блоке 1 (рис. 2) в цифровую форму s nT( )
аналого -цифровым преобразователем АЦП с частотой дискретизации fs.Рис. 2. Функциональнаясхемаалгоритмаидентификациипараметранесущейчастотыфонем
Блок 2 осуществляет оконное W T k
(
u,)
сег -ментированиесигнала sтч( )
nT . Такимобразом, сигналнавыходеблока 2 будетопределяться(
, u) ( ) ( )
us nT T k =s nT W T k . (15)
Блок 3 производит декодирование сигнала
(
, u)
s nT T k в соответствии с выражением (13)
насегменте длительностью Tu сопределением значениянесущейчастоты ωn
s nT Ty
(
, ,u ω β = = Ψн, 1)
( )
nT − ωнnT− ϕ0, (16)где Tu – время идентификации несущей час -тоты ωн.
В блоке 4 определяются значения несущей частотыωн наинтервалевремени Tр.
По предлагаемому алгоритму был произве -ден расчет несущей частоты ωn морфем «АКУЛА», «НАУКА» и «КУКЛА», содержа -щиходинаковыефонемы.
Рис. 3. Графикианализаморфемы «АКУЛА»:
а– графикзависимостисигналаморфемыотвремени s nT( ); б – графикдевиации параметранесущейчастотынаинтервалевремениидентификации ωн
( )
TрРис. 4. Графикианализаморфемы «НАУКА»:
а– графикзависимостисигналаморфемыотвремени s nT( );
Рис. 5. Графикианализаморфемы «КУКЛА»:
а– графикзависимостисигналаморфемыотвремени s nT( );
б – графикдевиациипараметранесущейчастотынаинтервалевремениидентификации ωн( )Tu
Речевойсигналморфемзаписывалсянажест -кийдискПЭВМсчастотойдискретизации 96 кГц и 16-разряднымквантованиемпоуровню.
Проведя анализ вариации параметра несу -щей частоты ωн
( )
Tu для вокализованных фо -нем «а», «у» и «л» наинтервале Tр, можносде -латьследующиевыводы:− несущая частота фонемы «а» лежит в пределах 480…650 Гц;
− несущая частота фонемы «у» лежит в пределах 220…250 Гц;
− несущая частота фонемы «л» лежит в пределах 180…270 Гц.
Однакохарактердевиациинесущейчастоты
( )
н Tuω наинтервалеидентификациивокализо -ванных фонем разный, поэтому для определе -ния обобщенных зависимостей параметров идентификациитребуетсяпроведениедополни -тельныхисследований.
Выводы
Полученные результаты позволяют сделать вывод о целесообразности применения пред -ложенного алгоритма при идентификации па -раметровфонем.
Повышение эффективности идентифика -ции достигается на основании проведения, дополнительно к существующим методам, анализа девиации несущей частоты фонем речи, представленной в виде сигнала с фазо -воймодуляцией.
Увеличение точности идентификации воз -можно при анализе статистической обработки девиациизначенийпараметранесущейчастоты дляфонемидентифицируемогоабонентасети.
БИБЛИОГРАФИЧЕСКИЙСПИСОК 1. ЛалетинП. А. Использованиесетей с са
-мостоятельной адаптацией для распозна -вания словчеловеческойречи / П. А. Ла -летин, Э. Г. Лалетина, Ю. П. Ланкин // Научная сессия МИФИ-2000. 2-яВсерос -сийскаянаучно-техническаяконференция «Нейроинформатика-2000»: Сборник на -учных трудов. В 2-х частях. Ч. 2. – М.: МИФИ, – 2000. – С. 88–95.
3. Филимонов В. В. Опыт создания систе -мыавтоматическогораспознаваниярус -ской речи: Тезисы международной кон -ференции «Информатизация правоох -ранительныхсистем», – М.: 1998. Ч. 2, – С. 104–106.
4. БондаркоЛ. В. Звуковойстройсовремен -ногорусского языка. – М.: Просвещение, 1997. – 175 с.
5. Цвикер Э. Ухо как приемник информа -ции / Э. Цвикер, Р. Фельдкеллер; Пер. с нем. под ред. Б. Г. Белкина. – М.: Связь, 1971. – 225 с.
6. Гоноровский И. С. Радиотехнические це -пи и сигналы: Учебник для вузов. – М.: Радиоисвязь, 1986. – 512 с.