• No results found

The analysis of the information modulation parameters in excess of low-frequency components (kinema) of the speech signal

N/A
N/A
Protected

Academic year: 2020

Share "The analysis of the information modulation parameters in excess of low-frequency components (kinema) of the speech signal"

Copied!
6
0
0

Loading.... (view fulltext now)

Full text

(1)

УДК

621.055.5

В

.

Н

.

ЖУРАВЛЕВ

,

А

.

Е

.

АРХИПОВ

(

НТУУ

«

КПИ

»),

И

.

В

.

ЖУКОВИЦКИЙ

(

ДИИТ

)

АНАЛИЗ ПАРАМЕТРОВ МОДУЛЯЦИИ ИНФОРМАЦИОННЫХ

СВЕРХНИЗКОЧАСТОТНЫХ СОСТАВЛЯЮЩИХ (КИНЕМ)

РЕЧЕВОГО СИГНАЛА

Проведеноаналізінформаційнихпараметрівмодуляціїзверхнизькочастотнихскладових (кінем) мовного сигналудляшепоту. Експериментальнодоведено, щоврівноартикуляційнихсмугахнайбільшийіндекску

-товоїмодуляції, який обумовлюєстохастичність амплітудногоспектру потужності фонем, є суттєво біль

-шимзаодиницю.

Проведенанализинформационныхпараметровмодуляциисверхнизкочастотныхсоставляющих (кинем)

речевогосигнала для шепотной речи. Экспериментально доказано, что в равноартикуляционных полосах максимальныйиндексугловоймодуляции, которыйопределяетстохастичностьамплитудногоспектрамощ

-ностифонем, существеннобольшеединицы.

The analysis of informational parameters of modulation of the super-low-frequency speech signal components (kinemas) for whisper speech is realized. It is proved experimentally that in the equiarticulation bands the maximum index of angle modulation that determines the stochasticity of phoneme power amplitude spectrum is much more than one.

Введение. Постановказадачи

В соответствии с законом Украины [1], це

-льюинформационнойзащитыявляетсяпредот

-вращение утечки, хищения, утраты, искажения и подделки (имитации) информации. С точки

зрения информационной разведзащищенности

необходимо акцентировать внимание на ин

-формационнойсоставляющей речевогосигнала

(РС), которая должна быть сокрыта сигналом маскирования (СМ) вточке несанкционирован

-ногодоступатехническойразведки противника

(ТРП).

Всоответствии ссуществующимитеориями

речеобразования ислуха РС рассматриваетсяи

анализируется как информационно связанная

совокупность дифференциальных составляю

-щих речи – фонем [2]. Однако данный подход противоречит физиологическому процессу ре

-чевогообмена – передачеиприемусведенийоб образах окружающей действительности, кото

-рыепередаются, анализируютсяиидентифици

-руютсясловами. Дляанализа данногопротиво

-речия, которое можно характеризовать как

проблему теорий речеобразования и слуха, не

-обходимо провести спектрально-модуля

-ционные исследования информационных со

-ставляющих слов – кинем, которые позволят

идентифицировать информационные состав

-ляющиеРСнаинтерваледлительностислова.

Задачей статьи является анализ параметров

индекса угловой модуляции и спектральной

плотности мощности информационных сверх

-низкочастотных составляющих РС, которые

обусловлены движениями активных физиоло

-гических артикуляционных органов речеобра

-зующейсистемы.

Основнаячасть

Источником акустического РС является ар

-тикуляционныйаппаратдиктора. Онсостоитиз следующихфизиологическихорганов: бронхов,

легких, диафрагмы, трахеи, голосовых связок,

гортани, глотки, небной занавески, языка, рото

-войиносовойполостей. ВпроцессесинтезаРС воздух, под действием диафрагмы, из легких проходит через трахею, голосовые связки, гор

-тань и затем разветвляется на два потока

(рис. 1). Один поток поступает в носоглотку,

взаимодействует с носовой полостью и выхо

-дит через носовые отверстия. Другой поток,

пройдя через ротовую полость, выходит через ротовое отверстие. Воздух, сжатый в легких мышцамигрудной клетки, поступает втрахею,

перекрытую голосовыми связками, которые

представляют собой эластичные мышцы. Под

действием потокавоздухаиуправлением пара

-метраэластичностисвязкименяютсвоюформу

иплощадьотверстияголосовойщели. Присин

-тезе вокализованных звуков голосовые связки

вибрируют, создавая, сигнал основного

(2)

Рис. 1. Функциональнаямодельартикуляционногоаппарата

Невокализованныезвукисинтезируютсяпри

открытых и неподвижных голосовых связках,

под действием физиологического турбулентно

-го шума S tn( ), возникающего в результате

прохождения воздушного потока через щели,

образуемые артикуляционными физиологиче

-скими органами. Сигнал ОТ и турбулентный

шум являются несущими сигналами для ин

-формационныхсоставляющих РС в воздушной

среде. Изменения конфигурации голосового

тракта и колебания голосовых связок взаимо

-связаны так, что вся артикуляционная система

функционирует как единый сложный объект.

Однагруппаорганов – зубы, твердоенебо, зад

-няястенкаглоткииносовойполости – участву

-ет в артикуляции пассивно, так как остается неподвижной. Ее можно определить как иден

-тификационную группу артикуляционных ор

-ганов диктора, в части анализа информации,

содержащейся в РС. Другая группа артикуля

-ционных органов – легкие, диафрагма, голосо

-вые связки, нижняя челюсть, губы, язык, мяг

-коенёбо, нёбнаязанавеска, – являетсяактивно

-информационной, так как впроцессе артикуля

-ции осуществляет упорядоченные центральной

нервной системой информативные движения.

Этидвижения физиологических артикуляцион

-ных органов русский основатель Казанской

лингвистической школы И. А. Бодуэн де Кур

-тенэобъединил [3] общимтермином «кинема».

Информационныйсигнал кинем ( )Ki t явля

-ется свехнизкочастотным ( fk <300Hz) и не

может быть передан в атмосфере на жизненно

необходимые расстояния (за исключением ме

-тода сурдопередачи), поэтому в процессе фи

-зиологического процесса речеобразования он

модулирует несущие сигналы, образованные

гармоническими составляющими сигнала ОТ

(процесс вокализации) и физиологического

шума, обеспечиваянеобходимуюакустическую мощностьРС. К настоящему временисвойства

и параметры вокализованного РС рассмотрены

и исследованы достаточно подробно [4]. Ак

-центирование процесса вокализации обоснова

-ло вывод о доминирующем информационном

значении амплитудной модуляции несущих

спектральных составляющих сигнала ОТ, и,

соответственно, информационном значении

амплитудногоспектраплотностимощностиРС.

Однако форма и параметры сигнала ОТ суще

-ственно вариабельны, потому амплитудный

спектр мощности для одних и тех же фонем

(слов) отличаются для одного и того же ауди

-тора. Данный факт не позволяет провести мо

-дуляционный анализ информационных пара

-метров кинем для вокализованной речи. С це

-льюинформационногоанализамодуляционных

параметров кинем, на данном этапе анализа

считаем целесообразным предварительно про

-вести исследования слов, артикулированных

«шепотной речью», т.е. РС, в которомотсутст

-вуетсигналОТ, однакополностьюсохраняется информационнаясоставляющая.

Принимая во внимание факт объединения

частотных составляющих речи в частотные

(равноартикуляционные) группы [5], речевой сигнал ( )Si t можно представитькак сумму не

-сущих сигналовчастотныхгрупп ( )n F

S t , кото

-рые модулированы , [ n ( ), ( )]

A F F

M ϕ S t Ki t ин

-формационными составляющими кинем соот

-ветствующихчастотныхгрупп Ki tF( ):

, 1

( ) [ ( ), ( )]

i

k

n

A F F i

i

Si t M ϕ S t Ki t

=

(3)

где k – количество анализируемых частотных группРС.

Основываясь на гипотезе фазовой чувстви

-тельностирецептораслуха [6], представимсиг

-нал кинем ( )Ki t как сумму m гармонических сигналов

1

( ) m i( )cos[ i i( ) i( )]

i

Ki t A t k t t t

=

=

ω + β Ψ ,

где выражение под знаком косинуса есть пол

-ная фаза, которая является информационным

сигналом, т.к. отображаетинформациюо теку

-щем изменении фазы сигнала кинем. Несущий

сигнал физиологического шума ( )S tn класси

-чески [4] представляет собой случайный про

-цесс с нормальным законом распределения

плотности вероятности амплитуд. Таким обра

-зом, сигналы (1) слов шепотной речи можно

представитьследующимвыражением:

( , )Si ω =t Sn(ωn, )t ×

1

( )cos[ ( ) ( )]

m

i i i i

i

A t k t t t

=

×

ω + β Ψ , (2)

где Ψi( )t , ωki – фазовыйуголиугловаячасто

-та i-ой кинемы, βi

( )

t – соответствующий ин

-дексугловоймодуляции.

Данный сигнал можно анализировать как

широкополосный случайный процесс в полосе

несущих тональных частот: ω ωl, h нижняя и

верхняячастотыанализируемогоРС.

Детерминированной характеристикой дан

-ного процесса (2) является средняя мощность

( , )

N ωt , которая определяется [7] как преобра

-зование Фурье от его автокорреляционной

функции ( )RSi τ :

0

1

( , ) ( )exp( ) ,

Tc

n n

Si

N ω t = R τ − ω τ τj d π

(ω ∈ ω ω τ∈n [ ,l h]; [0, ])Tc , (3)

где Tc – анализируемый временной интервал

длительностислова.

Однако преобразование Фурье имеет лока

-лизацию в частотной области, т.к. его ядро

exp(− ω τj n ) не локализовано во времени τ. В

связи с тем, что процесс артикуляции кинем иррегулирован во времени, локализуем преоб

-разование Фурье на временных промежутках

конечнойдлины, которая определяетсянижней частотнойкинем ωkl, введявпроцесспреобра

-зования Гэбора [8] окно Гаусса ( n, )

G G

W ω T

свременным интервалом TG 2 l

k π =

ω , подставляя в (3), получим:

0

1

( , ) ( , ) ( )exp( ) ,

Tc

n n n

G G Si

N ω t = W ω T R τ − ω τ τj d

π

(ω ∈ ω ω τ∈n [ ,l h]; [0, ]) Tc . (4)

Экспериментальные исследования проводи

-лись с реальными РС, артикулированными из

стандартных словесных таблиц профессио

-нальным диктором и сигналами физиологиче

-ского шума. В качестве демонстрационного

компонента РС для данной статьи взято слово

«лошадка», в связи с тем, что оно содержит гласные, согласные и взрывные фонемы. Дли

-тельностьслова 884 мс (8123 отсчетовпричас

-тотедискретизации 44100 Гц).

В первую очередь, с целью корректности

применения метода [7], проводился анализ па

-раметров нормальности физиологического шу

-ма ( )S tn . Результаты анализа (на интервалах

времени 10 msTa = , 100 Hzω =l ) распределе

-ния амплитуд, спектра и автокорреляционной

функции позволяют сделать вывод о нормаль

-номзаконераспределенияплотностивероятно

-стиамплитуд, и, такимобразомо корректности

примененияметодаидентификацииогибающей

ифазыслучайногосигнала.

Анализ спектральной плотности мощности

( n, )

N ω t по выражению (4) проводился в под

-тональном диапазоне частот 300 Hzω <n с

временным интервалом окна анализа

500 ms

G

T = , 2 Hzω =kl , которое перемеща

-лось по данным файла анализируемого слова

дискретно с шагом Td =11 ms. Результатыана

-лизаприведенынарис. 2.

На графике зависимости спектральной

плотности мощности от частоты и вре-

мени видны максимумы в районе

(12;25;125) Hz

K

f = , которые кратны частотам

девиации формант [10], чтоподтверждает кор

-ректность полученныхрезультатов. Спектраль

-ная составляющая с частотой сети (50) Hzf = являетсяпомехой, всвязистем, чтопризаписи словприменялсяаналоговыймикрофон. Впро

-цессе эксперимента был проведен анализ 200

слов (4 таблицы по 50 слов). Проведя анализ полученных результатов, можно сделать вывод

о реальности информационной угловой моду

-ляции кинемами несущих частот физиологиче

(4)

Рис. 2. Результатыанализавременнойичастотнойзависимостиспектральнойплотности

мощности N(ωn, )t слова «лошадка».

Для проведения анализа индекса угловой

модуляции кинемами несущих сигналов в час

-тотных (равноартикуляционных) группах [5]

сделаем допущение, что на интервале времени анализа Ta огибающая спектра мощности сиг

-нала кинемы, которая является параметром

адаптации коэффициента передачи среднего

уха, постоянна иравна единице. В этомслучае информационная составляющая РС, анализи

-руемая слуховым рецептором, будет опреде

-ляться девиацией параметра индекса угловой

модуляции ( )βt . Демодуляция РС осуществля

-лась традиционным методом [8], который пре

-дусматривает промежуточное вычисление ана

-литического сигналапри помощи преобразова

-ния Гильберта и нахождение аргумента

( n, )

i i t

Ψ ω исследуемогосигнала.

( n, ) arg{ { n ( n, )

i i t Hil S i i t

Ψ ω = ω ×

cos[ ( ) ( )]exp( n )}},

i i i i

k t t t j t

× ω + β Ψ − ω (5)

где {*}Hil – вычислениепреобразованияГиль

-берта, arg{*} – вычисление аргумента функ

-ции.

Всвязис тем, чтопримодуляциикинемами

( )

Ki t нормального физиологического шума

( )

n

S t несущая частота n

i

ω информационно

флуктуирует возле своего среднего значения,

анализ ее девиации осуществлялся оригиналь

-нымметодом, предусматривающим итерацион

-ное вычисление несущих частот кинем (5) по критериямстационарностиисследуемогодемо

-дулированного аналитического сигнала (посто

-янстваматематического ожидания [*]M идис

-персии [*]D с задаваемым диапазоном точно

-сти ±x):

,

,

[ ( , )] [ ( , )]

[ ( , )] [ ( , )]

m Fi i d Fi i M d

m Fi i d Fi i D d

M Si t M Si t x

D Si t D Si t x

ω = ω ±

⎧ ⎫

⎪ ⎪

ω = ω ±

⎪ ⎪

⎩ ⎭,

где подстрочные прописные индексы ,m d от

-носятся к соответствующим процессам моду

-ляции и демодуляции, xd – параметр допусти

-могоотклоненияпридемодуляцииопределялся

как xM d, =0,05Mm.

Индексугловоймодуляцииввыражении (5)

определялся для аналитического сигнала как

отношение максимальной девиации аргумента

кмаксимальнойдевиациинесущегосигнала

max( , ) min( , )

( )

n n

i i t i i t

t Ψ ω − Ψ ω

β =

π ,

где max( n , ), min( n , )

i i t i i t

Ψ ω Ψ ω – максимальное и

минимальное значение аргумента выражения

(5) для i-ой частотной полосы. Адекватность

метода подтверждена инверсным восстановле

-ниеманализируемогослова.

Данные слов анализировались на усреднен

-ных временных интервалах фонем (bloc)

94 ms

a

T = в 19 равноартикуляционных частот

-ных полосах [5] (band). Результаты анализа па

-раметраиндексаугловой модуляции ( )β t слова

(5)

Рис. 3. Результатыанализазависимостиинформационногопараметраиндексаугловоймодуляции β( )t

отчастоты (band) ивремени (bloc) слова «лошадка», артикулированногошепотнойречью. Максимальныезначенияпараметра ( )β t на

-блюдаются в полосе частот первых трех фор

-мант, а также высокочастотной области спек

-тра, что хорошо согласуется с результатами ранеепроведенныхисследований [2, 4].

Для сравнения максимального индекса

модуляции были проведены испытания со

словами, которые артикулированы вокализо

-ванной речью, в частности на рис. 4 представ

-лена зависимость параметра индекса угловой

модуляции ( )βt от частоты (band) и времени

(bloc) слова «лошадка» (длительность 1017 мс),

артикулированноговокализованнойречью.

Рис. 4. Результатыанализазависимостиинформационногопараметраиндексаугловоймодуляции β( )t от частоты (band) ивремени (bloc) слова «лошадка», артикулированноговокализованнойречью.

Сравниваярис. 3 ирис. 4, видно, чтозначе

-ниепараметраиндексаугловоймодуляции ( )βt претерпело значительные изменения: появи

-лисьмаксимумы на частотахпервых трех фор

-мант, атакжезначительноуменьшиласьампли

-туда максимума на частотах пятой форманты.

(6)

-гоже словатакже значительно изменился. Для выясненияпричины стользначительной вариа

-бельности спектра проведем анализ ширины

спектра в равноартикуляционных полосах. Из

-вестно [9], что спектр ( , )Sϕ ωt сигнала с угло

-воймодуляциейопределяетсякак:

( , ) ( )i [ ( )]cos( n )

i i i

i

Sϕ t A t =∞ J t i k t

=−∞

ω =

β ω + ω , (6)

где [ ( )]Ji βt – функцияБесселя 1-городапоряд

-ка i от аргумента ( )β t . Как видно из анализа выражения (6), спектрРС вкаждой равноарти

-куляционнойполосе чувствителен к параметру

( )t

β и содержит бесконечное количество со

-ставляющих с частотами n ;

i i ki

ω + ω

0, 1, 2,...

k = ± ± . Амплитуда i-й составляющей равна ( ) [ ( )]A t Ji βt , т.е. пропорциональнафунк

-ции Бесселя i-ого порядка от аргумента ( )βt .

При индексах модуляции, больших единицы

[10], ширинаспектра ( , )Sϕ ωt близка кудвоен

-нойдевиациичастотыкинем 2ωk , награницах

равноартикуляционных полос происходит су

-перпозицияспектровсигналов, чтоиопределя

-ет значительную вариабельность и неравно

-мерность [11] спектрафонемРС.

Выводы

В процессе анализа исследовались частоты

кинем ( )Ki tF , частоты девиации несущих час

-тот частотных групп на интервале времени

длительностислова, а также максимальныеин

-дексы угловой модуляции несущих частот в

полосе частотной группы. Исследования про

-водились со словами, артикулированными как шепотной, такивокализованнойречью.

Врезультатеисследованийустановлено:

1) Частоты кинем ( )ωk ti лежат вдиапазоне

(2…250) Гц, с максимумом (24…30, 60…100)

Гц, что хорошо согласуется с нечетными гар

-мониками частоты девиации первых трех фор

-мант.

2) Для шепотной речи индекс угловой мо

-дуляции ( )βt несущих частотв полосе частот

-ной группы лежит в диапазоне (0,7…60), мак

-симальное значение индекса модуляции на

-блюдаетсявчастотныхдиапазонахпервыхтрех формантивысокочастотнойчастиспектраРС.

3) При индексах модуляции ( )β t , больших единицы, ширинаспектра ( , )Sϕ ωt близка куд

-военной девиациичастоты кинем 2ωk, награ

-ницах равноартикуляционных полос происхо

-дит суперпозицияспектров сигналов, чтоопре

-деляет значительную вариабельность и нерав

-номерность спектра фонем РС как для шепот

-ной, такидлявокализованнойречи.

Результаты проведенных исследований по

-зволяют оценить помехоустойчивость РС, а

также адаптировать сигнал маскирования по

информационным параметрам кинем, что по

-вышает информационнуюразведзащищенность

выделенных помещений от ТРП при анализе в

модели угроз корреляционных методов дема

-скированияРС.

БИБЛИОГРАФИЧЕСКИЙСПИСОК

1. ДСТУ 3396.2-97. Державний стандарт України.

Захист інформації, Технічний захист інформа

-ції. Термінитавизначення. −К., 1998. – 12 с. 2. Фланаган Дж. Анализ, синтез ивосприятие ре

-чи: Пер. с англ./ Под ред. А. А. Пирогова. –

М.: Связь, 1968. – 396 с.

3. Бодуэн де КуртенэИ. А. Разница междуфоне

-тикой и психофонетикой. Избранные труды по

общемуязыкознанию, Т. 2, – М., 1963. – 547 с.

4. Вокодерная телефония. Методы и проблемы. /

Под ред. А. А. Пирогова – М.: Связь, 1974. – 536 с.

5. Цвикер Э. Ухо как приемник информации. /

Э. Цвикер, Р. Фельдкеллер / Пер. с нем. под ред. Б. Г. Белкина. – М.: Связь, 1971. – 225 с. 6. ЖуравлевВ. Н. Анализгипотезыфазовойчувс

-твительности слухового рецептора / В. Н. Жу

-равлев, А. Е. Архипов // Тезидоп. III Міжн. на

-ук. конф. «Інтелектуальні системі прийняття рішеньіприкладніаспектиінформаційнихтех

-нологій (ISDMIT’2007)» – Євпаторія, 2007. 7. Тихонов В. И. Статистическая радиотехника. –

М., 1982. – 624 с.

8. ВитязевВ. В. Вейвлет-анализвременныхрядов:

Учеб. пособие. – СПб., 2001. – 58 с.

9. СергиенкоА.Б. Цифроваяобработкасигналов. –

СПб., 2003. – 608 с.

10. Гоноровский И. С. Радиотехнические цепи и сигналы. – М.: Радиоисвязь, 1986. – 512 с. 11. Михайлов В. Г. Измерение параметров речи /

В. Г., Михайлов, Л. В. Златоустова. – М., 1987. – 168 с.

References

Related documents

Centers for Disease Control and Prevention; EHR: Electronic health record; EMR: Electronic medical record; GHC: Group health centre; ITS: [Niagara Region] information

AIRWAYS ICPs: integrated care pathways for airway diseases; ARIA: Allergic Rhinitis and its Impact on Asthma; COPD: chronic obstructive pulmonary disease; DG: Directorate General;

It was decided that with the presence of such significant red flag signs that she should undergo advanced imaging, in this case an MRI, that revealed an underlying malignancy, which

Eksperimenti su pokazali da je za mutiranu tRNA Trp , koja nosi supstituciju u D-ruci, smanjena točnost procesa translacije na način da su reakcije koje se odvijaju

After successfully supporting the development of the wind power technology, an approach is needed to include the owners of wind turbines in the task of realizing other ways, other

19% serve a county. Fourteen per cent of the centers provide service for adjoining states in addition to the states in which they are located; usually these adjoining states have

Field experiments were conducted at Ebonyi State University Research Farm during 2009 and 2010 farming seasons to evaluate the effect of intercropping maize with

The current study also observed that plasma NFL correlated inversely with cognitive performance, particularly, verbal and visual episodic memory, executive function and working