A MODIFIED REGRESSION ANALYSIS IN STRUCTURAL MODELING

(1)

УДК 511.342.2

А. А. БОСОВ, Н. А. МУХИНА (ДИИТ)

МОДИФИЦИРОВАННЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ

В СТРУКТУРНОМ МОДЕЛИРОВАНИИ

Розглянутозадачуструктурного моделюваннязадопомогою певним чиномпобудованогорегресійного аналізу.

Рассмотрена задача структурного моделирования с помощью специальным образом организованного регрессионногоанализа.

The problem of structural modelling with the help of specially organized regression analysis has been considered.

Проблема выбора лучших предикторов для заданногооткликаостаетсяактуальнойпримо -делировании сложных систем. Прежде всего это связано с большим числом взаимосвязан -ныхэлементов, приэтом взаимосвязи, как пра -вило, заранее неизвестны. Если исследователь не имеет предварительной информации о по -рядке предикторов по их важности для пред -сказания отклика, то решение проблемы, как правило, сводится к регрессии отклика по всем возможнымподмножествампоказателейивыбору среди нихнаилучшего набора предикторов. Если приэтомчислопоказателейвелико, тозадачаста -новитсяпрактическинеразрешимой. Так, еслине -обходимо у раскрытькак функцию от М пере -менных, то для выбора лучшей необходимо по -строить 2M ₋1 _{моделей}_._{Например}_,_если _число показателей равно М =20, возникает необходи -мостьпостроения 2M _{− =}1 1048575 _{моделей}_,_что становитсятруднообозримымприанализе. Одним из путей преодоления этих трудностей является пошаговаярегрессия [1; 2]. Вэтомслучаепробле -масостоитвтом, какиеименнопоказателиивка -кой последовательности необходимо включать в структуруматематическоймодели.

Вработе [3] подробнорассматриваетсяметод структурного моделирования, основанный на применении отношения толерантности τ. Этот метод обладает определенными преимущества -ми, таккакпри заданнойдоверительной вероят -ности позволяет определить структуру матема -тической модели, не решаязадачи параметриче -скойидентификации.

Несмотря на отмеченные преимущества

данного подхода, он существенно зависит от объемаопытных данных, чтотребует примене -ния и других методов для окончательного вы -борапредикторныхпеременных.

Исходнаяинформация иеепреобразование

Пусть исследуемыйобъект определяется сис -темойпоказателей Ω =

{

x₁, x₂,...,x_N }, информа -ция о которых задана в виде матрицы экспери -ментальныхзначений.

Обозначимчерез у одинизэлементовмноже -ства Ω, а именно тот, для которого необходимо определить лучшие предикторы, и в дальнейшем будемназыватьегооткликоммодели. Вэтомслу -чаематрицу экспериментальных значенийможно представитьввиде

[ ]

1 11 12 1

2 12 22 2

1 2

,

M

N N N MN

y х х х

y x x x

YX

y x x x

…

 

 

…

 

=  _… _{… … …}

 

 … 

 

где N – числопериодовнаблюденийиличисло однотипныхобъектовнаблюдений.

Относительно числа наблюдений предпо -ложим, чтоN M> .

Для удобства столбцы матрицы

[ ]

YX обо -значим через X X₁, ₂,…,X_M, причем в даль -нейшем будемсчитать, что X_i, i=1, M – ор

-тонормированные векторы, принадлежащие

евклидовомупространствуразмерности N. Необходимоотметить, что, как правило, это требование на практике не выполняется, по

-этому матрицу экспериментальных значений

[ ]

YX необходимо преобразовать в матрицу Z, столбцы которой являются ортонормирован -нымивекторами.

(2)

Положим

1 1 1

Z =X X ,

где 2 1 1 1 N i i X x =

=

∑

– длинавектора X₁.

Ортонормируемвторойстолбец, положив

2 22 2 21 1

Z = α ⋅X − α ⋅Z .

Коэффициентыα α₂₂, ₂₁определимизусловий:

2, 1 0

Z Z 〈 〉 = ;

2, 2 1

Z Z 〈 〉 = ,

где 〈Z Z₂, ₁〉 – скалярноепроизведениевекторов

2

Z и Z₁, котороебудемвычислятьпоформуле

2 1 2 1

1

, N _i _i

i

Z Z Z Z

=

〈 〉 =

∑

⋅ .

Такимобразом, врезультатерешениясистемы

22 2 1 21

2 2

22 2 2 22 21 2 1 21

, 0,

, 2 , 1

X Z

X X X Z

α 〈 〉α = 



α 〈 〉 − α α 〈 〉 + α = 

имеем:

2 1

21 ₂

2 2 2 1

,

, ,

X Z

X X X Z

〈 〉

α =

〈 〉 − 〈 〉 ,

22 ₂

2 2 2 1

1

, ,

X X X Z

α =

〈 〉 − 〈 〉 .

Дляопределения Z₃ получимсоотношениевида

3 33 3 31 1 32 2

Z = α X − α Z − α Z ,

где коэффициенты α₃₃, α₃₁, α₃₂ определим такимобразом, чтобы вектор Z₃ имел единич -нуюдлинуиприэтомбылбыортогоналенвек -торам Z₁и Z₂ т. е.

3, 3 1

Z Z 〈 〉 = ;

3, 1 0

Z Z 〈 〉 = ;

3, 2 0

Z Z 〈 〉 = .

Изортогональностиследует

31 33 3 1

32 33 3 2

X ,Z ; X ,Z .

α = α 〈 〉 

α = α 〈 〉 

Требование, чтобы вектор Z₃ имелединич -ную длину, приводит к необходимости реше -нияуравнения

2 2 2

33 X X3, 3 31 32 2 33 31 X Z3, 2

α 〈 〉 + α + α − α α 〈 〉 −

33 32 3 2

2 X Z, 1

− α α 〈 〉 = ,

подставив в которое рассчитанные α₃₁ и α₃₂, приходимкуравнению

(

2

33 X X3, 3 X Z3, 1 X Z3, 2 ) 1

α 〈 〉 − 〈 〉 − 〈 〉 = ,

откудаследует, что

33

3 3 3 1 3 2

1

, , ,

X X X Z X Z

α =

〈 〉 − 〈 〉 − 〈 〉 .

В общем виде процесс ортогонализации

описывается следующими рекуррентными со -отношениями:

1

1 k

k kk k ki i i

Z X − Z

=

= α ⋅ −

∑

α ⋅ ,

где 1 1 1 , , кк _k

k k k i i

X X − X Z

=

α =

〈 〉 −

∑

〈 〉

,

ki kk X Zk i

α = α 〈 〉,

1 ,

1 −

= k

i .

Модельсминимальнойпогрешностью

Математическую модель будем строить в

класселинейныхмоделейвследующемвиде:

0 0 1 1 2 2 м м

y a z= +a z +a z +…+a z . (1)

где z₀ – фиктивнаяпеременная, равнаяединицево всех опытах, коэффициенты a_і, і=0,M опреде -лимпометодунаименьшихквадратов (МНК).

Погрешностьмодели (1) представляетсобой:

0

1max ₀

M k i ik k N y _i a z

≤ ≤ ₌

 

ε = _ − _



∑

. (2)

Пусть V⊆ Ω – перечень показателей, кото -рые мы не будем включать в математическую модельтипа (1) в качестве предикторов, и пусть

(3)

-клик y будетопределятьсяспомощьюпоказате -лейизмножества ΩV вследующемвиде:

i i i x V

y a z

∈Ω

=

∑

.

Очевидно, чтопогрешностьмодели сущест

-венно будет зависеть от множества V и ее

можнопредставитьввиде

(

)

1maxk N k _V i ik

V y a z

≤ ≤ _Ω

 

 

ε Ω = −

 



∑



или

(

)

1max ₀

M

k i ik i ik k N _i _{i V}

V y a z a z

≤ ≤ ₌ _∈

 

ε Ω = _ − + _



∑

.

Такимобразом, оценкаимеетвид

(

)

0

1maxk N _{i V} i ik

V a z

≤ ≤ _∈

 

ε Ω ≤ ε + _ _



∑



или, обозначивчерез

( )

1maxk N _{i V} i ik

V a z

≤ ≤ _∈

 

δ = _ _



∑

,

можноутверждать, что

(

V

)

0

( )

V

ε Ω ≤ ε + δ .

Такимобразом, возникаетзадачадлязаданного отклика y определить такой набор предикторов, чтобы погрешность δ

( )

V была бы как можно меньше, при этомчисло исключаемых из набора показателей V былобыкакможнобольше.

В математическом плане сформулированная задачапредставляет собой задачу векторной оп -тимизации, иможетбытьпредставленаввиде

( )

V min,

δ →

max,

V → (3)

V ⊆ Ω.

Сформулируем основные свойства решения задачи (3).

Исходяизопределенияфункцииδ

( )

V ,следует

(

1 2

) ( ) ( )

1 2

δ V ∪V ≤ δ V + δ V ,

т. е. она является полуаддитивной функцией множества.

Построимфункцию

( )

{ }

i

i V

V z

∈

δ =

∑

δ ,

длякоторойвыполняется

( )

V

( )

V δ ≤ δ .

Рассмотрим задачу векторной оптимизации дляаддитивнойвектор-функциимножестваV :

( )

min

V V δ 

→

 

  . (4)

Определим, чтобудемпониматьподрешением задачи (4) исформулируемегоосновныесвойства. 1. Множество элементов V_∗⊆ Ω будем на -зывать эффективным, еслилюбаяего вариация приводит кувеличениюилиδ

( )

V , или V , или

( )

V

δ и V одновременно.

2. Подрешениемзадачи (3) будемпонимать множество А, содержащее все эффективные наборытипа V_∗, т. е. элементамимножества А

являются подмножества множества Ω, причем каждый из элементов представляет собой эф -фективноерешениезадачи (4).

Множество А называется множеством не -сравнимых вариантов по Парето. В рассматри -ваемой задаче это множество состоит из М

элементов, представляющих собой структуры моделей, которые могутбыть выбраны, исходя из заданной точности и числа предикторных переменных.

Пример. Рассмотрим задачу структурного моделирования для Приднепровской железной дороги, где вкачествеисходнойинформации о деятельности дороги рассматриваются данные, приведенные в работе [5]. Деятельность пред -приятиябудемопределятьпоследующимпока -зателям:

1

x – грузооборот (млнт·км);

2

x – пассажирооборот (млнпас-км);

3

x – количествопогруженныхвагонов (тыс.);

4

x – количестворазгруженныхвагонов (тыс.);

5

x – производительность локомотивов (тыс. т·кмбрутто);

6

x – вагонооборот (сутки).

Вкачествеотклика y рассмотрим x₁ – гру -зооборот. В соответствии с изложенной проце

-дурой вычислим погрешности моделей

{ }

( )

xi

δ , где i=2,6.

(4)

Таблица 1

i

x δ

( )

{ }xi δ%

2

x _4,698 _2,4989

3

x _5,030 _2,6755

4

x _8,820 _9,4231

5

x _10,740 _9,6931

6

x _5,010 _2,6649

Заметим, что если включить в математиче -скую модель в качестве предикторов все пере -менные, получим

1 63,459 0,346 2 6,249 3

x = − − x − x +

4 5 6

27,083x 0,113x 3,512x

+ + − .

Максимальная погрешностьданной модели при этом составила ε =₀ 2,2872 %, отметим, что она оказаласьменьшевсехпогрешностей %δ изтабл. 1.

Результатырешениязадачи (4) представимв видетабл. 2.

Таблица 2

№

п. п ΩV V δ( )V %

1

{

x x x x3, , ,4 5 6

}

{ }

x2 2,4989

2

{

x x x3, ,4 5

}

{

x x2, 6

}

5,1638

3

{

x x4, 5

}

{

x x x2, ,3 6

}

7,8393

4

{ }

x5

{

x x x x2, , ,3 4 6

}

17,2624

5

{ }

{

x x x x x2, , , ,3 4 5 6

}

26,9555

Таким образом, если допустимая максималь -наяпогрешностьдолжнабытьнебольше 10 %, то структура математической модели с минималь -нымчисломпредикторовбудетиметьвид

(

)

1 4, 5

x = f x x ,

в этом случае математическую модель можно представитьвследующемвиде

1 0 4 4 5 5

x =a +a x +a x , (5)

где параметры модели a_i – определяются по методунаименьшихквадратовиравны:

0 73,570

a = − ;

4 21,213

a = ;

5 0,097

a = ,

при этом максимальная погрешность состав -ляет 2,2 %.

Такимобразом, грузооборот

( )

x₁ определя

-ется количеством разгруженных вагонов

( )

x4 (тыс. сут.), и производительностью локо

-мотива

( )

x₅ (тыс. т·кмбрутто/сут.).

Нарис. 1 представленынаблюдаемыеирассчи -танныепомодели (5) значениягрузооборота

( )

x₁ .

Для сравнения приведем математическую

модель (6), когдавкачествепредиктороввзяты всепоказатели x x x x x₂, , , ,₃ ₄ ₅ ₆.

1 63,459 0,346 2 6,250 3

x = − − x − x +

4 5 6

27,083x 0,113x 3,512x

+ + − . (6)

Observed Value Predictd Value From: Predicted & Residual Values (dnepr3.sta)

Dependent variable: X1

80 100 120 140 160 180 200 220 240

1 2 3 4 5 6 7 8 9 10 11

(5)

На рис. 2 представлены наблюдаемые и рас -считанныепо модели (6) значения грузооборота в зависимости от пассажирооборота, количества

погруженных и разгруженныхвагонов, произво -дительностилокомотиваивагонооборота.

Observed Value Predictd Value From: Predicted & Residual Values (dnepr3.sta)

Dependent variable: X1

80 100 120 140 160 180 200 220 240

1 2 3 4 5 6 7 8 9 10 11

Рис. 2 Выводы

1. Предложена методика выбора предик -торныхпеременных с определенным порядком применениярегрессионногоанализа.

2. Получена возможность выбора предик -торных переменных по заданной точности ма -тематическоймодели.

БИБЛИОГРАФИЧЕСКИЙСПИСОК

1. Дрейпер Н., Смит Г. Прикладной регрессион -ныйанализ. Кн. 1. – М.: Финансы истатистика, 1986. – 366 с.

2. Дрейпер Н., Смит Г. Прикладной регрессион -ныйанализ. Кн. 2. – М.: Финансы истатистика, 1987. – 352 с.

3. БосовА. А., МухинаН. А. Основныезадачимоде -лирования по экспериментальнымданным // Пи -тання прикладної математики та математичного моделювання: Зб. наук. працьДДУ. – Д., 1999. – С. 7–12.

4. БоровиковВ. П., БоровиковИ. П. STATISTICA, Статистический анализ и обработка данных всреде WINDOWS. – М.: Филин.

5. ПасечкінВ. І. Аналіздинаміки показниківзалі -зницьУкраїни (зарезультатами моніторингу за період 1991–2001 рр.). // Залізничнийтранспорт України№ 5, 2002. – С. 2–6.