• No results found

A MODIFIED REGRESSION ANALYSIS IN STRUCTURAL MODELING

N/A
N/A
Protected

Academic year: 2020

Share "A MODIFIED REGRESSION ANALYSIS IN STRUCTURAL MODELING"

Copied!
5
0
0

Loading.... (view fulltext now)

Full text

(1)

УДК 511.342.2

А. А. БОСОВ, Н. А. МУХИНА (ДИИТ)

МОДИФИЦИРОВАННЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ

В СТРУКТУРНОМ МОДЕЛИРОВАНИИ

Розглянутозадачуструктурного моделюваннязадопомогою певним чиномпобудованогорегресійного аналізу.

Рассмотрена задача структурного моделирования с помощью специальным образом организованного регрессионногоанализа.

The problem of structural modelling with the help of specially organized regression analysis has been considered.

Проблема выбора лучших предикторов для заданногооткликаостаетсяактуальнойпримо -делировании сложных систем. Прежде всего это связано с большим числом взаимосвязан -ныхэлементов, приэтом взаимосвязи, как пра -вило, заранее неизвестны. Если исследователь не имеет предварительной информации о по -рядке предикторов по их важности для пред -сказания отклика, то решение проблемы, как правило, сводится к регрессии отклика по всем возможнымподмножествампоказателейивыбору среди нихнаилучшего набора предикторов. Если приэтомчислопоказателейвелико, тозадачаста -новитсяпрактическинеразрешимой. Так, еслине -обходимо у раскрытькак функцию от М пере -менных, то для выбора лучшей необходимо по -строить 2M 1 моделей. Например, если число показателей равно М =20, возникает необходи -мостьпостроения 2M − =1 1048575 моделей, что становитсятруднообозримымприанализе. Одним из путей преодоления этих трудностей является пошаговаярегрессия [1; 2]. Вэтомслучаепробле -масостоитвтом, какиеименнопоказателиивка -кой последовательности необходимо включать в структуруматематическоймодели.

Вработе [3] подробнорассматриваетсяметод структурного моделирования, основанный на применении отношения толерантности τ. Этот метод обладает определенными преимущества -ми, таккакпри заданнойдоверительной вероят -ности позволяет определить структуру матема -тической модели, не решаязадачи параметриче -скойидентификации.

Несмотря на отмеченные преимущества

данного подхода, он существенно зависит от объемаопытных данных, чтотребует примене -ния и других методов для окончательного вы -борапредикторныхпеременных.

Исходнаяинформация иеепреобразование

Пусть исследуемыйобъект определяется сис -темойпоказателей Ω =

{

x1, x2,...,xN }, информа -ция о которых задана в виде матрицы экспери -ментальныхзначений.

Обозначимчерез у одинизэлементовмноже -ства Ω, а именно тот, для которого необходимо определить лучшие предикторы, и в дальнейшем будемназыватьегооткликоммодели. Вэтомслу -чаематрицу экспериментальных значенийможно представитьввиде

[ ]

1 11 12 1

2 12 22 2

1 2

,

M

M

N N N MN

y х х х

y x x x

YX

y x x x

 

 

 

=  … … …

 

 … 

 

где N – числопериодовнаблюденийиличисло однотипныхобъектовнаблюдений.

Относительно числа наблюдений предпо -ложим, чтоN M> .

Для удобства столбцы матрицы

[ ]

YX обо -значим через X X1, 2,…,XM, причем в даль -нейшем будемсчитать, что Xi, i=1, M – ор

-тонормированные векторы, принадлежащие

евклидовомупространствуразмерности N. Необходимоотметить, что, как правило, это требование на практике не выполняется, по

-этому матрицу экспериментальных значений

[ ]

YX необходимо преобразовать в матрицу Z, столбцы которой являются ортонормирован -нымивекторами.

(2)

Положим

1 1 1

Z =X X ,

где 2 1 1 1 N i i X x =

=

– длинавектора X1.

Ортонормируемвторойстолбец, положив

2 22 2 21 1

Z = α ⋅X − α ⋅Z .

Коэффициентыα α22, 21определимизусловий:

2, 1 0

Z Z 〈 〉 = ;

2, 2 1

Z Z 〈 〉 = ,

где 〈Z Z2, 1〉 – скалярноепроизведениевекторов

2

Z и Z1, котороебудемвычислятьпоформуле

2 1 2 1

1

, N i i

i

Z Z Z Z

=

〈 〉 =

⋅ .

Такимобразом, врезультатерешениясистемы

22 2 1 21

2 2

22 2 2 22 21 2 1 21

, 0,

, 2 , 1

X Z

X X X Z

α 〈 〉α = 

α 〈 〉 − α α 〈 〉 + α = 

имеем:

2 1

21 2

2 2 2 1

,

, ,

X Z

X X X Z

〈 〉

α =

〈 〉 − 〈 〉 ,

22 2

2 2 2 1

1

, ,

X X X Z

α =

〈 〉 − 〈 〉 .

Дляопределения Z3 получимсоотношениевида

3 33 3 31 1 32 2

Z = α X − α Z − α Z ,

где коэффициенты α33, α31, α32 определим такимобразом, чтобы вектор Z3 имел единич -нуюдлинуиприэтомбылбыортогоналенвек -торам Z1и Z2 т. е.

3, 3 1

Z Z 〈 〉 = ;

3, 1 0

Z Z 〈 〉 = ;

3, 2 0

Z Z 〈 〉 = .

Изортогональностиследует

31 33 3 1

32 33 3 2

X ,Z ; X ,Z .

α = α 〈 〉 

α = α 〈 〉 

Требование, чтобы вектор Z3 имелединич -ную длину, приводит к необходимости реше -нияуравнения

2 2 2

33 X X3, 3 31 32 2 33 31 X Z3, 2

α 〈 〉 + α + α − α α 〈 〉 −

33 32 3 2

2 X Z, 1

− α α 〈 〉 = ,

подставив в которое рассчитанные α31 и α32, приходимкуравнению

(

2

33 X X3, 3 X Z3, 1 X Z3, 2 ) 1

α 〈 〉 − 〈 〉 − 〈 〉 = ,

откудаследует, что

33

3 3 3 1 3 2

1

, , ,

X X X Z X Z

α =

〈 〉 − 〈 〉 − 〈 〉 .

В общем виде процесс ортогонализации

описывается следующими рекуррентными со -отношениями:

1

1 k

k kk k ki i i

Z XZ

=

= α ⋅ −

α ⋅ ,

где 1 1 1 , , кк k

k k k i i

X XX Z

=

α =

〈 〉 −

〈 〉

,

,

ki kk X Zk i

α = α 〈 〉,

1 ,

1 −

= k

i .

Модельсминимальнойпогрешностью

Математическую модель будем строить в

класселинейныхмоделейвследующемвиде:

0 0 1 1 2 2 м м

y a z= +a z +a z +…+a z . (1)

где z0 – фиктивнаяпеременная, равнаяединицево всех опытах, коэффициенты aі, і=0,M опреде -лимпометодунаименьшихквадратов (МНК).

Погрешностьмодели (1) представляетсобой:

0

1max 0

M k i ik k N y i a z

≤ ≤ =

 

ε =  − 

. (2)

Пусть V⊆ Ω – перечень показателей, кото -рые мы не будем включать в математическую модельтипа (1) в качестве предикторов, и пусть

(3)

-клик y будетопределятьсяспомощьюпоказате -лейизмножества ΩV вследующемвиде:

i i i x V

y a z

∈Ω

=

.

Очевидно, чтопогрешностьмодели сущест

-венно будет зависеть от множества V и ее

можнопредставитьввиде

(

)

1maxk N k V i ik

V y a z

≤ ≤

 

 

ε Ω = −

 

или

(

)

1max 0

M

k i ik i ik k N i i V

V y a z a z

≤ ≤ =

 

ε Ω =  − + 

.

Такимобразом, оценкаимеетвид

(

)

0

1maxk N i V i ik

V a z

≤ ≤

 

ε Ω ≤ ε + 

или, обозначивчерез

( )

1maxk N i V i ik

V a z

≤ ≤

 

δ = 

,

можноутверждать, что

(

V

)

0

( )

V

ε Ω ≤ ε + δ .

Такимобразом, возникаетзадачадлязаданного отклика y определить такой набор предикторов, чтобы погрешность δ

( )

V была бы как можно меньше, при этомчисло исключаемых из набора показателей V былобыкакможнобольше.

В математическом плане сформулированная задачапредставляет собой задачу векторной оп -тимизации, иможетбытьпредставленаввиде

( )

V min,

δ →

max,

V → (3)

V ⊆ Ω.

Сформулируем основные свойства решения задачи (3).

Исходяизопределенияфункцииδ

( )

V ,следует

(

1 2

) ( ) ( )

1 2

δ VV ≤ δ V + δ V ,

т. е. она является полуаддитивной функцией множества.

Построимфункцию

( )

( )

{ }

i

i V

V z

δ =

δ ,

длякоторойвыполняется

( )

V

( )

V δ ≤ δ .

Рассмотрим задачу векторной оптимизации дляаддитивнойвектор-функциимножестваV :

( )

min

V V δ 

 

 

  . (4)

Определим, чтобудемпониматьподрешением задачи (4) исформулируемегоосновныесвойства. 1. Множество элементов V⊆ Ω будем на -зывать эффективным, еслилюбаяего вариация приводит кувеличениюилиδ

( )

V , или V , или

( )

V

δ и V одновременно.

2. Подрешениемзадачи (3) будемпонимать множество А, содержащее все эффективные наборытипа V, т. е. элементамимножества А

являются подмножества множества Ω, причем каждый из элементов представляет собой эф -фективноерешениезадачи (4).

Множество А называется множеством не -сравнимых вариантов по Парето. В рассматри -ваемой задаче это множество состоит из М

элементов, представляющих собой структуры моделей, которые могутбыть выбраны, исходя из заданной точности и числа предикторных переменных.

Пример. Рассмотрим задачу структурного моделирования для Приднепровской железной дороги, где вкачествеисходнойинформации о деятельности дороги рассматриваются данные, приведенные в работе [5]. Деятельность пред -приятиябудемопределятьпоследующимпока -зателям:

1

x – грузооборот (млнт·км);

2

x – пассажирооборот (млнпас-км);

3

x – количествопогруженныхвагонов (тыс.);

4

x – количестворазгруженныхвагонов (тыс.);

5

x – производительность локомотивов (тыс. т·кмбрутто);

6

x – вагонооборот (сутки).

Вкачествеотклика y рассмотрим x1 – гру -зооборот. В соответствии с изложенной проце

-дурой вычислим погрешности моделей

{ }

( )

xi

δ , где i=2,6.

(4)

Таблица 1

i

x δ

( )

{ }xi δ%

2

x 4,698 2,4989

3

x 5,030 2,6755

4

x 8,820 9,4231

5

x 10,740 9,6931

6

x 5,010 2,6649

Заметим, что если включить в математиче -скую модель в качестве предикторов все пере -менные, получим

1 63,459 0,346 2 6,249 3

x = − − xx +

4 5 6

27,083x 0,113x 3,512x

+ + − .

Максимальная погрешностьданной модели при этом составила ε =0 2,2872 %, отметим, что она оказаласьменьшевсехпогрешностей %δ изтабл. 1.

Результатырешениязадачи (4) представимв видетабл. 2.

Таблица 2

п. п ΩV V δ( )V %

1

{

x x x x3, , ,4 5 6

}

{ }

x2 2,4989

2

{

x x x3, ,4 5

}

{

x x2, 6

}

5,1638

3

{

x x4, 5

}

{

x x x2, ,3 6

}

7,8393

4

{ }

x5

{

x x x x2, , ,3 4 6

}

17,2624

5

{ }

{

x x x x x2, , , ,3 4 5 6

}

26,9555

Таким образом, если допустимая максималь -наяпогрешностьдолжнабытьнебольше 10 %, то структура математической модели с минималь -нымчисломпредикторовбудетиметьвид

(

)

1 4, 5

x = f x x ,

в этом случае математическую модель можно представитьвследующемвиде

1 0 4 4 5 5

x =a +a x +a x , (5)

где параметры модели ai – определяются по методунаименьшихквадратовиравны:

0 73,570

a = − ;

4 21,213

a = ;

5 0,097

a = ,

при этом максимальная погрешность состав -ляет 2,2 %.

Такимобразом, грузооборот

( )

x1 определя

-ется количеством разгруженных вагонов

( )

x4 (тыс. сут.), и производительностью локо

-мотива

( )

x5 (тыс. т·кмбрутто/сут.).

Нарис. 1 представленынаблюдаемыеирассчи -танныепомодели (5) значениягрузооборота

( )

x1 .

Для сравнения приведем математическую

модель (6), когдавкачествепредиктороввзяты всепоказатели x x x x x2, , , ,3 4 5 6.

1 63,459 0,346 2 6,250 3

x = − − xx +

4 5 6

27,083x 0,113x 3,512x

+ + − . (6)

Observed Value Predictd Value From: Predicted & Residual Values (dnepr3.sta)

Dependent variable: X1

80 100 120 140 160 180 200 220 240

1 2 3 4 5 6 7 8 9 10 11

(5)

На рис. 2 представлены наблюдаемые и рас -считанныепо модели (6) значения грузооборота в зависимости от пассажирооборота, количества

погруженных и разгруженныхвагонов, произво -дительностилокомотиваивагонооборота.

Observed Value Predictd Value From: Predicted & Residual Values (dnepr3.sta)

Dependent variable: X1

80 100 120 140 160 180 200 220 240

1 2 3 4 5 6 7 8 9 10 11

Рис. 2 Выводы

1. Предложена методика выбора предик -торныхпеременных с определенным порядком применениярегрессионногоанализа.

2. Получена возможность выбора предик -торных переменных по заданной точности ма -тематическоймодели.

БИБЛИОГРАФИЧЕСКИЙСПИСОК

1. Дрейпер Н., Смит Г. Прикладной регрессион -ныйанализ. Кн. 1. – М.: Финансы истатистика, 1986. – 366 с.

2. Дрейпер Н., Смит Г. Прикладной регрессион -ныйанализ. Кн. 2. – М.: Финансы истатистика, 1987. – 352 с.

3. БосовА. А., МухинаН. А. Основныезадачимоде -лирования по экспериментальнымданным // Пи -тання прикладної математики та математичного моделювання: Зб. наук. працьДДУ. – Д., 1999. – С. 7–12.

4. БоровиковВ. П., БоровиковИ. П. STATISTICA, Статистический анализ и обработка данных всреде WINDOWS. – М.: Филин.

5. ПасечкінВ. І. Аналіздинаміки показниківзалі -зницьУкраїни (зарезультатами моніторингу за період 1991–2001 рр.). // Залізничнийтранспорт України№ 5, 2002. – С. 2–6.

References

Related documents

This course is open only to students admitted to the Law Enforcement Florida CMS Basic Recruit Academy or Correctional Officer Basic Recruit Academy..

DSM: Diagnostic and statistical manual; ICD-10: International classification of disease 10; LVM: Latent variable model; LCM: Latent class model; LPM: Latent profile model; LCGM:

To understand the role of individual ENaC subunits in Na 1 transport during development, we quantified murine ENaC (mENaC) subunit messenger RNA (mRNA) expression levels of

4 Cellular physiological characterisation and related differentially expressed genes in strains H14, 20, 27, and 31 compared with control 24 h post-induction of gene expression: a

The conceptual understanding levels of the student teachers were classified as no drawing, non-representational drawings, drawings with misconceptions, partial drawings

To the best of our knowledge, we are the rst to account fully for endogeneity in the standards-trade relationship using three-way xed eects following the recent empirical

Cancellous/trabecular bone HSC N-cadherin β -catenin SNO cells ….spindle-shaped N-cadherin+CD45- osteoblasts (SNO cells) lining the bone surface function as a key component of

These included: how to ensure that all staff understood and supported the new approaches, in the context of a casualized academic workforce; the need for