УДК 511.342.2
А. А. БОСОВ, Н. А. МУХИНА (ДИИТ)
МОДИФИЦИРОВАННЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ
В СТРУКТУРНОМ МОДЕЛИРОВАНИИ
Розглянутозадачуструктурного моделюваннязадопомогою певним чиномпобудованогорегресійного аналізу.
Рассмотрена задача структурного моделирования с помощью специальным образом организованного регрессионногоанализа.
The problem of structural modelling with the help of specially organized regression analysis has been considered.
Проблема выбора лучших предикторов для заданногооткликаостаетсяактуальнойпримо -делировании сложных систем. Прежде всего это связано с большим числом взаимосвязан -ныхэлементов, приэтом взаимосвязи, как пра -вило, заранее неизвестны. Если исследователь не имеет предварительной информации о по -рядке предикторов по их важности для пред -сказания отклика, то решение проблемы, как правило, сводится к регрессии отклика по всем возможнымподмножествампоказателейивыбору среди нихнаилучшего набора предикторов. Если приэтомчислопоказателейвелико, тозадачаста -новитсяпрактическинеразрешимой. Так, еслине -обходимо у раскрытькак функцию от М пере -менных, то для выбора лучшей необходимо по -строить 2M −1 моделей. Например, если число показателей равно М =20, возникает необходи -мостьпостроения 2M − =1 1048575 моделей, что становитсятруднообозримымприанализе. Одним из путей преодоления этих трудностей является пошаговаярегрессия [1; 2]. Вэтомслучаепробле -масостоитвтом, какиеименнопоказателиивка -кой последовательности необходимо включать в структуруматематическоймодели.
Вработе [3] подробнорассматриваетсяметод структурного моделирования, основанный на применении отношения толерантности τ. Этот метод обладает определенными преимущества -ми, таккакпри заданнойдоверительной вероят -ности позволяет определить структуру матема -тической модели, не решаязадачи параметриче -скойидентификации.
Несмотря на отмеченные преимущества
данного подхода, он существенно зависит от объемаопытных данных, чтотребует примене -ния и других методов для окончательного вы -борапредикторныхпеременных.
Исходнаяинформация иеепреобразование
Пусть исследуемыйобъект определяется сис -темойпоказателей Ω =
{
x1, x2,...,xN }, информа -ция о которых задана в виде матрицы экспери -ментальныхзначений.Обозначимчерез у одинизэлементовмноже -ства Ω, а именно тот, для которого необходимо определить лучшие предикторы, и в дальнейшем будемназыватьегооткликоммодели. Вэтомслу -чаематрицу экспериментальных значенийможно представитьввиде
[ ]
1 11 12 1
2 12 22 2
1 2
,
M
M
N N N MN
y х х х
y x x x
YX
y x x x
…
…
= … … … …
…
где N – числопериодовнаблюденийиличисло однотипныхобъектовнаблюдений.
Относительно числа наблюдений предпо -ложим, чтоN M> .
Для удобства столбцы матрицы
[ ]
YX обо -значим через X X1, 2,…,XM, причем в даль -нейшем будемсчитать, что Xi, i=1, M – ор-тонормированные векторы, принадлежащие
евклидовомупространствуразмерности N. Необходимоотметить, что, как правило, это требование на практике не выполняется, по
-этому матрицу экспериментальных значений
[ ]
YX необходимо преобразовать в матрицу Z, столбцы которой являются ортонормирован -нымивекторами.Положим
1 1 1
Z =X X ,
где 2 1 1 1 N i i X x =
=
∑
– длинавектора X1.Ортонормируемвторойстолбец, положив
2 22 2 21 1
Z = α ⋅X − α ⋅Z .
Коэффициентыα α22, 21определимизусловий:
2, 1 0
Z Z 〈 〉 = ;
2, 2 1
Z Z 〈 〉 = ,
где 〈Z Z2, 1〉 – скалярноепроизведениевекторов
2
Z и Z1, котороебудемвычислятьпоформуле
2 1 2 1
1
, N i i
i
Z Z Z Z
=
〈 〉 =
∑
⋅ .Такимобразом, врезультатерешениясистемы
22 2 1 21
2 2
22 2 2 22 21 2 1 21
, 0,
, 2 , 1
X Z
X X X Z
α 〈 〉α =
α 〈 〉 − α α 〈 〉 + α =
имеем:
2 1
21 2
2 2 2 1
,
, ,
X Z
X X X Z
〈 〉
α =
〈 〉 − 〈 〉 ,
22 2
2 2 2 1
1
, ,
X X X Z
α =
〈 〉 − 〈 〉 .
Дляопределения Z3 получимсоотношениевида
3 33 3 31 1 32 2
Z = α X − α Z − α Z ,
где коэффициенты α33, α31, α32 определим такимобразом, чтобы вектор Z3 имел единич -нуюдлинуиприэтомбылбыортогоналенвек -торам Z1и Z2 т. е.
3, 3 1
Z Z 〈 〉 = ;
3, 1 0
Z Z 〈 〉 = ;
3, 2 0
Z Z 〈 〉 = .
Изортогональностиследует
31 33 3 1
32 33 3 2
X ,Z ; X ,Z .
α = α 〈 〉
α = α 〈 〉
Требование, чтобы вектор Z3 имелединич -ную длину, приводит к необходимости реше -нияуравнения
2 2 2
33 X X3, 3 31 32 2 33 31 X Z3, 2
α 〈 〉 + α + α − α α 〈 〉 −
33 32 3 2
2 X Z, 1
− α α 〈 〉 = ,
подставив в которое рассчитанные α31 и α32, приходимкуравнению
(
2
33 X X3, 3 X Z3, 1 X Z3, 2 ) 1
α 〈 〉 − 〈 〉 − 〈 〉 = ,
откудаследует, что
33
3 3 3 1 3 2
1
, , ,
X X X Z X Z
α =
〈 〉 − 〈 〉 − 〈 〉 .
В общем виде процесс ортогонализации
описывается следующими рекуррентными со -отношениями:
1
1 k
k kk k ki i i
Z X − Z
=
= α ⋅ −
∑
α ⋅ ,где 1 1 1 , , кк k
k k k i i
X X − X Z
=
α =
〈 〉 −
∑
〈 〉,
,
ki kk X Zk i
α = α 〈 〉,
1 ,
1 −
= k
i .
Модельсминимальнойпогрешностью
Математическую модель будем строить в
класселинейныхмоделейвследующемвиде:
0 0 1 1 2 2 м м
y a z= +a z +a z +…+a z . (1)
где z0 – фиктивнаяпеременная, равнаяединицево всех опытах, коэффициенты aі, і=0,M опреде -лимпометодунаименьшихквадратов (МНК).
Погрешностьмодели (1) представляетсобой:
0
1max 0
M k i ik k N y i a z
≤ ≤ =
ε = −
∑
. (2)Пусть V⊆ Ω – перечень показателей, кото -рые мы не будем включать в математическую модельтипа (1) в качестве предикторов, и пусть
-клик y будетопределятьсяспомощьюпоказате -лейизмножества ΩV вследующемвиде:
i i i x V
y a z
∈Ω
=
∑
.Очевидно, чтопогрешностьмодели сущест
-венно будет зависеть от множества V и ее
можнопредставитьввиде
(
)
1maxk N k V i ik
V y a z
≤ ≤ Ω
ε Ω = −
∑
или
(
)
1max 0
M
k i ik i ik k N i i V
V y a z a z
≤ ≤ = ∈
ε Ω = − +
∑
∑
.Такимобразом, оценкаимеетвид
(
)
01maxk N i V i ik
V a z
≤ ≤ ∈
ε Ω ≤ ε +
∑
или, обозначивчерез
( )
1maxk N i V i ik
V a z
≤ ≤ ∈
δ =
∑
,можноутверждать, что
(
V)
0( )
Vε Ω ≤ ε + δ .
Такимобразом, возникаетзадачадлязаданного отклика y определить такой набор предикторов, чтобы погрешность δ
( )
V была бы как можно меньше, при этомчисло исключаемых из набора показателей V былобыкакможнобольше.В математическом плане сформулированная задачапредставляет собой задачу векторной оп -тимизации, иможетбытьпредставленаввиде
( )
V min,δ →
max,
V → (3)
V ⊆ Ω.
Сформулируем основные свойства решения задачи (3).
Исходяизопределенияфункцииδ
( )
V ,следует(
1 2) ( ) ( )
1 2δ V ∪V ≤ δ V + δ V ,
т. е. она является полуаддитивной функцией множества.
Построимфункцию
( )
( )
{ }
ii V
V z
∈
δ =
∑
δ ,длякоторойвыполняется
( )
V( )
V δ ≤ δ .Рассмотрим задачу векторной оптимизации дляаддитивнойвектор-функциимножестваV :
( )
min
V V δ
→
. (4)
Определим, чтобудемпониматьподрешением задачи (4) исформулируемегоосновныесвойства. 1. Множество элементов V∗⊆ Ω будем на -зывать эффективным, еслилюбаяего вариация приводит кувеличениюилиδ
( )
V , или V , или( )
Vδ и V одновременно.
2. Подрешениемзадачи (3) будемпонимать множество А, содержащее все эффективные наборытипа V∗, т. е. элементамимножества А
являются подмножества множества Ω, причем каждый из элементов представляет собой эф -фективноерешениезадачи (4).
Множество А называется множеством не -сравнимых вариантов по Парето. В рассматри -ваемой задаче это множество состоит из М
элементов, представляющих собой структуры моделей, которые могутбыть выбраны, исходя из заданной точности и числа предикторных переменных.
Пример. Рассмотрим задачу структурного моделирования для Приднепровской железной дороги, где вкачествеисходнойинформации о деятельности дороги рассматриваются данные, приведенные в работе [5]. Деятельность пред -приятиябудемопределятьпоследующимпока -зателям:
1
x – грузооборот (млнт·км);
2
x – пассажирооборот (млнпас-км);
3
x – количествопогруженныхвагонов (тыс.);
4
x – количестворазгруженныхвагонов (тыс.);
5
x – производительность локомотивов (тыс. т·кмбрутто);
6
x – вагонооборот (сутки).
Вкачествеотклика y рассмотрим x1 – гру -зооборот. В соответствии с изложенной проце
-дурой вычислим погрешности моделей
{ }
( )
xiδ , где i=2,6.
Таблица 1
i
x δ
( )
{ }xi δ%2
x 4,698 2,4989
3
x 5,030 2,6755
4
x 8,820 9,4231
5
x 10,740 9,6931
6
x 5,010 2,6649
Заметим, что если включить в математиче -скую модель в качестве предикторов все пере -менные, получим
1 63,459 0,346 2 6,249 3
x = − − x − x +
4 5 6
27,083x 0,113x 3,512x
+ + − .
Максимальная погрешностьданной модели при этом составила ε =0 2,2872 %, отметим, что она оказаласьменьшевсехпогрешностей %δ изтабл. 1.
Результатырешениязадачи (4) представимв видетабл. 2.
Таблица 2
№
п. п ΩV V δ( )V %
1
{
x x x x3, , ,4 5 6}
{ }
x2 2,49892
{
x x x3, ,4 5}
{
x x2, 6}
5,16383
{
x x4, 5}
{
x x x2, ,3 6}
7,83934
{ }
x5{
x x x x2, , ,3 4 6}
17,26245
{ }
{
x x x x x2, , , ,3 4 5 6}
26,9555Таким образом, если допустимая максималь -наяпогрешностьдолжнабытьнебольше 10 %, то структура математической модели с минималь -нымчисломпредикторовбудетиметьвид
(
)
1 4, 5
x = f x x ,
в этом случае математическую модель можно представитьвследующемвиде
1 0 4 4 5 5
x =a +a x +a x , (5)
где параметры модели ai – определяются по методунаименьшихквадратовиравны:
0 73,570
a = − ;
4 21,213
a = ;
5 0,097
a = ,
при этом максимальная погрешность состав -ляет 2,2 %.
Такимобразом, грузооборот
( )
x1 определя-ется количеством разгруженных вагонов
( )
x4 (тыс. сут.), и производительностью локо-мотива
( )
x5 (тыс. т·кмбрутто/сут.).Нарис. 1 представленынаблюдаемыеирассчи -танныепомодели (5) значениягрузооборота
( )
x1 .Для сравнения приведем математическую
модель (6), когдавкачествепредиктороввзяты всепоказатели x x x x x2, , , ,3 4 5 6.
1 63,459 0,346 2 6,250 3
x = − − x − x +
4 5 6
27,083x 0,113x 3,512x
+ + − . (6)
Observed Value Predictd Value From: Predicted & Residual Values (dnepr3.sta)
Dependent variable: X1
80 100 120 140 160 180 200 220 240
1 2 3 4 5 6 7 8 9 10 11
На рис. 2 представлены наблюдаемые и рас -считанныепо модели (6) значения грузооборота в зависимости от пассажирооборота, количества
погруженных и разгруженныхвагонов, произво -дительностилокомотиваивагонооборота.
Observed Value Predictd Value From: Predicted & Residual Values (dnepr3.sta)
Dependent variable: X1
80 100 120 140 160 180 200 220 240
1 2 3 4 5 6 7 8 9 10 11
Рис. 2 Выводы
1. Предложена методика выбора предик -торныхпеременных с определенным порядком применениярегрессионногоанализа.
2. Получена возможность выбора предик -торных переменных по заданной точности ма -тематическоймодели.
БИБЛИОГРАФИЧЕСКИЙСПИСОК
1. Дрейпер Н., Смит Г. Прикладной регрессион -ныйанализ. Кн. 1. – М.: Финансы истатистика, 1986. – 366 с.
2. Дрейпер Н., Смит Г. Прикладной регрессион -ныйанализ. Кн. 2. – М.: Финансы истатистика, 1987. – 352 с.
3. БосовА. А., МухинаН. А. Основныезадачимоде -лирования по экспериментальнымданным // Пи -тання прикладної математики та математичного моделювання: Зб. наук. працьДДУ. – Д., 1999. – С. 7–12.
4. БоровиковВ. П., БоровиковИ. П. STATISTICA, Статистический анализ и обработка данных всреде WINDOWS. – М.: Филин.
5. ПасечкінВ. І. Аналіздинаміки показниківзалі -зницьУкраїни (зарезультатами моніторингу за період 1991–2001 рр.). // Залізничнийтранспорт України№ 5, 2002. – С. 2–6.