ГоловнаЗворотній зв'язок
Главная->Різні конспекти лекцій->Содержание->6.3. Дисперсионный анализ

Эконометрия

6.3. Дисперсионный анализ

 

Рассматривается частный случай уравнения регрессии с фиктивными переменными, когда оно включает только такие (фиктивные) переменные, и для каждого сочетания значений факторов имеется одно и только одно наблюдение за изучаемой переменной. Тогда  и уравнение имеет вид:

                                ,

в котором отсутствует вектор ошибок e, т.к. при учете эффектов всех порядков их сумма в точности равняется X.

Матрица Z имеет размерность N´N и она не вырождена. Поэтому b = Z-1X. Но чтобы получить общие результаты, имеющие значение и для частных моделей, в которых эффекты высоких порядков принимаются за случайную ошибку, ниже используется техника регрессионного анализа.

Это - регрессионная модель полного (учитываются эффекты всех порядков) одномерного (изучаемая переменная единственна) многофакторного дисперсионного анализа без повторений (для каждого сочетания значений факторов есть одно наблюдение).

Обычному линейному индексу  компонент вектора X можно поставить в соответствие мультииидекс I, принимающий значения из множества , так что, если I = {i1,i2,...,iL}, то , и - при этом - обозначения xi и xI  эквивалентны. При таком соответствии обычного индекса и мультииндекса в линейной последовательности значений мультииндекса быстрее меняются его младшие компоненты (с большим порядковым номером).

, если j > 0, и N0 = 1 - количество столбцов в матрице ;

, если j > 0, и = 1 - количество столбцов в матрице ; очевидно, что ;

 - мультииндекс с множеством значений ;          I = IF.

Mb = m - система нормальных уравнений,

где M - N´N-матрица, b и m - N-вектора-столбцы и, как обычно, .

При выбранном порядке следования значений факторов от наблюдения к наблюдению (быстее меняют свои значения более младшие факторы)

 где xj  есть , если , или , в противном случае. Тогда

 где xj  есть , если , или , в противном случае, и далее

, если , т.е. переменные разных эффектов ортогональны друг другу,

, M0 = 1;

,

где  - NJ-вектор-столбец средних по сочетаниям значений факторов J с мультииндексом компонент IJ (является средним значением x по тем наблюдениям, в которых 1-й фактор из множества J принимает i1-е значение, 2-й - i2-е значение и т.д.); .

M - блочно-диагональная матрица {MJ}, m - вектор-столбец {mJ}.

После решения системы нормальных уравнений и перехода к “полным” векторам параметров эффектов получается следующее:

           ,

где  (как и прежде, ), B0 = 1.

Параметры разных эффектов (разных по J) не зависят друг от друга, и исключение из уравнения некоторых из них не повлияет на значения параметров оставшихся эффектов.

Чтобы получить более “прозрачные” формулы для определения параметров эффектов, следует ввести понятие сопоставимых векторов этих параметров.

Если , то

 - NJ-вектор-столбец параметров -го эффекта, сопоставимый с вектором : он имеет ту же размерность, что и , и каждая компонента вектора  повторена в нем  раз - так, что любой компоненте  вектора  в векторе  соответствует компонента , для которой является подмножеством тех же элементов , что и  по отношению к J.

В этом выражении для сопоставимых векторов параметров эффектов

, где xj равен , если , или , в противном случае ().

Эти матрицы обладают следующим свойством: , откуда получается выражение

                                    

для рекурентного расчета параметров эффектов (например, если известны , то ).

При J = F это выражение представляет собой другую форму записи основного уравнения регрессии:

                                  , т.е.  .

 - основное тождество дисперсионного анализа, показывающее распределение общей дисперсии изучаемой величины по факторам и их взаимодействиям,

где - дисперсия, объясненная совместным влиянием факторов J; представляет собой сумму квадратов с  степенями свободы.

Все эти дисперсии не зависят друг от друга. Если совместное влияние факторов  так же существенно (или не существенно) как и факторов J, то статистика

                   (предполагается, что она больше единицы)

имеет -распределение (предполагается, что x нормально распределено). Этот факт можно использовать для проверки гипотез о сравнительной существенности факторов и их взаимодействий.

Обычно эффекты высоких порядков отождествляют со случайной ошибкой. Уравнение регрессии приобретает свою обычную форму и можно воспользоваться t- и F-критериями для проверки значимости отдельных факторов и их взаимодействий. Важно, что оценки оставшихся в уравнении эффектов при этом не меняются.

Переходя к более общему и более сложному случаю модели дисперсионного анализа с повторениями, полезно вспомнить следующее. Если в модели регрессионного анализа

                                                   e

несколько строк матрицы Z одинаковы, то можно перейти к сокращенной модели, в которой из всех этих строк оставлена одна, а в качестве соответствующей компоненты вектора X взято среднее по этим наблюдениям с одинаковыми значениями независимых факторов. Т.е. совокупность наблюдений с одинаковыми значениями независимых факторов заменяется одним групповым наблюдением. При исходной гипотезе E() = s2I дисперсия остатка по этому наблюдению равна ngs2, где ng - количество замененных наблюдений, и значения переменных в групповом наблюдении должны быть умножены на  (в соответствии с ОМНК). Значения оценок параметров по исходной и сокращенной модели будут одинаковыми, но полная () и остаточная (e/e) суммы квадратов в исходной модели будут больше, чем в сокращенной на сумму квадратов отклонений переменных x по исключенным наблюдениям от своей средней.

Пусть теперь рассматривается регрессионная модель одномерного однофакторного дисперсионного анализа с повторениями:

                                      e.

Фактор принимает k значений, и для каждого i-го значения существует ni наблюдений (ni повторений), т.е. исходная совокупность X разбита по какому-то признаку на k групп, причем сначала в ней идут наблюдения по 1-й группе, потом - по 2-й и т.д..

;  - N´k-матрица структуры .

Всем повторениям в матрице Z соответствуют одинаковые строки, поэтому можно перейти к сокращенной модели.

 - среднее и  -  дисперсия по i-й группе;   - суммарная дисперсия по группам. Сокращенная модель имеет следующий вид:

                                 .

При естественном требовании , которое эквивалентно = 0, матрица C имеет вид  и .

 - объясненная дисперсия, равная полной дисперсии в сокращенной модели.

Полная дисперсия в исходной модели распадается на две части:

                                            

- объясненную и остаточную, или в терминах дисперсионного анализа - межгрупповую и внутригрупповую дисперсии, которые имеют, соответственно, k и N-k-1 степеней свободы. Применяя F-критерий, можно оценить статистическую значимость использования данной группировки в целом или выделения отдельных групп.

Теперь рассматривается общий случай L-факторной модели.

В этом случае N больше NF на общее число повторений по всем сочетаниям значений факторов. Пусть

nI - число наблюдений при I-м сочетании значений факторов; ;

xI - среднее значение и  - дисперсия наблюдений при I-м сочетании;

 - суммарная внутригрупповая или остаточная дисперсия для исходной модели с N-NF-1 степенями свободы.

Сокращенная модель имеет вид:

                                                 ,

где n - диагональная NF-матрица {nI};

X - NF-вектор-столбец {xI};

Z, b - аналогичны L-факторной модели без повторений.

Пусть далее

,

´-матрица , в частности   - диагональная NJ- матрица , где  - количество наблюдений при IJ-м сочетании значений факторов J ();

´-матрица ,

-вектор-столбец ,

где  - NJ-вектор-столбец средневзвешенных x по сочетаниям значений факторов J.

Матрица M и вектор m системы нормальных уравнений для b составляются естественным образом из блоков  и mJ.

Формулы для MJ (в данном случае MJJ), mJ и XJ, приведенные для модели без повторений, являются частным случаем этих формул при .

 - полная дисперсия в сокращенной модели или объясненная дисперсия в исходной модели.

Разные эффекты могут оставаться ортогональными ( при ) в одном специальном случае, когда каждый более младший фактор делит все выделенные до него подгруппы в одинаковых пропорциях, т.е.  (в частности, когда количество повторений nI для всех сочетаний I одинаково). В этом случае для ортогональности эффектов достаточно матрицы  выбрать так, чтобы . Эти требования удовлетворяются, если данные матрицы обладают описанной выше (для однофакторной модели с повторениями) структурой:

                   , где .

Такие матрицы обобщают структуру матриц  модели без повторений.

Для этого специального случая можно построить формулы решения задачи дисперсионного анализа, обобщающие приведенные выше формулы для модели без повторений.

В общем случае указанный выбор матриц  обеспечивает равенство нулю только . Особым выбором CJ (p(J)>1) можно добиться равенства нулю еще некоторых блоков общей матрицы M.

Матрица CJ  не обязательно должна равняться прямому произведению  по . Она должна быть размерности ´ и иметь ранг , т.е., например, обладать структурой , где cJ - ´-матрица. Поэтому для определения этой матрицы необходимо иметь ´ условий.  Поскольку

                                ,

нужное количество условий содержат требования

                                   

 для всех , включая пустое множество  (C0 = 1).

Таким образом, матрицы CJ всегда можно определить так, чтобы эффекты нулевого и высшего порядков были ортогональны друг с другом и с остальными эффектами, и, в частности, .

Дисперсия  в общем случае не делится на факторные дисперсии, как это было в модели без повторений; точно в ней выделяется только дисперсия эффектов высшего порядка (при указанном выборе CJ):

                       ,

и для нее непосредственно можно проверить нулевую гипотезу с помощью F-критерия

                                            .

Нулевые гипотезы для остальных факторных дисперсий имеют вид bJ = 0, и в числителе F-статистики помещается величина

                             ,

где  - соответствующий блок матрицы M-1,

а в знаменателе -

                           или  - если нулевая гипотеза для  не отвергается.

 

 

 

 

30