ГоловнаЗворотній зв'язок

Эконометрия

4.3. Независимые факторы

 

Если не выполняется 2-я гипотеза, и некоторые из переменных z линейно зависят от других, то матрица M вырождена, и использование приведенного оператора оценивания невозможно.

Вообще говоря, предложить метод оценивания параметров регрессии в этом случае можно. Так, пусть множество независимых факторов разбито на две части (в этом фрагменте используются обозначения сокращенной формы уравнения регрессии):

                                    , ,

                                и     .

Тогда можно записать уравнение регрессии в форме

                             + e,

и оценить линейную комбинацию параметров  (предполагая, что столбцы Z1 линейно независимы). Но чтобы оценить сами параметры, нужна априорная информация, например: .

Однако вводить в регрессию факторы, которые линейно зависят от уже введенных факторов, не имеет смысла, т.к. при этом не растет объясненная дисперсия (см. ниже).

На практике редко встречается ситуация, когда матрица M вырождена. Более распространен случай, когда она плохо обусловлена (между переменными Z существуют зависимости близкие к линейным). В этом случае имеет место мультиколлинеарность факторов. Поскольку гипотеза 2 в части отсутствия ошибок измерения, как правило, нарушается, получаемые (при мультиколлинеарности) оценки в значительной степени обусловлены этими ошибками измерения. В таком случае (если связь существует), обычно, факторы по отдельности оказываются незначимыми по t-критерию, а все вместе - существенными по F-критерию. Поэтому в регрессию стараются не вводить факторы сильно скоррелированные с остальными.

В общем случае доказывается, что

                         ,

где  и  - дисперсии, объясненные факторами z1 и z2 по отдельности;

 - прирост объясненной дисперсии, вызванный добавлением в регрессии факторов z2 к факторам z1.

В соотношении для прироста объясненной дисперсии:

- левая часть выполняется как строгое равенство, если и только если

 (коэффициент детерминации в регрессии по z1 уже равен единице), или

вектор остатков в регрессии по z1 ортогонален факторам , т.е. имеет с ними нулевую корреляцию (возможное влияние факторов z2 уже “приняли” на себя факторы z1), или

факторы  линейно зависят от факторов ;

- правая часть выполняется как строгое равенство, если и только если

факторы  ортогональны  факторам .

Если в множество линейно независимых факторов добавлять новые элементы, то коэффициент детерминации растет вплоть до единицы, после чего рост прекращается. Своего максимального значения он обязательно достигнет при n = N (возможно и раньше) - даже если вводимые факторы не влияют по существу на изучаемую переменную. Поэтому сам по себе коэффициент детерминации не может служить статистическим критерием “качества” уравнения регрессии. Более приемлем в этой роли коэффициент детерминации, скорректированный на число степеней свободы:

                          ,

который может и уменьшиться при введении нового фактора. Точную же статистическую оценку качества (в случае нормальности распределения остатков) дает F-критерий. Однако учитывая, что значения Fc оказываются несопоставимыми при изменении n (т.к. получают разное число степеней свободы), наиболее правильно эту роль возложить на уровень ошибки qс для Fc.

В результате введения новых факторов в общем случае меняются оценки параметров при ранее введенных факторах:

                              ,

где  - оценка параметров регрессии по z1 (до введения новых факторов);

A12 - матрица, столбцы которой являются оценками параметров регрессии переменных z2 по z1.

“Старые” оценки параметров сохраняются (), если и только если

- коэффициент детерминации в регрессии по z1 уже равен единице, или

вектор остатков в регрессии по z1 ортогонален факторам  (в этих двух случаях a2 = 0), или

факторы  ортогональны  факторам  (в этом случае A12 = 0).

Итак, возникает проблема определения истинного набора факторов, фигурирующих в гипотезе 1, который позволил бы найти оценки истинных параметров регрессии. Определение такого набора факторов есть спецификация модели. Формальный подход к решению этой проблемы заключается в поиске так называемого наилучшего уравнения регрессии, для чего используется процесс (метод) шаговой регрессии.

Пусть z - полный набор факторов, потенциально влияющих на x. Рассматривается процесс обращения матрицы ковариации переменных [x,z]. В паре матриц (n+1)´(n+1)

 

                  

 

делаются одновременные преобразования их строк в орты. Известно, что, если 1-ю матрицу преобразовать в единичную, то на месте 2-й матрицы будет получена обратная к 1-й (исходной). Пусть этот процесс не завершен, и только несколько строк 1-й матрицы (но не ее 1-я строка) преобразованы в орты. Это - ситуация на текущем шаге процесса.

На этом шаге строкам-ортам в 1-й матрице соответствуют включенные в регрессию факторы, на их месте в 1-й строке этой матрицы оказываются текущие оценки параметров регрессии при них. Строкам-ортам во 2-й матрице соответствуют невведенные факторы, на их месте в 1-й строке 1-й матрицы размещаются коэффициенты ковариации этих факторов с текущими остатками изучаемой переменной. На месте mxx показывается текущее значение остаточной дисперсии.

На каждом шаге оцениваются последствия введения в регрессию каждого не включенного фактора (преобразованием в орты соответствующих строк 1-й матрицы) и исключения каждого введенного ранее фактора (преобразованием в орты соответствующих строк 2-й матрицы). Выбирается тот вариант, который дает минимальный уровень ошибки qс для Fc. Процесс продолжается до тех пор, пока этот уровень сокращается.

Иногда в этом процессе используются более простые критерии. Например, задается определенный уровень t-статистики (правильнее - уровень ошибки qс для tc), и фактор вводится в уравнение, если фактическое значение tc для него выше заданного уровня (ошибка qс ниже ее заданного уровня), фактор исключается из уравнения в противном случае.

Такие процессы, как правило, исключают возможность введения в уравнение сильно скоррелированных факторов, т.е. решают проблему мультиколлинеарности.

Формальные подходы к спецификации модели должны сочетаться с теоретическими подходами, когда набор факторов и, часто, знаки параметров регрессии определяются из теории изучаемого явления.

 

 

21