yandex rtb 1
ГоловнаЗворотній зв'язок
yande share
Главная->Економіка->Содержание->1.5. «ОБРАТНАЯ» МОДЕЛЬ ПРЯМОЛИНЕЙНОЙ СВЯЗИ

Эконометрика для начинающих

1.5. «ОБРАТНАЯ» МОДЕЛЬ ПРЯМОЛИНЕЙНОЙ СВЯЗИ

Пусть наша задача состоит в оценивании модели прямолинейной связи между некоторыми переменными  и  на основе наблюдений n пар  значений этих переменных. Мы уже рассмотрели вопрос об оценивании параметров такой связи, исходя из модели наблюдений . Что изменится, если мы будем исходить из «обратной» модели ?

Пусть  — оценки параметров  и  в модели наблюдений , а  — оценки параметров в модели наблюдений . Тогда

т. е.

или

В то же время, по первой модели наблюдений мы получаем наилучшую прямую

а по второй — прямую

Первую прямую мы можем записать в виде

Сравнивая коэффициенты при  в двух последних уравнениях, находим, что эти коэффициенты равны в том и только в том случае, когда выполнено соотношение

т. е.

или, с учетом предыдущего, когда.

Что касается отрезков на осях, то они будут совпадать тогда и только тогда, когда

или

Но

так что

При  получаем

В то же время,

так что при  совпадают и отрезки на осях, т. е. наилучшая прямая одна и та же при обеих моделях наблюдений, и это есть прямая, на которой расположены все наблюдаемые точки

Иными словами, наилучшие прямые, построенные по двум альтернативным моделям, совпадают в том и только в том случае, когда все точки , расположены на одной прямой (так что ); при этом, . В противном случае,и подобранные «наилучшие» прямые имеют разные угловые коэффициенты.

Кстати, в рассмотренном нами примере с уровнями безработицы, диаграмма рассеяния с переставленными осями (соответствующими модели наблюдений ) имеет вид

Рис. 5

Количество точек с совпадающими знаками отклонений координат от средних значений равно 10 (4+ 6, с учетом совпадений), а число точек с противоположными знаками отклонений координат от средних значений равно 7 (4+3, с учетом совпадений). Соответственно, «облако точек» имеет некоторую вытянутость вдоль наклонной прямой, проведенной через «центр» облака. «Наилучшая» прямая имеет вид

коэффициент детерминации равен

Произведение угловых коэффициентов 0.125265 и 1.695402 наилучших прямых в «прямой» и «обратной» моделях наблюдений равно 0.212374 и совпадает со значением R2.

Отметим, что несовпадение наилучших прямых, конечно, связано с тем, что в этих двух альтернативных моделях наблюдений мы минимизировали различные суммы квадратов: в «прямой» модели мы минимизировали сумму квадратов отклонений точек от подбираемой прямой в направлении, параллельном оси , а во втором — в направлении, параллельном оси .

1.6. ПРОПОРЦИОНАЛЬНАЯ СВЯЗЬ МЕЖДУ ПЕРЕМЕННЫМИ

Хотя на практике не рекомендуется отказываться от включения свободного члена в уравнение подбираемой прямолинейной связи, если только его отсутствие не обосновывается надежной теорией (как в физике — закон Ома), мы все же иногда сталкиваемся с необходимостью подбора прямой, проходящей через начало координат. Позднее мы приведем соответствующие примеры.

Итак, пусть мы имеем наблюдения , и предполагаем, что гипотетическая линейная связь между переменными  и  имеет вид

(пропорциональная связь между переменными), так что ей соответствует модель наблюдений

.

Применение метода наименьших квадратов в этой ситуации сводится к минимизации суммы квадратов невязок

по всем возможным значениям . Последняя сумма квадратов является функцией единственной переменной  (при известных значениях ), и точка минимума этой функции легко находится. Для этого мы приравниваем нулю производную  по :

 (нормальное уравнение)

откуда получаем:

или

Отсюда видно, что при таком подборе

и точка  уже не лежит, как правило, на подобранной прямой

Более того, в такой ситуации

где

и поэтому использовать для вычисления коэффициента детерминации выражение

не имеет смысла. В этой связи полезно рассмотреть следующий искусственный пример.

Пример

Пусть переменные  и  принимают в четырех наблюдениях значения, приведенные в следующей таблице

i

1

2

3

4

xi

10

3

–10

-3

yi

11

3

-9

-3

соответствующей диаграмме рассеяния

и мы предполагаем пропорциональную связь между этими переменными, что соответствует модели наблюдений  Для этих данных

так что  При этом,

RSS = (11—10)2 + (3-3)2+ (-9+10)2+ (-3+3)2 = 2,

TSS = (11-0.5)2+ (3-0.5)2+ (-9-0.5)2+ (-3-0.5)2 = 219,

ESS = (10-0.5)2+ (3-0.5)2+ (-10-0.5)2+ (-3-0.5)2 = 219,

так что здесь , и вычисление  по формуле

приводит к значению . Но последнее возможно только если все точки  лежат на одной прямой, а у нас это не так. Заметим также, что в этом примере сумма остатков , что невозможно в модели с включением в правую часть постоянной составляющей.

Можно, конечно, попытаться справиться с возникающим при оценивании модели без постоянной составляющей затруднением, попросту игнорируя нарушение соотношения  и определяя коэффициент детерминации соотношением

,

и именно такое значение  приводится в протоколах некоторых пакетов программ анализа статистических данных, например пакета ECONOMETRIC VIEWS (TSP). Для нашего иллюстративного примера с четырьмя наблюдениями использование последнего приводит к значению , которое не противоречит интуиции и представляется разумным. Однако, к сожалению, и такой подход к определению коэффициента детерминации не решает проблемы, поскольку, в принципе, при оценивании модели без постоянной составляющей возможны ситуации, когда , что приводит к отрицательным значениям .

Пример

Пусть переменные  и  принимают в четырех наблюдениях значения, приведенные в следующей таблице

i

1

2

3

4

xi

0

0.2

0.4

3

yi

0.5

0.8

1.2

2

что соответствует диаграмме рассеяния

и мы предполагаем пропорциональную связь между этими переменными, что соответствует модели наблюдений  Для этих данных . При этом, , , и вычисление  по формуле  приводит к отрицательному значению

Преодолеть возникающие затруднения можно, если определить  в модели наблюдений без постоянной составляющей формулой

,

в которой используется сумма квадратов нецентрированных значений переменной  (отклонений значений переменной  от «нулевого уровня»). При таком определении, неотрицательность коэффициента  гарантируется наличием соотношения

которое отражает геометрическую сущность метода наименьших квадратов (аналог знаменитой теоремы Пифагора для многомерного простанства) и выполняется как для модели без постоянной составляющей, так и для модели с наличием постоянной составляющей в правой части модели наблюдений. Деля обе части последнего равенства на  приходим к соотношению

из которого непосредственно следует, что

(Доказать заявленное равенство не сложно. Действительно,

Но

(см. нормальное уравнение), что и приводит к искомому результату.)

В последнем примере использование определения  с не центрированными  дает .

1.7. ПРИМЕРЫ ПОДБОРА ЛИНЕЙНЫХ МОДЕЛЕЙ СВЯЗИ МЕЖДУ ДВУМЯ ФАКТОРАМИ. ФИКТИВНАЯ ЛИНЕЙНАЯ СВЯЗЬ

В этом разделе мы рассмотрим примеры подбора линейных моделей связи для конкретных данных.

Пример 1

В следующей таблице приведены данные об изменении потребительского спроса на куриные яйца семи семейных хозяйств в зависимости от цены на этот продукт в течение 15 недель:

i

1

2

3

4

5

6

7

8

9

10

Спрос

12

10

13

11.5

12

13

12

12

12

13

Цена

0.54

0.51

0.49

0.49

0.48

0.48

0.48

0.47

0.44

0.44

 

i

11

12

13

14

15

Спрос

13.5

14

13.5

14.5

13

Цена

0.43

0.42

0.41

0.40

0.39

 

(спрос измерялся в дюжинах, цена — в долларах). Диаграмма рассеяния для этих данных имеет следующий вид:

Предполагая, что модель наблюдений имеет вид  где  — спрос в i-ю неделю, а  — цена в i-ю неделю, мы получаем следующие оценки для неизвестных параметров и  модели линейной связи между ценой и спросом:  Таким образом, подобранная модель линейной связи имеет вид  При этом,

так что коэффициент детерминации оказывается равным  т. е. изменчивость цен объясняет 51.4% изменчивости спроса на куриные яйца. На диаграмме рассеяния изображена прямая линия, соответствующая подобранной модели линейной связи.

Пример 2

В следующей таблице приведены данные о годовом потреблении свинины  на душу населения в США (в фунтах) и оптовых ценах на свинину  (в долларах за фунт) за период с 1948 по 1961 год:

Год

Потр.

Цена

 

Год

Потр.

Цена

1948

67.8

0.5370

 

1955

66.6

0.4256

1949

67.7

0.4726

 

1956

67.4

0.4111

1950

69.2

0.4556

 

1957

61.5

0.4523

1951

71.9

0.4655

 

1958

60.2

0.4996

1952

72.4

0.4735

 

1959

67.6

0.4183

1953

63.5

0.5047

 

1960

65.2

0.4433

1954

60.0

0.5165

 

1961

62.2

0.4448

Для этих данных диаграмма рассеяния имеет вид

Предполагая, что модель наблюдений имеет вид  где  — потребление свинины в i-й год рассматриваемого периода, а  — оптовая цена на свинину в этом году, мы получаем следующие оценки для неизвестных параметров и  модели линейной связи между оптовой ценой и потреблением:  Таким образом, подобранная модель линейной связи имеет вид  При этом,

, ,

так что коэффициент детерминации здесь оказывается равным . Изменчивость оптовой цены объясняет здесь лишь 5.5% изменчивости потребления свинины.

Пример 3

Рассмотрим данные о размерах совокупного располагаемого дохода и совокупных расходах на личное потребление в США в период с 1970 по 1979 год. Обе величины выражены в текущих долларах США.

Год

Расп. доход

Потребление

1970

695.2

621.7

1971

751.9

672.4

1972

810.3

737.1

1973

914.0

811.7

1974

998.1

887.9

1975

1096.2

976.6

1976

1194.3

1084.0

1977

1313.5

1204.0

1978

1474.3

1346.7

1979

1650.5

1506.4

Этим данным соответствует диаграмма рассеяния

Предполагая, что модель наблюдений имеет вид  где  — совокупные расходы на личное потребление в i-й год рассматриваемого периода, а  — совокупный располагаемый доход в этом году, мы получаем следующие оценки для неизвестных параметров и  модели линейной связи между совокупным располагаемым доходом и совокупными расходами на личное потребление:  Таким образом, подобранная модель линейной связи имеет вид  При этом,

, ,

так что коэффициент детерминации здесь оказывается равным . Изменчивость совокупного располагаемого дохода объясняет здесь более 99.95% изменчивости совокупных расходов на личное потребление.

Впрочем, не следует слишком оптимистически интерпретировать близкие к единице значения коэффициента детерминации  как указание на то, что изменения значений объясняемой переменной практически полностью определяются именно изменениями значений объясняющей переменной. В этой связи, рассмотрим следующий поучительный пример.

Пример 4

Рассмотрим динамику изменений в период с 1957 по 1966 годы трех совершенно различных по природе показателей: E — суммарного производства электроэнергии в США (в млрд. квт-час), C — совокупных потребительских расходов в Тайланде (в млрд. бат) и H — мирового рекорда на конец года в прыжках в высоту с шестом среди мужчин (в см). Значения этих показателей приведены в таблице:

Год

Потребление

Тайланд

млрд бат

Эл. энергия США

млрд квт-час

Мир. рекорд

(прыжки с шестом)

см

1957

34.9

716

478

1958

35.9

724

478

1959

37.9

797

478

1960

41.1

844

481

1961

43.5

881

483

1962

46.7

946

493

1963

48.9

1011

520

1964

52.0

1083

528

1965

56.1

1157

528

1966

62.6

1249

534

Динамика изменений показателей показана на графике:

По этим данным мы можем формально, используя метод наименьших квадратов, подобрать модели линейной зависимости каждого из трех показателей от каждого из остальных показателей. Это приводит, например, к моделям

(Заметим, кстати, что произведение угловых коэффициентов двух последних прямых, соответствующих моделям линейной связи, в которых объясняемая и объясняющая переменая меняются местами, равно  и совпадает со значением коэффициента детерминации  в этих двух подобранных моделях.)

Мы видим, что во всех подобранных моделях значения коэффициента детерминации весьма высоки, и это формально означает, что изменчивость «объясняющих» переменных в этих моделях составляет значительный процент от изменчивости «объясняемой» переменной, стоящей в левой части уравнения. Однако, вряд ли мы всерьез можем полагать, что динамика роста суммарного производства электроэнергии в США действительно объясняется динамикой роста мирового рекорда по прыжкам в высоту с шестом, несмотря на высокое значение 0.9 коэффициента детерминации в первом из четырех уравнений.

В ситуациях, подобных последнему примеру, принято говорить о фиктивной (ложной, паразитной — spurious) линейной связи между соответствующими показателями. И такие ситуации часто встречаются при рассмотрении показателей, динамика изменений которых обнаруживает заметный тренд (убывание или возрастание) — именно такой характер имеют исследуемые показатели в последнем примере.

Чтобы понять, почему это происходит, вспомним полученное в свое время равенство

Из этого равенства вытекает, что близкие к единице значения коэффициента детерминации соответствуют близким по абсолютной величине к единице значениям коэффициента корреляции между переменными  и . Но этот коэффициент корреляции равен

где

При фиксированных значениях  и , значение будет тем ближе к , чем большим будет значение  Последнее же обеспечивается совпадением знаков разностей  и  для максимально возможной доли наблюдений переменных  и , что как раз и имеет место, когда в процессе наблюдения обе переменные возрастают или обе переменные убывают по величине. (В этом случае превышение одной из переменных своего среднего значения сопровождается, как правило, и превышением второй переменной своего среднего значения. Напротив, если одна из переменных принимает значение, меньшее среднего значения этой переменной, то и вторая переменная,как правило, принимает значение, меньшее своего среднего.)

Аналогичным образом, значение  будет тем ближе к , чем меньшим будет значение  Последнее же обеспечивается несовпадением знаков разностей  и  для максимально возможной доли наблюдений переменных  и , что имеет место, когда в процессе наблюдения одна из переменных возрастает, а вторая убывает. (В этом случае, если одна из переменных принимает значение, меньшее среднего значения этой переменной, то вторая переменная,как правило, принимает значение, большее своего среднего.)

Из сказанного следует, что близость к единице наблюдаемого значения коэффициента детерминации не обязательно означает наличие причинной связи между двумя рассматриваемыми переменными, а может являться лишь следствием тренда значений обеих переменных.

Последнее обстоятельство часто наблюдается при анализе различных экономических показателей, вычисленных без поправки на инфляцию (недефлированные данные). Проиллюстрируем это следующим примером.

Пример 5

Обратимся к данным о совокупном располагаемом доходе и совокупных личных расходах на местный транспорт в США за период с 1970 по 1983 год. Данные представлены как в текущих долларах США, так и в долларах 1972 года — пересчет к последним выполнен с учетом динамики индекса потребительских цен в указанном периоде. (Уровень цен в 1972 г. принят за 100%.)

Год

Распол. доход

номинал.

Расходы

номинал.

Распол. доход

дефлир.

Расходы

дефлир.

1970

695.2

3.1

751.6

3.4

1971

751.9

3.3

779.2

3.4

1972

810.3

3.4

810.3

3.4

1973

914.0

3.6

864.7

3.4

1974

998.1

4.0

857.5

3.5

1975

1096.2

4.4

874.5

3.5

1976

1194.3

4.7

906.4

3.6

1977

1313.5

5.0

942.9

3.6

1978

1474.3

5.5

988.8

3.7

1979

1650.5

6.2

1015.7

3.8

1980

1828.7

6.3

1021.6

3.5

1981

2040.9

6.2

1049.3

3.2

1982

2180.1

6.6

1058.3

3.2

1983

2333.2

6.6

1095.4

3.1

Диаграммa рассеяния для недефлированных величин имеет вид

Соответствующая модель линейной связи:  Коэффициент детерминации равен . Диаграмме рассеяния дефлированных величин

соответствует модель линейной связи  Коэффициент детерминации равен на этот раз всего лишь .

В связи с последним примером, вернемся к примеру 3 и выясним, не является ли обнаруженная там сильная линейная связь между совокупным располагаемым доходом и совокупными расходами на личное потребление лишь следствием использования недефлированных величин.

Для этого рассмотрим дефлированные значения, представленные следующей таблицей, в последнем столбце которой приведены значения индекса потребительских цен (уровень цен 1972 г. принят за 100%).

Год

Дефлир. доход

Дефлир. потребл.

1970

695.2

621.7

1971

751.9

672.4

1972

810.3

737.1

1973

914.0

811.7

1974

998.1

887.9

1975

1096.2

976.6

1976

1194.3

1084.0

1977

1313.5

1204.0

1978

1474.3

1346.7

1979

1650.5

1506.4

Соответствующая этой таблице диаграмма рассеяния имеет вид

Подобранная модель линейной связи  Коэффициент детерминации при переходе от номинальных величин к дефлированным остается очень высоким: . Следовательно, наличие сильной линейной связи между совокупным располагаемым доходом и совокупными расходами на личное потребление не является только лишь следствием инфляционных процессов.

1.8. ОЧИСТКА ПЕРЕМЕННЫХ. ЧАСТНЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ

Возникновение паразитной линейной связи между двумя переменными часто можно объяснить тем, что хотя эти переменные и не связаны друг с другом причинным образом, изменение каждой из них достаточно хорошо объясняется изменением значений некоей третьей переменной, «координирующей» динамику изменения первых двух переменных. Проиллюстрируем это на примере данных, использованных в примере 4 из предыдущего раздела.

При рассмотрении указанного примера мы подобрали модель линейной связи между значениями суммарного производства электроэнергии в США (E) и мирового рекорда на конец года в прыжках в высоту с шестом среди мужчин (H). Коэффициент детерминации для этой модели оказался весьма высоким, равным 0.900.

Поскольку динамика изменения этих двух показателей на периоде наблюдений обнаруживает видимый положительный тренд, попытаемся приблизить каждый из них линейной функцией от времени. Подбор методом наименьших квадратов приводит к моделям:

где t обозначает t-й год на периоде наблюдений. При этом, в первом случае коэффициент детерминации равен 0.9812, а во втором коэффициент детерминации равен 0.8705. Иначе говоря, наблюдаемая изменчивость переменных E и H достаточно хорошо «объясняется» изменением переменной t, фактически являющейся здесь выразителем «технического и спортивного прогресса».

Чтобы найти «объективную» связь между показателями E и H, «очищенную» от влияния на эти показатели фактора времени, естественно поступить следующим образом.

Возьмем ряд остатков

получаемых при подборе первой модели, и ряд остатков

получаемых при подборе второй модели. Тогда переменные  и , принимающие значения  и соответственно, , можно интерпретировать, как результат «очистки» переменных E и H от линейного тренда во времени. Соответственно, «истинная» линейная связь между переменными E и H, если таковая имеется, должна, скорее всего, измеряться коэффициентом корреляции  между «очищенными» переменными  и .

Подобранная линейная связь между  и  имеет вид

при этом получаем значение

против значения  в модели с «неочищенными» переменными. Kоэффициент корреляции между «очищенными» переменными  и

почти вдвое меньше коэффициента корреляции  между «неочищенными» переменными E и H.

Коэффициент корреляции  между «очищенными» переменными  и  называется частным коэфициентом корреляции между переменными E и H при исключении влияния на них переменной .

В дальнейшем мы покажем, что значение  при  «слишком мало» для того, чтобы можно было отвергнуть гипотезу о том, что коэффициент при  в линейной модели связи

в действительности равен нулю.

1.9. ПРОЦЕНТНОЕ ИЗМЕНЕНИЕ ФАКТОРОВ В ЛИНЕЙНОЙ МОДЕЛИ СВЯЗИ

Вернемся к примеру с совокупным располагаемым доходом (DPI) и совокупными расходами на личное потребление (С) и будем использовать для анализа дефлированные данные, принимая за базовый 1972 год.

Мы подобрали по таким данным за 1970—1979 годы модель линейной связи

(мы здесь округлили полученные ранее значения до сотых долей). В соответствии с такой моделью, увеличение реального совокупного располагаемого дохода на 1 млрд. долларов (в единицах 1972 г.) приводит к увеличению совокупного личного потребления на 980 млн. долларов (остальные 20 млн. долларов сохраняются в виде сбережений). Разумеется, имеется в виду только тенденция; ежегодные реальные цифры будут отличаться от предсказываемых моделью. Величина  оценивает склонность к потреблению по отношению к располагаемому доходу (propensity to consumption).

Зададимся теперь таким вопросом: на сколько процентов изменится совокупный объем потребления  при увеличении совокупного располагаемого дохода на 1% (опять имеем в виду дефлированные величины)?

Итак, предположим, что совокупный располагаемый доход, имевший значение , увеличился на один процент и стал равным , где  — абсолютное приращение совокупного располагаемого дохода, так что

откуда . Такому абсолютному приращению совокупного располагаемого дохода соответствует «в среднем» абсолютное приращение совокупных расходов на потребление

что соответствует процентному изменению совокупных расходов на потребление, равному

Мы видим, что при увеличении  на 1%, процентное изменение  оказывается различным и зависит от того, каким было исходное значение . При  оно даже становится отрицательным, а при  изменяется, уменьшаясь от  до . Если бы у нас значение параметра  было положительным, то тогда

и процентное изменение совокупных расходов на потребление возрастало бы от  до  при увеличении  от  до .

Впрочем, в интервале наблюдавшихся значений  в период с 1970 по 1979 год величина  изменяется незначительно: от значения

до значения

Обратимся еще раз к примеру с безработицей. В этом примере мы подобрали модель

где  — процент безработных среди белого населения США, а  — процент безработных среди цветного населения США.

В соответствии с этой моделью, если количество безработных среди цветного населения вырастет с % до%, то количество безработных среди белого населения вырастет («в среднем») с % до %.

В то же время, если речь идет об относительном росте безработицы, то при увеличении доли безработных среди цветного населения на 1%, доля безработных среди белого населения возрастает на

процентов. Значения  изменяются на периоде наблюдений от  до , так что последнее отношение изменяется от

до

В примере с куриными яйцами (SPROS — спрос, CENA — цена)

Увеличение цены на 1% приводит к возрастанию цены (в долларах) на

Это, в свою очередь, приводит изменению спроса (в среднем) на

т. е. к уменьшению спроса (в среднем) на дюжин, что сос

 

8