Скорректированный коэффициент детерминации применяется для. Коэффициент детерминации, что показывает? Коэффициент детерминации скорректированный

3.4. Проверка адекватности моделей множественной линейной регрессии

3.4.1. Статистические критерии проверки адекватности моделей множественной регрессии

Анализ адекватности модели является важным этапом эконометрического моделирования. Для проверки адекватности моделей множественной регрессии, также как и парной линейной регрессии используют коэффициент детерминации и его модификации, отражающие особенности множественной модели, а также процедуры проверки статистических гипотез и построения доверительных интервалов для оценок параметров и прогнозов зависимой переменной.

3.4.2. Коэффициент детерминации

Важным показателем, характеризующим качество эмпирической регрессионной функции (ее соответствия наблюдаемым данным), является коэффициент детерминации. Полную сумму квадратов отклонений зависимой переменной от ее выборочного среднего в модели множественной регрессии можно представить в виде

Ранее было отмечено, что добавление дополнительного регрессора, как правило, увеличивает значение обычного коэффициента детерминации. Этого не происходит, если использовать скорректированный коэффициент детерминации. Его изменение, вызванное добавлением регрессора, может быть как положительным, так и отрицательным и поэтому, ориентируясь на значение скорректированного коэффициента, можно более объективно оценить, целесообразно ли введение дополнительного регрессора при уменьшении степеней свободы (приводит ли это к более адекватной модели). Лучшей признается модель, для которой скорректированный коэффициент больше.

Пример 3.3.

Для модели примера 3.1. вычислим коэффициент детерминации и скорректированный коэффициент детерминации Тейла. Используя формулы () и (), соответственно получим:


Данный результат позволяет сделать заключение о достаточно высоком качестве построенной регрессионной модели.

Пример 3.4.

Вычислим коэффициент детерминации и скорректированный коэффициент детерминации Тейла для регрессии примера 3.2. Их значения равны


соответственно, что также позволяет сделать вывод о достаточно высоком качестве построенной модели.

Сравните результаты примеров 3.3, 3.4 с коэффициентами детерминации парных регрессий в примерах 2.4, 2.5. Сделайте выводы.

3.4.4. Построение доверительных интервалов для параметров регрессии и их линейных комбинаций

Построение доверительных интервалов как для отдельных коэффициентов регрессии так и для прогноза зависимой переменной является важнейшим этапом анализа регрессионной модели. Основные идеи, на которых базируются процедуры построения доверительных интервалов были рассмотрены в разделе (2.4.2 ) для случая парной линейной регрессии. Однако в многомерном случае появляются дополнительные задачи, в частности, построения интервалов и проверки гипотез для линейных комбинаций коэффициентов регрессии.

Для построения доверительных интервалов и проверки гипотез используются свойства t - статистики Стьюдента, которая имеет вид

где - оценка стандартного отклонения i- го коэффициента регрессии. В предположении, что случайная составляющая модели имеет нормальное распределение, случайная переменная t подчиняется центральному t - распределению Стьюдента с n - k степенями свободы. Для расчета t - статистики необходимо знать оценки стандартных отклонений или дисперсий оценок параметров модели, которые являются диагональными элементами оцененной матрицы ковариаций вектора оценок. Получим выражение для этих величин.

Эмпирическия оценка ковариационной матрицы вектора оценок параметров

Ранее для истинной ковариационной матрицы было получено выражение (формула (3.27 ))

В этом выражении неизвестно теоретическое значение дисперсии случайной составляющей модели . Оцененная по методу наименьших квадратов ковариационная матрица вектора b получается, если в выражении для теоретической ковариационной матрицы истинное значение дисперсии заменить его несмещенной оценкой. Получим выражение для такой оценки. Вспоминая выражения (3.15 ), (3.16 ) для оценок параметров и зависимой переменной, запишем

Используя это выражение, а также следующие свойства идемпотентных матриц: G= G T (идемпотентная матрица симметрична), G = GG , вычислим величину

Таким образом, для оцененной ковариационной матрицы получаем выражение


Элементы этой матрицы, стоящие на главной диагонали, являются эмпирическими оценками дисперсий соответствующих коэффициентов модели, а элементы, расположенные вне главной диагонали - оценками ковариаций оценок i -го и j - го коэффициентов, для всех .

На практике не приходится вычислять оценку ковариационной матрицы вручную, так как для этого существуют эффективные пакеты программ.

Доверительные интервалы для отдельных коэффициентов

Процедура построения доверительных интервалов для отдельных коэффициентов множественной регрессии принципиально не отличается от соответствующей процедуры в случае парной линейной регрессии, которую мы изучили в разделе 2.4.2. Как отмечалось выше, в классической линейной нормальной модели регрессии случайная переменная

где и - случайные величины, подчиняется центральному t - распределению с p = n - k степенями свободы. Определив из таблицы t - критерия значение t - статистики для заданного уровня значимости и данного значения степеней свободы p , получаем соотношение

Выражению () можно дать следующую интерпретацию: двусторонний симметричный доверительный интервал с

нижней границей

верхней границей

с вероятностью накрывает истинное значение регрессионного коэффициента . Уровень значимости выбирают, как и в парной линейной регрессии, либо равным 0,01 (однопроцентный уровень значимости), либо 0,05 (пятипроцентный уровень значимости).

Пример 3.5.

Определим границы доверительных интервалов для коэффициентов модели примера 3.1. Пусть уровень значимости . Вычисления по формулам (), () дают следующие значения оценок дисперсий остатков регрессии и дисперсий оценок коэффициентов , , . Оценки среднеквадратичных отклонений для коэффициентов , , . Табличное значение t - статистики для p = 12 степеней свободы и уровня значимости =0,05 равно . Используя эти данные, а также полученные ранее оценки коэффициентов , , , легко вычислить границы (), () доверительных интервалов (интервальные оценки) для коэффициентов: , ; следовательно, с вероятностью 1-=0,95 истинное значение коэффициента лежит в интервале (0,552;6,110) ; , , и, следовательно, истинное значение лежит в интервале (0,259;1,917) ; , и истинное значение лежит в интервале (-0,645;1,074) .

Пример 3.6.

Аналогично предыдущему примеру определим границы доверительных интервалов для модели примера 3.2. Стандартные ошибки оценок коэффициентов равны , , . Табличное значение t - статистики при уровне значимости 0,05 и p = 9 степенях свободы равно 2,262 . Доверительные интервалы равны соответственно: (-1,7655; 0,1016), (4,2306; 5,2553), (0,0735; 0,2765) .

Сравните доверительные интервалы, полученные в примерах 3.5, 3.6 с интервалами примеров 2.6, 2.7. Целесообразно ли включение дополнительных регрессоров в модели для объяснения поведения зависимой переменной?

Доверительные интервалы для линейных комбинаций коэффициентов регрессии

Часто при тестировании построенной модели множественной регрессии возникает задача проверки гипотез и построения доверительных интервалов для линейных комбинаций коэффициентов регрессии. Например, необходимо проверить, является ли сумма двух или нескольких коэффициентов постоянной величиной и построить доверительные границы для этой суммы.

В этом случае используется t - статистика вида

где - вектор коэффициентов линейной комбинации с постоянными компонентами, - оцененная линейная комбинация, - истинное (теоретическое) значение линейной комбинации, - оценка по методу наименьших квадратов стандартной ошибки линейной комбинации. Получим выражение для этой оценки. Теоретическая дисперсия линейной комбинации

откуда имеем

Заметим, что в линейной комбинации некоторые из коэффициентов могут быть равны нулю (разумеется, соответствующие коэффициенты в теоретическом значении комбинации также должны быть равны нулю). Границы симметричного доверительного интервала с уровнем значимости для значения линейной комбинации задаются следующим образом:

нижняя граница

верхняя граница

Замечание к интерпретации доверительных интервалов.

Границы доверительных интервалов зависят от случайных величин b , , или , . Их конкретные значения зависят от наблюдаемой выборки случайных величин. Поэтому, когда мы говорим, что доверительный интервал с заданной вероятностью накрывает неизвестное истинное значение параметра или линейную комбинацию истинных параметров, мы имеем ввиду, что границы интервалов - случайные величины. Когда доверительные интервалы строятся по конкретным выборкам (по конкретной реализации наблюдений зависимой и независимых переменных), то можно говорить о том, что построенный (реализованный) доверительный интервал включает или не включает истинное значение параметра или истинное значение линейной комбинации параметров. Поскольку границы доверительных интервалов - случайные переменные, реализации которых меняются от выборки к выборке, то и расположение и ширина соответствующего доверительного интервала меняется и зависит от конкретных реализаций случайных переменных - оценок b , , или .

3.4.5. Проверка статистических гипотез относительно коэффициентов регрессии и их линейных комбинаций: t - тесты

Процедура проверки гипотез относительно отдельных коэффициентов

Сформулируем пару гипотез относительно отдельного i - го коэффициента множественной регрессии:

гипотеза

гипотеза

t - тест для проверки гипотез можно построить с использованием двустороннего симметричного доверительного интервала для коэффициента . Правило проверки состоит в следующем. Гипотеза отклоняется, при уровне значимости , если соответствующий двусторонний доверительный интервал не накрывает значение с уровнем доверия .

Проверка гипотез о линейных комбинациях коэффициентов

Гипотезы о линейных комбинациях коэффициентов множественной регрессии формулируются следующим образом:

гипотеза

гипотеза

где c * - теоретическое значение линейной комбинации, относительно которого формулируются гипотезы, - вектор-столбец коэффициентов регрессии.

Правило проверки этих гипотез: гипотеза при уровне значимости отклоняется, если соответствующий двусторонний симметричный доверительный интервал не накрывает (не включает) значение c * с уровнем доверия .

3.4.6. Проверка статистических гипотез относительно групп регрессионных коэффициентов и линейных комбинаций: F - тесты

На практике при построении моделей множественной регрессии может возникнуть задача проверки статистических гипотез относительно нескольких коэффициентов регрессии или их линейных комбинаций, или сочетания подобных гипотез. В этом случае применяются так называемые F - тесты, основанные на свойствах F - статистики. F - тесты требуют предположения нормальности распределения случайной составляющей модели, то есть, их можно применять (также как и t - тесты) только в случае нормальной линейной регрессии. С помощью F- теста можно проверить следующие гипотезы:

1. двустороннюю пару гипотез относительно одного, двух или нескольких коэффициентов регрессии;

2. двустороннюю пару гипотез относительно значений одной, двух или нескольких линейных комбинаций коэффициентов регрессии (в отличие от t- теста, который проверяет гипотезу только об одной линейной комбинации);

3. совокупность гипотез относительно коэффициентов и их линейных комбинаций (t- тест подобного рода гипотезы проверять не позволяет).

В общем случае гипотезы для применения F- теста формулируются следующим образом:

гипотеза

где C - прямоугольная матрица размерности (m x k ), - вектор - столбец размерности m , - вектор столбец коэффициентов.

Таким образом, с помощью F- теста в общем случае проверяются гипотезы относительно одновременного выполнения (или не выполнения) совокупности m линейных соотношений вида

Коэффициент детерминации ( - R-квадрат ) - это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью. Более точно - это единица минус доля необъяснённой дисперсии (дисперсии случайной ошибки модели, или условной по признакам дисперсии зависимой переменной) в дисперсии зависимой переменной. В случае линейной зависимости является квадратом так называемого множественного коэффициента корреляции между зависимой переменной и объясняющими переменными. В частности, для модели линейной регрессии с одним признаком коэффициент детерминации равен квадрату обычного коэффициента корреляции между и .

Определение и формула

Истинный коэффициент детерминации модели зависимости случайной величины от признаков определяется следующим образом:

где - условная (по признакам ) дисперсия зависимой переменной (дисперсия случайной ошибки модели).

В данном определении используются истинные параметры, характеризующие распределение случайных величин. Если использовать выборочную оценку значений соответствующих дисперсий, то получим формулу для выборочного коэффициента детерминации (который обычно и подразумевается под коэффициентом детерминации):

- сумма квадратов регрессионных остатков, - общая дисперсия, - соответственно, фактические и расчетные значения объясняемой переменной, - выборочное вреднее.

В случае линейной регрессии с константой , где - объяснённая сумма квадратов, поэтому получаем более простое определение в этом случае. Коэффициент детерминации - это доля объяснённой дисперсии в общей :

.

Необходимо подчеркнуть, что эта формула справедлива только для модели с константой, в общем случае необходимо использовать предыдущую формулу.

Интерпретация

Недостатки и альтернативные показатели

Основная проблема применения (выборочного) заключается в том, что его значение увеличивается (не уменьшается) от добавления в модель новых переменных, даже если эти переменные никакого отношения к объясняемой переменной не имеют. Поэтому сравнение моделей с разным количеством признаков с помощью коэффициента детерминации, вообще говоря, некорректно. Для этих целей можно использовать альтернативные показатели.

Скорректированный (adjusted)

Для того, чтобы была возможность сравнивать модели с разным числом признаков так, чтобы число регрессоров (признаков) не влияло на статистику обычно используется скорректированный коэффициент детерминации , в котором используются несмещённые оценки дисперсий:

который даёт штраф за дополнительно включённые признаки, где - количество наблюдений, а - количество параметров.

Данный показатель всегда меньше единицы, но теоретически может быть и меньше нуля (только при очень маленьком значении обычного коэффициента детерминации и большом количестве признаков), поэтому интерпретировать его как долю объясняемой дисперсии уже нельзя. Тем не менее, применение показателя в сравнении вполне обоснованно.

Для моделей с одинаковой зависимой переменной и одинаковым объемом выборки сравнение моделей с помощью скорректированного коэффициента детерминации эквивалентно их сравнению с помощью остаточной дисперсии или стандартной ошибки модели .

Обобщённый (extended)

В случае отсутствия в линейной множественной МНК регрессии константы свойства коэффициента детерминации могут нарушаться для конкретной реализации . Поэтому модели регрессии со свободным членом и без него нельзя сравнивать по критерию . Эта проблема решается с помощью построения обобщённого коэффициента детерминации , который совпадает с исходным для случая МНК регрессии со свободным членом. Суть этого метода заключается рассмотрении проекции единичного вектора на плоскость объясняющих переменных.

Суть состоит в следующем: этот показатель измеряет меру зависимости вариации одной величины от многих других. Он применяется для оценки качества линейной регрессии.

Формула расчета:

R^2 \equiv 1-{\sum_i (y_i — f_i)^2 \over \sum_i (y_i-\bar{y})^2},

  • \bar{y} – ср. арифметическое зависимой переменной;
  • fi – знач. зависимой переменной, предполагаемое по уравнению регрессии;
  • yi – значение исследуемой зависимой переменной.

Детерминация, что это такое — определение

Коэффициент детерминации – часть дисперсии переменной (зависимой), которая обуславливается конкретной моделью зависимости. Так эта единица поможет вычесть долю необъясненной дисперсии в дисперсии зависимой переменной.

Данный показатель может принимать значения в пределах от 0 до 1. Чем его значение ближе к 1, тем связаннее результативный признак с исследуемыми факторами.

Т.к. преступление является результатом связи поведения и личностных качеств, этот показатель в деятельности заинтересованных органов рассчитывается для оценки качества преступного поведения, дает представление, что послужило вероятностной причиной преступления, что является мотивацией, какие этому были причины и условия.

Коэффициент детерминации, что показывает?

Этот коэффициент показывает варианты результативного признака от влияния факторного признака, он тесно связан с числом корреляции. Если связь отсутствует, то показатель равняется нулю, при ее наличии – единице.
Есть определение детерминизма как принципа устройства мира. Основой этого представления является взаимосвязанность всех явления. Это учение отрицает существование вещей вне взаимосвязи с миром.

Противоположностью является индетерминизм, он связан с отрицанием объективных отношений детерминации, или отрицанием причинности.

Генетический детерминизм – вера в то, что любой организм развивается под генетическим контролем.

Под детерминантами преступности в криминологии понимают социальные явления, действия которых могут вызвать преступность.

С помощью расчетов такого рода можно оценить вероятностное социокультурное влияние различных факторов на развитие личности и предположить, как себя будет вести человек, например, в деловом общении, объективно оценить, подходит ли он для государственного управления, или воинской службы.

Так же коэффициент определяет, правильно ли выбран индекс для подсчета коэффициентов бета и альфа. Если в % цифра ниже 75 к определенному индексу, значения бета и альфа к нему будут некорректны.

Индекс детерминации

Индекс детерминации – это квадрат инд. корреляции нелинейных связей. Этим значением характеризуют, на какое количество процентов моделью регрессии объясняются варианты показателей результативной переменной по отношению к своему среднему уровню.

Формула



Коэффициент детерминации скорректированный

Суть данного понятия состоит в следующем: этот индекс показывает долю дисперсии (общей) результативной переменной, объясняющей вариантами факторных переменных, включаемых в модель регрессии: (с увеличением, уменьшением).

Таким образом можно выделить следующие свойства коэффициента детерминации:

1. ; в силу определения

2. =0;в этом случае RSS = 0, т. е. наша регрессия не объясняет, ничего не дает по сравнению с тривиальным прогнозом. Данные позволяют сделать вывод о независимости y и x, изменение в переменной x никак не влияет на изменение среднего значения переменной y. То есть увеличивается разброс точек на корреляционном поле относительно построенной линии регрессии(или статистическая зависимость очень слабая, или уравнение регрессии подобрано неверно).

3. =1; в этом случае все точки () лежат на одной прямой (ESS = 0). Тогда на основании имеющихся данных можно сделать вывод о наличии функциональной, а именно, линейной, зависимости между переменными y и x. Изменение переменной y полностью объясняется изменением переменной x.Для парной линей регрессии коэффициент детерминации точно равен квадрату коэффициента корреляции:

Вообще говоря, значение коэффициента детерминации не говорит о том, есть ли между факторами зависимость и насколько она тесная. Оно говорит только о качестве того уравнения, которое мы построили.

Удобно сравнивать коэффициенты детерминации для нескольких разных уравнений регрессии построенных по одним и тем же данным наблюдений. Из нескольких уравнений лучше то, у которого больше коэффициент детерминации.

3. Скорректированный коэффициент детерминации

Одним из свойств коэффициента детерминации является то, что это не убывающая функция от числа факторов, входящих в модель. Это следует из определения детерминации. Действительно в равенстве

Числитель не зависит, а знаменатель зависит от числа факторов модели. Следовательно, с увеличением числа независимых переменных в модели, коэффициент детерминации никогда не уменьшается. Тогда, если сравнить две регрессионные модели с одной и тоже зависимой переменной, но разным числом факторов, то более высокий коэффициент детерминации будет получен в модели с большим числом факторов. Поэтому необходимо скорректировать коэффициент детерминации с учетом количества факторов, входящих в модель.

Скорректированный (исправленный или оцененный) коэффициент детерминации определяют следующим образом:

Свойства скорректированного коэффициента детерминации:

1. Несложно заметить что при >1 исправленный коэффициент детерминации меньше коэффициента детерминации ().

2. , но может принимать отрицательные значения. При этом, если скорректированный принимает отрицательное значение, то принимает значение близкое к нулю ().

Таким образом скорректированный коэффициент детерминации является попыткой устранить эффект, связанный с ростом R 2 при увеличении числа регрессоров. - "штраф" за увеличение числа независимых переменных.



Поделиться