Как рассчитать vif в excel

Под строгой мультиколлинеарностью понимается ситуация, когда между регрессорами в модели есть точная линейная связь, т.е. когда одна объясняющая переменная точным образом линейно выражается через другие.

Представим, например, что при анализе макроэкономической модели в качестве переменных в неё включили экспорт, импорт и чистый экспорт. Чистый экспорт равен разности между экспортом и импортом и, следовательно, при включении в модель этих трёх переменных окажется, что регрессоры модели линейно выражаются друг через друга.

В терминах матричной записи точная мультиколлинеарность предполагает линейную зависимость столбцов матрицы регрессоров, откуда следует неполный ранг матрицы регрессоров. Это означает, что при полной мультиколлинеарности невозможно вычислить МНК-оценки коэффициентов, потому что матрица является вырожденной, и матрица не определена.

Из определения и из приведенного выше примера легко догадаться, как можно решить проблему строгой мультиколлинеарности. Для этого следует исключить лишнюю переменную. Например, если в модели уже учтены экспорт и импорт, то понятно, что включение ещё и чистого экспорта не принесет никакой дополнительной информации, и этой третьей переменной можно безболезненно пожертвовать.

Современные эконометрические пакеты при возникновении чистой мультиколлинеарности сами избавляются от одной из линейно зависимых переменных, чтобы вычисление МНК-оценок стало технически возможным.

Частичная мультиколлинеарность — это ситуация, когда между объясняющими переменными нет точной линейной связи, но эти переменные сильно коррелируют между собой. Иными словами, они не линейно зависимы, но «почти» линейно зависимы. При частичной мультиколлинеарности вычислить МНК-оценки можно, однако стандартные ошибки оценок коэффициентов оказываются высокими, а точность оценок коэффициентов — низкой. Так происходит потому, что при сильной корреляции двух регрессоров в выборке они, как правило, меняются одновременно, и оказывается трудно отличить влияние одного регрессора на зависимую переменную от влияния другого. Таким образом, основным негативным последствием мультиколлинеарности является снижение точности оценки отдельных коэффициентов.

Частичная мультиколлинеарность не нарушает ни одну из предпосылок классической линейной модели множественной регрессии и поэтому не приводит к смещению оценок коэффициентов модели.

Это особенно хорошая новость потому, что на практике почти в любой множественной регрессии объясняющие переменные в той или иной степени коррелированы. Поэтому частичная мультиколлинеарность в данных наблюдается очень часто. Представьте, например, что вы моделируете выпуск фирмы некоторой отрасли в зависимости от количества используемых фирмой труда и физического капитала (то есть, как сказали бы экономисты, моделируете производственную функцию). Скорее всего, в вашей выборке будут большие фирмы и маленькие, причем большие фирмы в среднем будут использовать относительно много каждого из факторов производства, а маленькие, напротив, относительно мало. В результате переменные, характеризующие количество труда и количество капитала, будут положительно коррелированы друг с другом.

Есть несколько способов выявить мультиколлинеарность на этапе предварительного анализа данных (то есть ещё до оценки параметров уравнения регрессии). О наличии существенной частичной мультиколлинеарности в модели говорят:

большие по абсолютной величине (больше 0,9) парные коэффициенты корреляции между регрессорами;
близость к нулю определителя матрицы ;
большие (больше 10) значения коэффициентов VIF.

Коэффициенты VIF (variance inflation factor) показывают, насколько сильно связаны друг с другом регрессоры модели. Чтобы определить коэффициент VIF, соответствующий регрессору , нужно оценить вспомогательную регрессию, в которой слева стоит , а справа — все остальные объясняющие переменные исходной модели. После этого нужно вычислить коэффициент VIF по формуле:

где — это коэффициент детерминации из оцененной вспомогательной регрессии.

Если коэффициенты VIF для всех регрессоров оказались меньше 10, это значит, что существенной мультиколлинеарности в модели не наблюдается. В противном случае стоит сделать вывод о том, что в модели есть мультиколлинеарность.

Пример 4.1. Мультиколлинеарность.

Эконометрист исследует модель:

На этапе предварительного анализа данных он оценил следующие вспомогательные уравнения:

Что можно сказать о наличии мультиколлинеарности в исходной модели?

Решение:

Коэффициенты VIF для переменных равны, соответственно: , и . Так как некоторые из коэффициентов больше 10, можно заключить, что в модели присутствует существенная мультиколлинеарность.

Некоторые признаки мультиколлинеарности можно увидеть уже после оценки параметров модели. Перечислим их:

— Неустойчивость результатов. Небольшое изменение исходных данных приводит к существенному изменению оценок коэффициентов. Например, если после оценки уравнения по 200 наблюдениям вы исключили из выборки несколько точек, оценили модель заново и обнаружили сильное изменение результатов.

— Незначимость большинства переменных. Каждая переменная в отдельности является незначимой, а уравнение в целом является значимым и характеризуется близким к единице коэффициентом .

— Неправдоподобность результатов. Оценки коэффициентов имеют неправильные с точки зрения экономической теории знаки или неоправданно большие значения. Стоит отметить, что причиной возникновения такой ситуации может быть не только потеря точности оценивания из-за мультиколлинеарности, но и гораздо более серьезные проблемы, например, смещение из-за пропуска существенной переменной (не говоря уж о том, что не все экономические теории прошлого проходят испытание современными данными).

Что можно предпринять, если вы столкнулись с негативными последствиями мультиколлинеарности в вашей модели? Существует несколько путей решения этой проблемы.

Если есть возможность увеличить количество наблюдений, то это отличный вариант, так как больший размер выборки увеличит точность результатов, компенсировав её потерю из-за мультиколлинеарности.

Мультиколлинеарность будет устранена, если вы исключите из уравнения тот регрессор, который сильно коррелирован с остальными объясняющими переменными модели. Однако следует помнить, что применение этого способа не всегда целесообразно, так как может привести к гораздо более серьезным последствиям: смещению оценок в результате пропуска существенной переменной. Скажем, в нашем примере про производственную функцию ни труд, ни капитал из уравнения исключать не хотелось бы, так как ясно, что выпуск фирмы зависит от каждого из этих факторов производства.

Решением проблемы может быть использование вместо отдельных переменных их линейных комбинаций. Возвращаясь к нашему примеру с экспортом и импортом, заметим, что эти переменные, включенные в модель по отдельности, могут быть причиной мультиколлинеарности, так как обычно коррелированы друг с другом. Однако, заменив их чистым экспортом (который как раз и представляет собой их линейную комбинацию), вы сможете избежать этой проблемы. Другой пример: представим, что вы оцениваете зависимость успеваемости студента физического факультета от баллов за ЕГЭ по математике и по физике, которые этот студент получил, будучи школьником. Так как два этих регрессора наверняка коррелированы, то вместо включения в модель каждого из них по отдельности вы могли бы оставить в уравнении одну переменную — средний балл ЕГЭ по двум этим предметам.

Использование альтернативных (нелинейных) форм зависимостей в некоторых случаях также может снизить остроту проблемы мультиколлинеарности. Оценивание такого рода моделей мы обсудим в конце данной главы.

В заключение ещё раз подчеркнем, что мультиколлинеарность сама по себе не вызывает смещения оценок коэффициентов. Поэтому бороться с ней нужно только в том случае, если она приводит к существенным проблемам (например, к огромным стандартным ошибкам оценок коэффициентов или заведомой неадекватности полученных результатов). Во всех остальных случаях данную проблему можно игнорировать 1 .

Некоторые специфические инструменты, которые иногда тоже могут быть полезны в борьбе с мультиколлинеарностью, обсуждаются в рамках курсов машинного обучения и многомерного статистического анализа. См.: метод главных компонент, LASSO и ridge-регрессии, метод эластичной сети.↩︎

Для иллюстрации алгоритма построения регрессионной модели в условиях мултиколлениарности воспользуемся данными из лабораторной работы №4.

Выявление мультиколлениарности на основе матрицы парных коэффициентов корреляции

Как известно самым действенным способом обнаружения мултиколлениарности является построение и анализ матрицы парных коэффициентов корреляции, а именно той ее части, которая относится к объясняющим переменным (т.е. к переменным обозначенным как X_j).

Для расчета матрицы парных коэффициентов в главном меню выдерем Данные/Анализ данных/Корреляция.

Рисунок 1 – Выбор метода анализа данных

В качестве входного интервала выделяем лишь независимые переменные (X_j). В результате получаем матрицу значений коэффициентов (в каждой ячейке значение парного линейного коэффициента корреляции). Стот заметить, что для интерпретации значений данных значений используется шкала Чеддока.

Рисунок 2 – Матрица парных коэффициентов корреляции между независимыми переменными (Примечание: ячейки со значениями более 0,70, выделены вручную)

В тех случаях, когда встречаются значения более 0,7, можно говорить о наличии мультиколлениарности.

В нашем примере имеем несколько таких вариантов:

Отсюда следует, что совместно данные переменные в множественную модель включать нельзя, в противном случае их влияние на зависимую переменную однозначно установить не удастся.

Выявление мультиколлениарности с помощью VIF-теста

Более корректным способом обнаружения мультиколлениарности считается расчет показателя VIF (Variance Inflation Factor - фактор инфляции вариации):

где: – значение множественного коэффициента детерминации, полученное для регрессора Xj как зависимой переменной и остальных независимых переменных.

Считается что в случае VIF > 10 объясняющие переменные, коррелирующие между собой, считаются мультиколлинеарными.

Таблица 1 – Интервалы возможных значений коэффициента VIF

VIF	Статус предсказателей
VIF = 1	Не коррелирует
1 < VIF < 5	Умеренно коррелирует
VIF > 5 до 10	Высоко коррелированные

Проиллюстрируем выполнение теста для зависимости:

В главном меню выбираем Данные/Анализ данных/Регрессия.

В результате получаем показатели, представленные на рисунке 3.

Рисунок 3 – Результаты построения регрессионной модели X1 = f(X2;X3;X4;X5)

Для расчета VIF-коэффициента нам необходимо значение множественного коэффициента корреляции (выделено на рисунке 3 овалом). Далее воспользуемся формулой для расчета показателя.

Рисунок 4 – Результаты расчета VIF-коэффициента

В результате расчетов, значение VIF-коэффициента равно 31,47, согласно таблице 1 это значение попадает в третий интервал, т.е. наблюдается сильная коррелированность переменной X1 с остальными независимыми переменными, а значит есть мультиколлениарность.

Аналогичным образом проводят расчет для оставшихся вариантов зависимостей. Для экономия места представим результаты тестирования в сводной таблице 2.

Таблица 2 – Результаты расчета VIF-коэффициента для всех вариантов зависимостей между объясняющими переменными

Зависимость	R2	VIF-коэффициент	Вывод
X1 = f(X2;X3;X4;X5)	0,968	31,47	Высоко коррелированные
X2 = f(X1;X3;X4;X5)	0,549	2,22	Умеренно коррелирует
X3 = f(X1;X2;X4;X5)	0,912	11,32	Высоко коррелированные
X4 = f(X1;X2;X3;X5)	0,952	20,91	Высоко коррелированные
X5 = f(X1;X2;X3;X4)	0,783	4,60	Умеренно коррелирует

Исходя из полученных значений наилучшем вариантом модели, лишенной проблемы мультиколлениарности, будет зависимость:

Построение линейной регрессии, оценивание ее параметров и их значимости можно выполнить значительнее быстрей при использовании пакета анализа Excel (Регрессия). Рассмотрим интерпретацию полученных результатов в общем случае (k объясняющих переменных) по данным примера 3.5.

Вывод итогов
Регрессионная статистика
Множественный R	0,940
R-квадрат	0,884
Нормированный R – квадрат	0,868
Стандартная ошибка	22,87
Наблюдения

В таблице регрессионной статистики приводятся значения:

Множественный R – коэффициент множественной корреляции ;

R-квадрат – коэффициент детерминации R 2 ;

Нормированный R-квадрат – скорректированный R 2 с поправкой на число степеней свободы;

Стандартная ошибка– стандартная ошибка регрессии S;

Наблюдения –число наблюдений n.

Дисперсионный анализ
df	SS	MS	F	Значимость F
Регрессия	28102,2	28102,2	53,69	0,00016
Остаток	3663,7	523,3
Итого

В таблице Дисперсионный анализприведены:

1. Столбец df - число степеней свободы, равное

для строки Регрессия df = k;

для строкиОстатокdf = n – k – 1;

для строкиИтогоdf = n – 1.

2. Столбец SS –сумма квадратов отклонений, равная

для строки Регрессия ;

для строкиОстаток ;

для строкиИтого .

3. Столбец MSдисперсии, определяемые по формуле MS = SS/df:

для строки Регрессия – факторная дисперсия;

для строкиОстаток– остаточная дисперсия.

4. Столбец F – расчетное значение F-критерия, вычисляемое по формуле

F = MS(регрессия)/MS(остаток).

5. Столбец Значимость F –значение уровня значимости, соответствующее вычисленной F-статистике.

Значимость F = FРАСП(F-статистика, df(регрессия), df(остаток)).

Коэффи-циенты	Стандартная ошибка	t-cта-тистика	P-значение	Нижние 95%	Верхние 95%
Y	65,92	11,74	5,61	0,00080	38,16	93,68
X	0,107	0,014	7,32	0,00016	0,0728	0,142

В этой таблице указаны:

1. Коэффициенты– значения коэффициентов a, b.

2. Стандартная ошибка–стандартные ошибки коэффициентов регрессии S_a, S_b.

3. t-статистика – расчетные значения t-критерия, вычисляемые по формуле:

t-статистика = Коэффициенты / Стандартная ошибка.

4.Р-значение (значимость t)– это значение уровня значимости, соответствующее вычисленной t-статистике.

Р-значение = СТЬЮДРАСП(t-статистика, df(остаток)).

5. Нижние 95% и Верхние 95%– нижние и верхние границы 95 %-ных доверительных интервалов для коэффициентов теоретического уравнения линейной регрессии.

ВЫВОД ОСТАТКА
Наблюдение	Предсказанное y	Остатки e
72,70	-29,70
82,91	-20,91
94,53	-4,53
105,72	5,27
117,56	12,44
129,70	19,29
144,22	20,77
166,49	24,50
268,13	-27,13

В таблице ВЫВОД ОСТАТКАуказаны:

в столбце Наблюдение– номер наблюдения;

в столбце Предсказанное y– расчетные значения зависимой переменной;

в столбце Остатки e– разница между наблюдаемыми и расчетными значениями зависимой переменной.

Пример 3.6.Имеются данные (усл. ед.) о расходах на питание y и душевого дохода x для девяти групп семей:

Используя результаты работы пакета анализа Excel (Регрессия), проанализируем зависимость расходов на питание от величины душевого дохода.

Результаты регрессионного анализа принято записывать в виде:

где в скобках указаны стандартные ошибки коэффициентов регрессии.

Коэффициенты регрессии а = 65,92 и b = 0,107. Направление связи между y и xопределяет знак коэффициентарегрессии b = 0,107, т.е. связь является прямой и положительной. Коэффициент b = 0,107 показывает, что при увеличении душевого дохода на 1 усл. ед. расходы на питание увеличиваются на 0,107 усл. ед.

Оценим значимость коэффициентов полученной модели. Значимость коэффициентов (a, b) проверяется по t-тесту:

Р-значение (a) = 0,00080 < 0,01 < 0,05

Р-значение (b) = 0,00016 < 0,01 < 0,05,

следовательно, коэффициенты (a, b) значимы при 1 %-ном уровне, а тем более при 5 %-ном уровне значимости. Таким образом, коэффициенты регрессии значимы и модель адекватна исходным данным.

Результаты оценивания регрессии совместимы не только с полученными значениями коэффициентов регрессии, но и с некоторым их множеством (доверительным интервалом). С вероятностью 95 % доверительные интервалы для коэффициентов есть (38,16 – 93,68) для a и (0,0728 – 0,142) для b.

Качество модели оценивается коэффициентом детерминации R 2 .

Величина R 2 = 0,884 означает, что фактором душевого дохода можно объяснить 88,4 % вариации (разброса) расходов на питание.

В случае парной линейной регрессии коэффициент корреляции можно определить как . Полученное значение коэффициента корреляции свидетельствует, что связь между расходами на питание и душевым доходом очень тесная.

Историческое сочинение по периоду истории с 1019-1054 г.: Все эти процессы связаны с деятельностью таких личностей, как.

Основные научные достижения Средневековья: Ситуация в средневековой науке стала меняться к лучшему с.

Поиск по сайту

Пример 6.1.Дано распределение объектов по имущественному признаку.

ОТ

ДО

Частота

Найти накопленные частости .

Произведем такую последовательность действий:

1) Рассчитаем частости используя данные из столбца "Частота"по формуле:

Для этого в электронной таблице Excelв пустой ячейке ставим знак "=", после указываем соответствующую ячейку из столбца "Частота", ставим знак деления и, используя функцию СУММ, выделяем весь столбец "Частота";

2) Находим накопленные частости по формуле

В электронной таблице Excel выбираем функцию СУММ в категории "Математические" и в каждой строке столбца Р указываем предшествующие (включая данную) строки в столбце (см. рис. 6.2).

Пример 6.2.Дано распределение объектов по признаку.

ОТ

ДО

Частота

Найти значение первого дециля.

Для нахождения первого дециля нам необходимо воспользоваться формулой.

– первый дециль; – значение столбца "ОТ"; – значение столбца "ДО" или часто используют обозначение h вместо ; - накопленная частость предшествующего значения в %; – частость в %.

Зная эти значения можно найти значение первого дециля.

Для этого в электронной таблице Excelс помощью формул СУММ и ПРОИЗВЕД, знаков деления и "минус", и соответствующих ячеек выполняем действия указанные в формуле (пример =СУММ(G2;ПРОИЗВЕД((H2-G2);(10-0)/(J2*100))), где G2 – значение ОТ входящий в первый дециль; Н2 – значение ДО входящий в первый дециль; J2 – частость, в которую входит первый дециль).

На основе проведённых расчетов получены следующие результаты (см. рис.6.2).

Рис.6.2. Результаты расчета накопленных частостей и первого дециля

Пример 6.3.Дано распределение объемов продаж фирм отрасли в соответствии с численностью потребителей их сегментов и ценами на их услуги. Найти значение коэффициента Герфиндаля.

ОТ

ДО

Частота

Для нахождения коэффициента Герфиндаля необходимо рассчитать значения удельного веса каждой фирмы и воспользоваться формулой

Произведём такую последовательность действий:

1) Находим варианту для каждой строки по формуле средней арифметической:

где

– варианта; – значения столбца "ОТ"; – значения столбца "ДО".

Для того чтобы сделать это в электронной таблице Excelвыбираем в категории "Статистические" функцию СРЗНАЧ и указываем необходимые ячейки;

2) Рассчитаем для средней выборочной сумму значений произведений

В электронной таблице Excel выбираем в категории "Математические" функцию ПРОИЗВЕД и, указывая на необходимые ячейки, делаем столбик после чего, выбирая функцию СУММ в категории "Математические", указываем весь столбик;

3) Рассчитаем доли по формуле

Для этого в электронной таблице Excelв пустой ячейке ставим знак "=" пишем "100*", после указываем соответствующую ячейку из столбца после ставим знак деления и, используя формулу СУММ, указываем весь столбец ;

4) Для нахождения коэффициента Герфиндаля рассчитываем столбец путём возведения в квадрат каждое значение

В электронной таблице Excel выбираем формулу СТЕПЕНЬ в категории "Математические" в первой графе указываем нужную нам ячейку, а во второй цифру "2"

5) Найдём коэффициент Герфиндаля по формуле

Для этого в Excel выбираем функцию СУММ в категории "Математические" и указываем все значения в столбце

На основе проведённых расчетов получены следующие результаты (см. рис. 6.3).

Рис.6.3. Результаты расчета коэффициента Герфиндаля

Пример 6.4.Денежные доходы населения составляют:

Социальная группа населения	Численность населения, %	Денежные доходы, %
1.	6,0
2.	11,6
3.	17,6
4.	26,5
5.	38,3

Необходимо построить кривую Лоренца.

Для начала на рис. 6.4 поясним столбец группы населения по денежным доходам в %, от 20% до 100%. С каждой новой строкой добавляется по 20%, затем по принципу кумуляты построим столбец долей денежных доходов нарастающим итогом в %, что показывает как изменяется распределение дохода на население. После прохождения самого дальнего расстояния точек кривой и прямой начинается распределение дохода в сторону увеличения на добавляющиеся доли населения.

Чтобы построить кривую Лоренца откладываем по оси Х значения 2-го столбца (С), а по оси Y значения 3-го столбца (D) (см. рис.6.4).

Рис. 6.4. Построение кривой Лоренца

После открытия окна нажимаем на строку диапазон данных для диаграммы, затем зажимаем курсором на столбец: "Доля денежных доходов нарастающим итогом, %", и с первой ячейки с числом тянем до последнего.

После как закончили, нажимаем на кнопку изменить подписи горизонтальной оси и там, так же как и в: "Доля денежных доходов нарастающим итогом, %", мы тянем с первой ячейки с числом до последней, только в этот раз из столбца с наименованием: "Группы по денежным доходам, %" (см. рис.6.5).

Рис. 6.5. Кривая Лоренца

Пример 6.5. Определить коэффициенты Лоренца и Джини.

Социальная группа населения	Численность населения, удельный вес	Денежные доходы, удельный вес
1.	0,2	0,12
2.	0,15	0,2
3.	0,28	0,15
4.	0,13	0,31
5.	0,1	0,12
6.	0,14	0,1

1). Коэффициент Лоренца рассчитываем по следующей формуле:

Приступаем к его вычислению в Excel (формула выше). Выглядеть это будет так (см. рис. 6.6):

Рис.6.6. Таблица расчета Коэффициента Лоренца.

2) Коэффициент Джини рассчитываем по следующей формуле:

Определим согласно формуле выше произведение Xi*Yi. Для этого в электронной таблице Excel в пустой ячейке С2 ставим знак: "=", выбираем нужную нам ячейку А2 ставим знак умножить: "*" на ячейку В2 и так далее по каждой паре, а потом делаем сумму всех этих произведений.

Расчёт кумуляты Xi и Yi будет по следующему принципу: CumXi=0+0.2=0,2; 0.2+0,15=0.35; 0.2+0,15+0,28=0.63; и так далее. В электронной таблице Excel это будет выглядеть так: A2+A3;A4+A5+A6 и так далее. Расчёт кумуляты Yi аналогично.В Excel это будет выглядеть так (см. рис. 6.6):

Multicollinearity in regression analysis occurs when two or more explanatory variables are highly correlated to each other, such that they do not provide unique or independent information in the regression model. If the degree of correlation is high enough between variables, it can cause problems when fitting and interpreting the regression model.

Fortunately, it’s possible to detect multicollinearity using a metric known as the variance inflation factor (VIF), which measures the correlation and strength of correlation between the explanatory variables in a regression model.

This tutorial explains how to calculate VIF in Excel.

Example: Calculating VIF in Excel

For this example we will perform a multiple linear regression using the following dataset that describes the attributes of 10 basketball players. We will fit a regression model using rating as the response variable and points, assists, and rebounds as the explanatory variables. Then, we’ll identify the VIF values for each explanatory variable.

Step 1: Perform a multiple linear regression.

Along the top ribbon, go to the Data tab and click on Data Analysis. If you don’t see this option, then you need to first install the free Analysis ToolPak .

Once you click on Data Analysis, a new window will pop up. Select Regression and click OK.

Fill in the necessary arrays for the response variables and the explanatory variables, then click OK.

This produces the following output:

Step 2: Calculate the VIF for each explanatory variable.

Next, we can calculate the VIF for each of the three explanatory variables by performing individual regressions using one explanatory variable as the response variable and the other two as the explanatory variables.

For example, we can calculate the VIF for the variable points by performing a multiple linear regression using points as the response variable and assists and rebounds as the explanatory variables.

This produces the following output:

The VIF for points is calculated as 1 / (1 – R Square) = 1 / (1 – .433099) = 1.76.

We can then repeat this process for the other two variables assists and rebounds.

It turns out that the VIF for the three explanatory variables are as follows:

points: 1.76
assists: 1.96
rebounds: 1.18

How to Interpret VIF Values

The value for VIF starts at 1 and has no upper limit. A general rule of thumb for interpreting VIFs is as follows:

A value of 1 indicates there is no correlation between a given explanatory variable and any other explanatory variables in the model.
A value between 1 and 5 indicates moderate correlation between a given explanatory variable and other explanatory variables in the model, but this is often not severe enough to require attention.
A value greater than 5 indicates potentially severe correlation between a given explanatory variable and other explanatory variables in the model. In this case, the coefficient estimates and p-values in the regression output are likely unreliable.

Given that each of the VIF values for the explanatory variables in our regression model are close to 1, multicollinearity is not a problem in our example.

Читайте также: