Как рассчитать критерий фишера в excel пример
Имеются следующие данные разных стран об индексе розничных цен на продукты питания (х) и об индексе промышленного производства (у).
Индекс розничных цен на продукты питания (х) | Индекс промышленного производства (у) | |
---|---|---|
1 | 100 | 70 |
2 | 105 | 79 |
3 | 108 | 85 |
4 | 113 | 84 |
5 | 118 | 85 |
6 | 118 | 85 |
7 | 110 | 96 |
8 | 115 | 99 |
9 | 119 | 100 |
10 | 118 | 98 |
11 | 120 | 99 |
12 | 124 | 102 |
13 | 129 | 105 |
14 | 132 | 112 |
Требуется:
1. Для характеристики зависимости у от х рассчитать параметры следующих функций:
В) равносторонней гиперболы.
2. Для каждой модели рассчитать показатели: тесноты связи и среднюю ошибку аппроксимации.
3. Оценить статистическую значимость параметров регрессии и корреляции.
4. Выполнить прогноз значения индекса промышленного производства у при прогнозном значении индекса розничных цен на продукты питания х=138.
Задача №3. Расчёт параметров регрессии и корреляции с помощью Excel
По территориям региона приводятся данные за 200Х г.
Номер региона | Среднедушевой прожиточный минимум в день одного трудоспособного, руб., х | Среднедневная заработная плата, руб., у |
---|---|---|
1 | 78 | 133 |
2 | 82 | 148 |
3 | 87 | 134 |
4 | 79 | 154 |
5 | 89 | 162 |
6 | 106 | 195 |
7 | 67 | 139 |
8 | 88 | 158 |
9 | 73 | 152 |
10 | 87 | 162 |
11 | 76 | 159 |
12 | 115 | 173 |
Задание:
1. Постройте поле корреляции и сформулируйте гипотезу о форме связи.
2. Рассчитайте параметры уравнения линейной регрессии
.
3. Оцените тесноту связи с помощью показателей корреляции и детерминации.
4. Дайте с помощью среднего (общего) коэффициента эластичности сравнительную оценку силы связи фактора с результатом.
5. Оцените с помощью средней ошибки аппроксимации качество уравнений.
6. Оцените с помощью F-критерия Фишера статистическую надёжность результатов регрессионного моделирования.
7. Рассчитайте прогнозное значение результата, если прогнозное значение фактора увеличится на 10% от его среднего уровня. Определите доверительный интервал прогноза для уровня значимости .
8. Оцените полученные результаты, выводы оформите в аналитической записке.
Функция FПАСПОБР в Excel используется для проверки значимости модели регрессии с применением F-критерия (критерий Фишера), и возвращает числовое значение, соответствующее обратному значению для F-распределения вероятностей (верхнему квантилю). Например, если в качестве вероятности (первый аргумент функции) было введено значение уровня значимости, к примеру, 0,08, то FПАСПОБР вычислит значение случайной величины x, для которой выполняется следующее условие – P(X>x) = 0,08.
Функция FРАСПОБР для оценки значимости параметров модели регрессии
Критическое значения F может быть определено в случае, если в качестве первого аргумента рассматриваемой функции будет введено значение уровня значимости.
Для расчета F используется следующая формула:
Функция оперирует двумя дополнительными критериями:
- Числитель степеней свободы: n1 = k.
- Знаменатель степеней свободы: n2 = (n – k – 1).
Через переменную k обозначают число факторов, которые были включены в исследуемую модель регрессии.
В Excel предусмотрена функция для расчета вероятности для распределения Фишера – FРАСП. Между данной и рассматриваемой функциями существует следующая взаимосвязь: =FРАСПОБР(FРАСП(x;n1;n2);n1;n2)=x.
В MS Office 2007 и более поздних версиях была введена функция F.ОБР.ПХ, которая заменила рассматриваемую функцию. FПАСПОБР была оставлена для обеспечения совместимости с документами, созданными в более старых версиях Excel.
Определение верхнего квартиля F-распределения Фишера в Excel
Пример 1. В таблице указаны вероятность, связанная с распределением Фишера, а также числитель и знаменатель степеней свободы соответственно. Определить верхний квантиль данного F-распределения.
Вид таблицы данных:
Вычислим искомое значение с помощью функции:
Оценка в Excel эффективности использования технологий на производстве
Пример 2. На заводе есть несколько цехов по производству одного типа продукции. Существует 3 различные технологии изготовления данной продукции. Для оценки были записаны данные о количестве часов, необходимых для производства одной партии продукции каждым цехом с использованием каждой из трех технологий. Оценить эффективность использования технологий, проанализировать полученные значения.
Вид таблицы данных:
Проведем однофакторный дисперсионный анализ для данных, находящихся в диапазоне ячеек B3:D7, используя соответствующую надстройку Excel. Полученная таблица результатов:
Здесь СЧЁТЗ(B3:D3) определяет число полей данных, а СЧЁТЗ(B3:D7) – количество исследуемых числовых значений.
Рассмотрим распределение Фишера (F-распределение). С помощью функции MS EXCEL F .РАСП() построим графики функции распределения и плотности вероятности, поясним применение этого распределения для целей математической статистики.
F-распределение (англ. F-distribution) применяется для целей дисперсионного анализа (ANOVA), при проверке гипотезы о равенстве дисперсий двух нормальных распределений (F-тест) и др.
Определение : Если U 1 и U 2 независимые случайные величины, имеющие ХИ2-распределение с k 1 и k 2 степенями свободы соответственно, то распределение случайной величины:
носит название F -распределения с параметрами k 1 и k 2 .
Плотность F -распределения выражается формулой:
где Г(…) – гамма-функция:
если альфа – положительное целое, то Г( альфа )=( альфа -1)!
СОВЕТ : Подробнее о Функции распределения и Плотности вероятности см. статью Функция распределения и плотность вероятности в MS EXCEL .
Приведем пример случайной величины, имеющей F -распределение.
Пусть имеется 2 нормальных распределения N(μ 1 ;σ 1 ) и N(μ 2 ; σ 2 ), из которых сделаны выборки размером n 1 и n 2 . Если s 1 2 и s 2 2 – дисперсии этих выборок , то отношение
имеет F -распределение. Это соотношение нам потребуется при проверке гипотезы о равенстве дисперсий двух нормальных распределений (F-тест) .
Графики функций
В файле примера на листе График приведены графики плотности распределения вероятности и интегральной функции распределения .
Примечание : Для построения функции распределения и плотности вероятности можно использовать диаграмму типа График или Точечная (со сглаженными линиями и без точек). Подробнее о построении диаграмм читайте статью Основные типы диаграмм .
F-распределение в MS EXCEL
В MS EXCEL, начиная с версии 2010, для F-распределения имеется специальная функция F.РАСП() , английское название – F.DIST(), которая позволяет вычислить плотность вероятности (см. формулу выше) и интегральную функцию распределения (вероятность, что случайная величина Х, имеющая F - распределение , примет значение меньше или равное х, P(X файл примера ).
До MS EXCEL 2010 в EXCEL была функция FРАСП() , которая позволяет вычислить функцию распределения (точнее - правостороннюю вероятность, т.е. P(X>x)). Функция FРАСП() оставлена в MS EXCEL 2010 для совместимости. Аналогом FРАСП() является функция F.РАСП.ПХ() , появившаяся в MS EXCEL 2010.
Примеры расчетов приведены в файле примера на листе Функции .
В MS EXCEL имеется еще одна функция, использующая для расчетов F-распределение – это F.ТЕСТ(массив1;массив2) . Эта функция возвращает результат F-теста : двухстороннюю вероятность того, что разница между дисперсиями выборок "массив1" и "массив2" несущественна. Предполагается, что выборки делаются из нормального распределения .
Обратная функция F-распределения
Обратная функция используется для вычисления альфа - квантилей , т.е. для вычисления значений x при заданной вероятности альфа , причем х должен удовлетворять выражению P
Функция F.ОБР.ПХ() используется для вычисления верхнего квантиля . Т.е. если в качестве аргумента функции указан уровень значимости, например 0,05, то функция вернет такое значение случайной величины х, для которого P(X>x)=0,05. В качестве сравнения: функция F.ОБР() вернет такое значение случайной величины х, для которого P(X F.ОБР.ПХ() использовалась функция FРАСПОБР() .
Вышеуказанные функции можно взаимозаменять, т.к. следующие формулы возвращают одинаковый результат: =F.ОБР(0,05;k1;k2) =F.ОБР.ПХ(1-0,05;k1;k2) = FРАСПОБР (1-0,05;k1;k2)
СОВЕТ : О других распределениях MS EXCEL можно прочитать в статье Распределения случайной величины в MS EXCEL .
Рассмотрим использование MS EXCEL при проверке статистических гипотез о равенстве дисперсий 2-х нормальных распределений. Вычислим значение тестовой статистики F 0 , рассмотрим процедуру «двухвыборочный F -тест», вычислим Р-значение (Р- value ), построим доверительный интервал. С помощью надстройки Пакет анализа сделаем «двухвыборочный F -тест для дисперсии».
Имеется две независимых случайных нормально распределенных величины . Эти случайные величины имеют нормальные распределения с неизвестными дисперсиями σ 1 2 и σ 2 2 соответственно. Из этих распределений получены две выборки размером n 1 и n 2 .
Необходимо произвести проверку гипотезы о равенстве дисперсий этих распределений (англ. Hypothesis Tests for the Equality of Variances of Two Normal Distributions).
СОВЕТ : Для проверки гипотез потребуется знание следующих понятий:
Примечание : Провер ка гипотез о дисперсии нормального распределения ( одновыборочный тест ) изложена в статье Проверка статистических гипотез в MS EXCEL о дисперсии нормального распределения .
Нулевая гипотеза H 0 звучит так: дисперсии нормальных распределений равны, т.е. σ 1 2 = σ 2 2 .
Альтернативная гипотеза H 1 : σ 1 2 <> σ 2 2 . Т.е. нам требуется проверить двухстороннюю гипотезу .
В отличие от z-теста и t-теста , где мы рассматривали разность средних значений , в этом тесте будем рассматривать отношение дисперсий : σ 1 2 / σ 2 2 . Если дисперсии равны, то их отношение должно быть равно 1.
Как известно, точечной оценкой дисперсии распределения σ 2 может служить значение дисперсии выборки s 2 . Соответственно, оценкой отношения дисперсий σ 2 2 / σ 2 2 будет s 1 2 / s 2 2 .
Процедура проверки гипотезы о равенстве дисперсий 2-х распределений имеет специальное название: двухвыборочный F -тест для дисперсий (F-Test: Hypothesis Tests for the Variances of Two Normal Distributions).
Тестовой статистикой для проверки гипотез данного вида является случайная величина F= s 1 2 / s 2 2 .
Данная тестовая статистика , как и любая другая случайная величина, имеет свое распределение (в процедуре проверки гипотез это распределение называют « эталонным распределением », англ. Reference distribution). В нашем случае F -статистика имеет F-распределение (распределение Фишера) . Значение, которое приняла F -статистика обозначим F 0 .
Примечание : В статье Статистики и их распределения показано , что выборочное распределение статистики при достаточно большом размере выборок стремится к F-распределению вероятности с n 1 -1 и n 2 -1 степенями свободы .
Установим требуемый уровень значимости α (альфа) (допустимую для данной задачи ошибку первого рода , т.е. вероятность отклонить нулевую гипотезу , когда она верна).
Мы будем отклонять нулевую двухстороннюю гипотезу, если F 0 , вычисленное на основании выборок , примет значение:
- больше верхнего α/2-квантиля F-распределения вероятности с n 1 -1 и n 2 -1 степенями свободы или
- меньше нижнего α/2-квантиля того же распределения.
Примечание : Верхний α/2-квантиль - это такое значение случайной величины F , что P ( F >= F α /2, n1-1, n2-1 )=α/2. Верхний 1-α /2- квантиль равен нижнему α/2 квантилю . Подробнее о квантилях распределений см. статью Квантили распределений MS EXCEL .
Запишем критерий отклонения с помощью верхних квантилей:
Чтобы в MS EXCEL вычислить значение нижнего квантиля α/2-квантиля - используйте формулу =F.ОБР(α /2 ; n 1 -1, n 2 -1) или =F.ОБР.ПХ(1-α /2 ; n 1 -1, n 2 -1)
Проверка двухсторонней гипотезы приведена в файле примера .
F-тест обычно используется для того, чтобы ответить на следующие вопросы:
- Взяты ли 2 выборки из генеральных совокупностей с равными дисперсиями ?
- Привели ли изменения, внесенные в технологический процесс (новая термообработка, замена химического компонента и пр.), к снижению вариабельности текущего процесса?
СОВЕТ : Перед проверкой гипотез о равенстве дисперсий полезно построить двумерную гистограмму , чтобы визуально определить разброс данных в обеих выборок .
Доверительный интервал
В файле примера для двустороннего F-теста вычислены границы соответствующего двустороннего доверительного интервала .
В файле примера также показана эквивалентность проверки гипотезы через доверительный интервал , статистику F 0 ( F -тест) и p -значение (см. ниже) .
Вычисление Р-значения
При проверке гипотез, помимо F -теста, большое распространение получил еще один эквивалентный подход, основанный на вычислении p -значения (p-value).
Если p-значение меньше, чем заданный уровень значимости α , то нулевая гипотеза отвергается и принимается альтернативная гипотеза . И наоборот, если p-значение больше α, то нулевая гипотеза не отвергается.
В случае двусторонней гипотезы p-значение вычисляется следующим образом:
- если F 0 >1, то p-значение равно удвоенной вероятности, что F-статистика примет значение больше F 0 ,
- если F 0 =2*МИН(F.РАСП(F 0 ; n 1 -1; n 2 -1; ИСТИНА); F.РАСП.ПХ(F 0 ; n 1 -1; n 2 -1))
Почему вычисляется удвоенная вероятность? Представим, что установлен уровень доверия 0,05, а F 0 F.ТЕСТ()
Функция F.ТЕСТ() возвращает p-значение в случае двусторонней гипотезы.
Функция имеет только 2 аргумента: массив1 и массив2 , в которых указываются ссылки на диапазоны ячеек, содержащих выборки .
Таким образом, функция F.ТЕСТ() эквивалентна вышеуказанной формуле =2*МИН(F.РАСП(F 0 ; n 1 -1; n 2 -1; ИСТИНА); F.РАСП.ПХ(F 0 ; n 1 -1; n 2 -1))
где F 0 – это отношение дисперсий выборок, n 1 и n 2 – размеры выборок .
Функцию F.ТЕСТ() можно использовать и при проверке односторонних гипотез – для этого нужно разделить ее результат на 2.
Пакет анализа
В надстройке Пакет анализа для проведения двухвыборочного F -теста имеется специальный инструмент: Двухвыборочный F-тест для дисперсии (F-Test Two Sample for Variances).
После выбора инструмента откроется окно, в котором требуется заполнить следующие поля (см. файл примера лист Пакет анализа ):
- интервал переменной 1 : ссылка на значения первой выборки . Ссылку указывать лучше с заголовком. В этом случае, при выводе результата надстройка выводит заголовки, которые делают результат нагляднее (в окне требуется установить галочку Метки );
- интервал переменной 2 : ссылка на значения второй выборки ;
- Метки: если в полях интервал переменной 1 и интервал переменной 2 указаны ссылки вместе с заголовками столбцов, то эту галочку нужно установить. В противном случае надстройка не позволит провести вычисления и пожалуется, что « входной интервал содержит нечисловые данные »;
- Альфа:уровень значимости ;
- Выходной интервал: диапазон ячеек, куда будут помещены результаты вычислений. Достаточно указать левую верхнюю ячейку этого диапазона.
В результате вычислений будет заполнен указанный Выходной интервал.
Тот же результат можно получить с помощью формул (см. файл примера лист Пакет анализа ):
Разберем результаты вычислений, выполненных надстройкой:
- Среднее : средние значения обеих выборок . Вычисления можно сделать с помощью функции СРЗНАЧ() . Значения средних в расчетах для проверки гипотез не участвуют и приводятся для информации;
- Дисперсия : дисперсии обеих выборок. Вычисления можно сделать с помощью функции ДИСП.В()
- Наблюдения : размер выборок. Вычисления можно сделать с помощью функции СЧЁТ()
- Df : число степеней свободы : n-1, где n размер выборок ;
- F : значение тестовойF-статистики (в наших обозначениях – это F 0 – отношение дисперсий выборок );
- P(F2 > σ 2 2 . Эквивалентная формула =F.РАСП.ПХ(F 0 ;n 1 -1; n 2 -1) ;
- Fкритическое одностороннее (F Critical one-tail):Верхний α-квантильF-распределения c n 1 -1 и n 2 -1 степенями свободы . Эквивалентная формула =F.ОБР.ПХ(α; n 1 -1; n 2 -1) .
СОВЕТ : О проверке других видов гипотез см. статью Проверка статистических гипотез в MS EXCEL .
Критерий независимости хи-квадрат используется для определения связи между двумя категориальными переменными. Примерами пар категориальных переменных являются: Семейное положение vs. Уровень занятости респондента; Порода собак vs. Профессия хозяина, Уровень з/п vs. Специализация инженера и др. При вычислении критерия независимости проверяется гипотеза о том, что между переменными связи нет. Вычисления будем производить с помощью функции MS EXCEL 2010 ХИ2.ТЕСТ() и обычными формулами.
Предположим у нас есть выборка данных, представляющая результат опроса 500 человек. Людям задавалось 2 вопроса: про их семейное положение (женаты, гражданский брак, не состоят в отношениях) и их уровень занятости (полный рабочий день, частичная занятость, временно не работает, на домохозяйстве, на пенсии, учеба). Все ответы поместили в таблицу:
Данная таблица называется таблицей сопряжённости признаков (или факторной таблицей, англ. Contingency table). Элементы на пересечении строк и столбцов таблицы обычно обозначают O ij (от англ. Observed, т.е. наблюденные, фактические частоты).
Нас интересует вопрос «Влияет ли Семейное положение на Занятость?», т.е. существует ли зависимость между двумя методами классификации выборки ?
При проверке гипотез такого вида обычно принимают, что нулевая гипотеза утверждает об отсутствии зависимости способов классификации.
Рассмотрим предельные случаи. Примером полной зависимости двух категориальных переменных является вот такой результат опроса:
В этом случае семейное положение однозначно определяет занятость (см. файл примера лист Пояснение ). И наоборот, примером полной независимости является другой результат опроса:
Обратите внимание, что процент занятости в этом случае не зависит от семейного положения (одинаков для женатых и не женатых). Это как раз совпадает с формулировкой нулевой гипотезы . Если нулевая гипотеза справедлива, то результаты опроса должны были бы так распределиться в таблице, что процент занятых был бы одинаковым независимо от семейного положения. Используя это, вычислим результаты опроса, которые соответствуют нулевой гипотезе (см. файл примера лист Пример ).
Сначала вычислим оценку вероятности, того, что элемент выборки будет иметь определенную занятость (см. столбец u i ):
где с – количество столбцов (columns), равное количеству уровней переменной «Семейное положение».
Затем вычислим оценку вероятности, того, что элемент выборки будет иметь определенное семейное положение (см. строку v j ).
где r – количество строк (rows), равное количеству уровней переменной «Занятость».
Теоретическая частота для каждой ячейки E ij (от англ. Expected, т.е. ожидаемая частота) в случае независимости переменных вычисляется по формуле: E ij =n* u i * v j
Известно, что статистика Х 2 0 при больших n имеет приблизительно ХИ2-распределение с (r-1)(c-1) степенями свободы (df – degrees of freedom):
Примечание : Вышеуказанная статистика при с=1 используется для вычисления критерия согласия Пирсона ХИ-квадрат (см. статью Проверка гипотез критерием хи-квадрат Пирсона в MS EXCEL ).
Если вычисленное на основе выборки значение этой статистики «слишком большое» (больше порогового), то нулевая гипотеза отвергается. Пороговое значение вычисляется на основании уровня значимости , например с помощью формулы =ХИ2.ОБР.ПХ(0,05; df) .
Примечание : Уровень значимости обычно принимается равным 0,1; 0,05; 0,01.
При проверке гипотезы также удобно вычислять p-значение , которое мы сравниваем с уровнем значимости . p -значение рассчитывается с использованием ХИ2-распределения с (r-1)*(c-1)=df степеней свободы.
Если вероятность, того что случайная величина имеющая ХИ2-распределение с (r-1)(c-1) степенями свободы примет значение больше вычисленной статистики Х 2 0 , т.е. P (r-1)*(c-1) >Х 2 0 >, меньше уровня значимости , то нулевая гипотеза отклоняется.
В MS EXCEL p-значение можно вычислить с помощью формулы =ХИ2.РАСП.ПХ(Х 2 0 ;df) , конечно, вычислив непосредственно перед этим значение статистики Х 2 0 (это сделано в файле примера ). Однако, удобнее всего воспользоваться функцией ХИ2.ТЕСТ() . В качестве аргументов этой функции указываются ссылки на диапазоны содержащие фактические (Observed) и вычисленные теоретические частоты (Expected).
Если уровень значимости > p -значения , то означает это фактические и теоретические частоты, вычисленные из предположения справедливости нулевой гипотезы , серьезно отличаются. Поэтому, нулевую гипотезу нужно отклонить.
Использование функции ХИ2.ТЕСТ() позволяет ускорить процедуру проверки гипотез , т.к. не нужно вычислять значение статистики . Теперь достаточно сравнить результат функции ХИ2.ТЕСТ() с заданным уровнем значимости .
Примечание : Функция ХИ2.ТЕСТ() , английское название CHISQ.TEST, появилась в MS EXCEL 2010. Ее более ранняя версия ХИ2ТЕСТ() , доступная в MS EXCEL 2007 имеет тот же функционал. Но, как и для ХИ2.ТЕСТ() , теоретические частоты нужно вычислить самостоятельно.
СОВЕТ : О проверке других видов гипотез см. статью Проверка статистических гипотез в MS EXCEL .
Читайте также: