Рассчитайте эмпирическое значение z критерия знаков эксель
P-значение используется в ко-соотношении и регрессионном анализе в Excel, что помогает нам определить, возможен ли полученный результат или нет, и какой набор данных из результата для работы со значением P-value находится в диапазоне от 0 до 1, есть в Excel нет встроенного метода для определения P-значения данного набора данных, вместо этого мы используем другие функции, такие как функция Chi.
Excel P-Value
P-Value — это не что иное, как значение вероятности, выраженное в процентах при проверке гипотез, чтобы поддержать или отклонить нулевую гипотезу. P-значение или значение вероятности — популярное понятие в мире статистики. Все начинающие аналитики должны знать о P-Value и его назначении в науке о данных. Частота точек данных называется гипотетической частотой и наблюдаемым уровнем значимости для проверочной гипотезы.
- P-значение обозначается десятичными точками, но всегда полезно указывать результат P-значения в процентах, а не в десятичных точках. Указание 5% всегда лучше, чем указание десятичных знаков 0,05.
- В тесте, проводимом для определения P-значения, если P-значение меньше, чем более сильные доказательства против нулевой гипотезы и ваши данные более важны или значимы. Если P-значение выше, значит, доказательства против нулевой гипотезы слабые. Итак, выполнив проверку гипотез и найдя P-значение, мы действительно сможем понять значимость результатов.
Как рассчитать P-значение в T-тесте в Excel?
Ниже приведены примеры для расчета значения P в Excel T-Test.
Пример №1 T-теста Excel с P-значением
В Excel мы можем легко найти P-Value. Запустив T-Test в excel, мы действительно можем прийти к утверждению, является ли нулевая гипотеза ИСТИННОЙ или ЛОЖНОЙ. Посмотрите на приведенный ниже пример, чтобы понять концепцию на практике.
Предположим, вы получили информацию о процессе похудения на основе данных о диете, а ниже представлены данные, доступные вам для проверки нулевой гипотезы.
Шаг 1: Первое, что нам нужно сделать, это рассчитать разницу между до и после диеты.
Результат представлен ниже:
Перетащите Формулу в остальные ячейки.
Шаг 2: Теперь перейдите на вкладку «Данные» и под данными на вкладке нажмите «Анализ данных».
Шаг 3: Теперь прокрутите вниз и найдите T.Test: Pair Two Sample for Means.
Шаг 4: Теперь выберите диапазон переменной 1, как перед столбцом диеты.
Шаг 5: Переменная 2 зазвонила, как после столбца диеты.
Шаг 6: Значение альфа будет по умолчанию 0,05, т.е. 5%. Чтобы сохранить то же значение.
Заметка: 0,05 и 0,01 часто используются общие уровни значимости.
Шаг 7: Теперь выберите выходной диапазон, то есть место, где вы хотите отображать результаты анализа.
Шаг 8: Щелкните по ОК. У нас есть результаты анализа ячейки F1.
Хорошо, у нас есть результаты. P-значение для теста с одним хвостом составляет 0,078043, а значение P с тестом с двумя хвостами составляет 0,156086. В обоих случаях значение P больше, чем значение альфа, т.е. 0,05.
В этом случае значение P больше, чем значение альфа, поэтому нулевая гипотеза ИСТИНА, т. Е. Слабое свидетельство против нулевой гипотезы. Это означает, что на самом деле они очень близки между двумя точками данных.
Пример № 2 в Excel с P-значением — Найдите P-значение с помощью функции T.TEST
В Excel у нас есть встроенная функция T.TEST, которая может мгновенно дать нам результат P-Value.
Откройте функцию T.TEST в любой из ячеек электронной таблицы.
Выберите массив 1, как перед столбцом диеты.
Второй аргумент будет после столбца диеты, то есть массива 2.
Хвосты будут односторонними.
Тип будет Парный.
Теперь закройте формулу, у нас будет результат P-Value.
Итак, у нас есть P-Value, то есть 0,078043, что в точности совпадает с предыдущим тестом результата анализа.
Excel для Microsoft 365 Excel для Microsoft 365 для Mac Excel для Интернета Excel 2021 Excel 2021 for Mac Excel 2019 Excel 2019 для Mac Excel 2016 Excel 2016 для Mac Excel 2013 Excel 2010 Excel для Mac 2011 Excel Starter 2010 Еще. Меньше
В этой статье описаны синтаксис формулы и использование Z.ТЕСТ в Microsoft Excel.
Возвращает одностороннее P-значение z-теста.
Для заданного гипотетического среднего генеральной совокупности функция Z.ТЕСТ возвращает вероятность того, что среднее по выборке будет больше среднего значения набора рассмотренных данных (массива), то есть среднего значения наблюдаемой выборки.
Сведения об использовании функции Z.ТЕСТ в формуле для вычисления двустороннего значения вероятности см. ниже в разделе "Замечания".
Синтаксис
Аргументы функции Z.ТЕСТ описаны ниже.
Массив Обязательный. Массив или диапазон данных, с которыми сравнивается x.
X Обязательный. Проверяемое значение.
Сигма Необязательный. Известное стандартное отклонение генеральной совокупности. Если этот аргумент опущен, используется стандартное отклонение выборки.
Замечания
Функция Z.ТЕСТ вычисляется следующим образом, если аргумент "сигма" не опущен:
Z.ТЕСТ( массив,x,сигма ) = 1- НОРМ.СТ.РАСП ((СРЗНАЧ(массив)- x) / (сигма/√n),ИСТИНА)
Если аргумент "сигма" опущен:
Z.ТЕСТ(массив,x) = 1- НОРМ.СТ.РАСП((СРЗНАЧ(массив)- x) / (СТАНДОТКЛОН(массив)/√n),ИСТИНА)
где x — среднее по выборке СРЗНАЧ(массив); n — число наблюдений в выборке СЧЁТ(массив).
Функция Z.ТЕСТ представляет вероятность того, что среднее по выборке будет больше среднего значения множества рассмотренных данных СРЗНАЧ(массив) при значении математического ожидания генеральной совокупности, равном μ0. Исходя из симметрии нормального распределения, если СРЗНАЧ(массив) < x, функция Z.ТЕСТ вернет значение больше 0,5.
Приведенную ниже формулу Excel можно использовать для вычисления двустороннего значения вероятности того, что среднее по выборке будет отличаться от x (в любом направлении) больше, чем на СРЗНАЧ(массив), при математическом ожидании генеральной совокупности, равном x.
=2 * МИН(Z.ТЕСТ(массив;x;сигма), 1 - Z.ТЕСТ(массив;x;сигма)).
Пример
Скопируйте образец данных из следующей таблицы и вставьте их в ячейку A1 нового листа Excel. Чтобы отобразить результаты формул, выделите их и нажмите клавишу F2, а затем — клавишу ВВОД. При необходимости измените ширину столбцов, чтобы видеть все данные.
Excel для Microsoft 365 Excel для Microsoft 365 для Mac Excel для Интернета Excel 2021 Excel 2021 for Mac Excel 2019 Excel 2019 для Mac Excel 2016 Excel 2016 для Mac Excel 2013 Excel 2010 Excel 2007 Excel для Mac 2011 Excel Starter 2010 Еще. Меньше
С помощью статистической функции СЧЁТЕСЛИ можно подсчитать количество ячеек, отвечающих определенному условию (например, число клиентов в списке из определенного города).
Самая простая функция СЧЁТЕСЛИ означает следующее:
=СЧЁТЕСЛИ(где нужно искать;что нужно найти)
СЧЁТЕСЛИ(диапазон;критерий)
Имя аргумента
диапазон (обязательный)
Группа ячеек, для которых нужно выполнить подсчет. Диапазон может содержать числа, массивы, именованный диапазон или ссылки на числа. Пустые и текстовые значения игнорируются.
критерий (обязательный)
Число, выражение, ссылка на ячейку или текстовая строка, которая определяет, какие ячейки нужно подсчитать.
Например, критерий может быть выражен как 32, ">32", В4, "яблоки" или "32".
В функции СЧЁТЕСЛИ используется только один критерий. Чтобы провести подсчет по нескольким условиям, воспользуйтесь функцией СЧЁТЕСЛИМН.
Примеры
Чтобы использовать эти примеры в Excel, скопируйте данные из приведенной ниже таблицы и вставьте их на новый лист в ячейку A1.
Количество ячеек, содержащих текст "яблоки" в ячейках А2–А5. Результат — 2.
Количество ячеек, содержащих текст "персики" (значение ячейки A4) в ячейках А2–А5. Результат — 1.
Количество ячеек, содержащих текст "яблоки" (значение ячейки A2) и "апельсины" (значение ячейки A3) в ячейках А2–А5. Результат — 3. В этой формуле для указания нескольких критериев, по одному критерию на выражение, функция СЧЁТЕСЛИ используется дважды. Также можно использовать функцию СЧЁТЕСЛИМН.
Количество ячеек со значением больше 55 в ячейках В2–В5. Результат — 2.
Количество ячеек со значением, большим или равным 32 и меньшим или равным 85, в ячейках В2–В5. Результат — 1.
Количество ячеек, содержащих любой текст, в ячейках А2–А5. Подстановочный знак "*" обозначает любое количество любых символов. Результат — 4.
Количество ячеек, строка в которых содержит ровно 7 знаков и заканчивается буквами "ки", в диапазоне A2–A5. Подставочный знак "?" обозначает отдельный символ. Результат — 2.
Распространенные неполадки
Возможная причина
Для длинных строк возвращается неправильное значение.
Функция СЧЁТЕСЛИ возвращает неправильные результаты, если она используется для сопоставления строк длиннее 255 символов.
Для работы с такими строками используйте функцию СЦЕПИТЬ или оператор сцепления &. Пример: =СЧЁТЕСЛИ(A2:A5;"длинная строка"&"еще одна длинная строка").
Функция должна вернуть значение, но ничего не возвращает.
Аргумент критерий должен быть заключен в кавычки.
Эта ошибка возникает при вычислении ячеек, когда в формуле содержится функция, которая ссылается на ячейки или диапазон в закрытой книге. Для работы этой функции необходимо, чтобы другая книга была открыта.
Рекомендации
Помните о том, что функция СЧЁТЕСЛИ не учитывает регистр символов в текстовых строках.
Критерий не чувствителен к регистру. Например, строкам "яблоки" и "ЯБЛОКИ" будут соответствовать одни и те же ячейки.
Использование подстановочных знаков
Подстановочные знаки — вопросительный знак (?) и звездочка (*) — можно использовать в критериях. Вопросительный знак соответствует любому отдельно взятому символу. Звездочка — любой последовательности символов. Если требуется найти именно вопросительный знак или звездочку, следует ввести значок тильды (~) перед искомым символом.
Например, =СЧЁТЕСЛИ(A2:A5;"яблок?") возвращает все вхождения слова "яблок" с любой буквой в конце.
Убедитесь, что данные не содержат ошибочных символов.
При подсчете текстовых значений убедитесь в том, что данные не содержат начальных или конечных пробелов, недопустимых прямых и изогнутых кавычек или непечатаемых символов. В этих случаях функция СЧЁТЕСЛИ может вернуть непредвиденное значение.
Для удобства используйте именованные диапазоны.
ФУНКЦИЯ СЧЁТЕСЛИ поддерживает именованные диапазоны в формуле (например, =СЧЁТЕСЛИ(> =32")-СЧЁТЕСЛИ(> 85). Именованный диапазон может располагаться на текущем листе, другом листе этой же книги или листе другой книги. Чтобы одна книга могла ссылаться на другую, они обе должны быть открыты.
Примечание: С помощью функции СЧЁТЕСЛИ нельзя подсчитать количество ячеек с определенным фоном или цветом шрифта. Однако Excel поддерживает пользовательские функции, в которых используются операции VBA (Visual Basic для приложений) над ячейками, выполняемые в зависимости от фона или цвета шрифта. Вот пример подсчета количества ячеек определенного цвета с использованием VBA.
Дополнительные сведения
Вы всегда можете задать вопрос специалисту Excel Tech Community или попросить помощи в сообществе Answers community.
Рассмотрим использование MS EXCEL при проверке статистических гипотез о среднем значении распределения в случае известной дисперсии. Вычислим тестовую статистику Z 0 , рассмотрим процедуру «одновыборочный z-тест», вычислим Р-значение (Р- value ).
Проверка гипотез (Hypothesis testing) тесно связана с построением доверительных интервалов . При первом знакомстве с процедурой проверки гипотез рекомендуется начать с изучения построения соответствующего доверительного интервала .
СОВЕТ : Для проверки гипотез нам потребуется знание следующих понятий:
Формулировка задачи. Из генеральной совокупности имеющей нормальное распределение с неизвестным μ и известной дисперсией σ 2 взята выборка размера n. Необходимо проверить статистическую гипотезу о равенстве неизвестного μ заданному значению μ 0 (англ. Inference on the mean of a population, variance known).
Примечание : Требование о нормальности исходного распределения, из которого берется выборка , не является строгим. Н 0 , необходимо, чтобы были выполнены условия применения Центральной предельной теоремы .
Статистическая гипотеза – это некое утверждение о неизвестных параметрах распределения. Процедура проверки гипотез зависит от оцениваемого параметра распределения и условий задачи. Сначала рассмотрим общий подход при проверке гипотез , затем рассмотрим конкретный пример.
Обычно формулируют 2 гипотезы: нулевую Н 0 и альтернативную Н 1 . В нашем случае нулевой гипотезой будет равенство μ и μ 0 , а альтернативной гипотезой – их отличие. Нулевая гипотеза отвергается только в том случае, если на это достаточно оснований. В этом случае принимается альтернативная гипотеза .
Чтобы понять, достаточно ли у нас оснований для отклонения нулевой гипотезы , из распределения делают выборка.
Сначала проведем проверку гипотезы , используя доверительный интервал , а затем с помощью вышеуказанной процедуры z-тест . В конце вычислим Р-значение и также используем его для проверки гипотезы .
Итак, нулевая гипотеза Н 0 утверждает, что неизвестное среднее значение распределения μ равно μ 0 . Соответствующая альтернативная гипотеза Н 1 утверждает обратное: μ не равно μ 0 . Это пример двусторонней проверки , т.к. неизвестное значение может быть как больше, так и меньше μ 0 .
Если упрощенно, то проверка гипотезы заключается в сравнении 2-х величин: вычисленного на основании выборки среднего значения Х ср и заданного μ 0 . Если эти значения «отличаются больше, чем можно было бы ожидать исходя из случайности», то нулевую гипотезу отклоняют.
Поясним фразу «отличаются больше, чем можно было бы ожидать исходя из случайности». Для этого, вспомним, что распределение Выборочного среднего (статистика Х ср ) стремится к нормальному распределению со средним значением μ и стандартным отклонением равным σ/√n, где σ – стандартное отклонение распределения , из которого берется выборка (не обязательно нормальное ), а n – объем выборки (подробнее см. статью про ЦПТ ). В нашем случае стандартное отклонение σ известно.
В задачах проверки гипотез также задается уровень доверия (вероятность), который определяет порог между утверждением «мало вероятно» и «вполне вероятно» или «может быть обусловлено случайностью» и «не может быть обусловлено случайностью». Обычно используют значения уровня доверия 90%; 95%; 99%, реже 99,9% и т.д.
Примечание : Уровень доверия равен (1-α) , где α – уровень значимости . И наоборот, α=( 1-уровень доверия ) .
Таким образом, знание распределения статистики Х ср и заданного уровня доверия , позволяют нам формализовать с помощью математических выражений фразу «отличаются больше, чем можно было бы ожидать исходя из случайности». В этом нам поможет доверительный интервал (как строится доверительный интервал нам известно из этой статьи ).
Если среднее выборки попадает в доверительный интервал, построенный относительно μ 0 , то для отклонения нулевой гипотезы оснований нет.
Для визуализации процедуры проверки гипотез в файле примера на листе Сигма известна создана диаграмма .
Если μ 0 не попадает в доверительный интервал, то нулевая гипотеза отклоняется.
Теперь рассмотрим проверку гипотез с помощью процедуры z -тест .
Z-тест
Кроме доверительного интервала для проверки гипотез существует также и другой эквивалентный подход - z -тест:
- На основе выборки вычисляют тестовую статистику . Выбор тестовой статистики делают в зависимости от оцениваемого параметра распределения и условий задачи. В нашем случае тестовой статистикой является случайная величина z= , где – среднее выборки (обозначим Х ср ). Значение, которое приняла z-статистика , обычно обозначают Z 0 ;
- z-статистика , как и любая другая случайная величина, имеет свое распределение. В процедуре проверки гипотез это распределение называют « эталонным распределением », англ. Reference distribution. В нашем случае тестовая статистика имеет стандартное нормальное распределение ;
- Также исследователь устанавливает требуемый уровень значимости – это допустимая для данной задачи ошибка первого рода , т.е. вероятность отклонить нулевую гипотезу , когда она верна ( уровень значимости обозначают буквой α и чаще всего выбирают равным 0,1; 0,05 или 0,01);
- С помощью эталонного распределения для заданного уровня значимости вычисляют соответствующие квантили этого распределения . В нашем случае, при проверке двухсторонней гипотезы , необходимо будет вычислить верхний α/2-квантиль стандартногонормального распределения, т.е. такое значение случайной величины z, что P(z>=Z α/2 )=α/2 ;
- И наконец, значение тестовой статистики Z 0 сравнивают с вычисленными на предыдущем шаге квантилями и делают статистический вывод : Имеются ли основания, чтобы отвергнуть нулевую гипотезу ? В нашем случае проверки двусторонней гипотезы, Н 0 отвергается если: |Z 0 |>Z α/2 .
Примечание : Подробнее про квантили распределения можно прочитать в статье Квантили распределений MS EXCEL .
В MS EXCEL верхний α /2-квантиль стандартного нормального распределения вычисляется по формуле =НОРМ.СТ.ОБР(1-α/2)
Учитывая симметричность стандартного нормального распределения относительно оси ординат, верхний α /2-квантиль равен обычному α /2-квантилю со знаком минус: =-НОРМ.СТ.ОБР(α/2)
Примечание : Еще раз подчеркнем связь процедуры z -теста с построением доверительного интервала . Т.к. z -статистика распределена по стандартному нормальному закону, то можно ожидать, что 1-α значений z -статистики будет попадать в интервал между -Z α/2 и Z α/2 . Например, для уровня доверия 95% в интервал между -1,960 и 1,960 будет попадать примерно 95% значений Z 0 , вычисленных на основе выборки . Если Z 0 не попало в указанный интервал, то это считается маловероятным событием и нулевая гипотеза отвергается.
В случае односторонней гипотезы речь идет об отклонении μ только в одну сторону: либо больше либо меньше μ 0 . Если альтернативная гипотеза звучит как μ>μ 0 , то гипотеза Н 0 отвергается в случае Z 0 > Z α . Если альтернативная гипотеза звучит как μ μ 0 .
Напомним, что если Н 1 утверждает, что μ>μ 0 , то односторонняя гипотеза Н 0 отвергается в случае если Z 0 > Z α . Эти значения z -статистики имеют размерность анализируемой случайной величины, но их трудно интерпретировать. Преобразуем неравенство Z 0 > Z α так, чтобы его можно было проще интерпретировать.
Напомним, что Z α – это положительная величина и она равна верхнему α -квантилю стандартного нормального распределения (такому значению случайной величины z, что P(z>=Z α )=α). Неравенство Z 0 > Z α означает, что если Z 0 , вычисленное на основе выборки , будет слишком велико, т.е. больше Z α , то эта ситуация считается маловероятным событием и появляется основание для отклонения нулевой гипотезы .
Поэтому, логично вычислить вероятность события, что z -статистика примет значение z>=Z 0 и сравнить ее с вероятностью, что z=>Z α . Вероятность события z=>Z α (по определению верхнего квантиля ) – это просто α. Вероятность события, что z -статистика примет значение z>=Z 0 равна 1-Ф(Z 0 ), где Ф(z) – интегральная функция стандартного нормального распределения . В MS EXCEL эта функция вычисляется по формуле =1-НОРМ.СТ.РАСП(Z 0 ;ИСТИНА)
Примечание : В MS EXCEL для вычисления p-значения имеется специальная функция Z.TEСT() , которая эквивалентна выражению =1-НОРМ.СТ.РАСП(Z 0 ;ИСТИНА) . Про функцию Z.TEСT() см. ниже .
Таким образом, неравенство Z 0 > Z α эквивалентно неравенству P(z>= Z 0 ) =НОРМ.СТ.РАСП(Z 0 ;ИСТИНА) . Соответственно, p-значение для односторонней гипотезы μ =1-Z.TEСT( выборка ; μ 0 ; σ) , где выборка – ссылка на диапазон, содержащий значения выборки .
В случае двусторонней гипотезы, p -значение вычисляется по формуле =2*(1-Ф(|Z 0 |)).
В качестве примера проверим гипотезу Н 0 : μ=μ 0 , при этом альтернативная односторонняя гипотеза Н 1 : μ Z 0 =(1,851-2,3)/(2/КОРЕНЬ(60))=-1,739 p-значение =НОРМ.СТ.РАСП(-1,739;ИСТИНА)=0,04 Нулевая гипотеза отклоняется, т.к. 0,04 файле примера : во всех случаях, когда z-тест дает заключение о необходимости отклонить нулевую гипотезу , Х ср не попадает в соответствующий доверительный интервал, а p -значение меньше уровня значимости.
Функция Z.ТЕСТ()
MS EXCEL для процедуры z-тест существует специальная функция Z.ТЕСТ() , которая на самом деле вычисляет p-значение в случае односторонней альтернативной гипотезы μ >μ 0 : =Z.TEСT( выборка ; μ 0 ; σ) , где выборка – ссылка на диапазон, содержащий n значений выборки, σ – известное стандартное отклонение распределения, из которого делается выборка .
Функция Z.ТЕСТ() эквивалентна формуле =1- НОРМ.СТ.РАСП((СРЗНАЧ( выборка )- μ 0 ) / (σ/√n);ИСТИНА)
Выражение (СРЗНАЧ( выборка )- μ 0 ) / (σ/√n) – это значение тестовой статистики , т.е. Z 0 .
Эту же функцию можно использовать для вычисления p -значения в случае проверки двусторонней гипотезы , записав формулу: =2 * МИН(Z.TEСT( выборка ; μ 0 ; σ); 1 - Z.TEСT( выборка ; μ 0 ; σ)
Для вычисления p -значения в случае односторонней альтернативной гипотезы μ =1-Z.TEСT( выборка ; μ 0 ; σ)
σ - третий аргумент функции Z.ТЕСТ() должен быть всегда указан, т.к. это соответствует вышерассмотренной процедуре z-теста .
Рассмотрим использование MS EXCEL при проверке статистических гипотез о разнице средних значений 2-х распределений в случае известных дисперсий. Вычислим значение тестовой статистики Z 0 , рассмотрим процедуру «двухвыборочный z-тест», вычислим Р-значение (Р- value ). С помощью надстройки Пакет анализа сделаем «двухвыборочный z-тест».
Имеется две независимых случайных величины. Эти случайные величины имеют распределения с неизвестными средними значениями μ 1 и μ 2 . Дисперсии этих распределений известны и равны σ 1 2 и σ 2 2 соответственно (в общем случае дисперсии могут быть не равны). Из этих распределений получены две выборки размером n 1 и n 2 .
Необходимо произвести проверку гипотезы о разнице средних значений этих распределений: μ 1 - μ 2 (англ. Hypothesis Tests for a Difference in Means, Variances Known).
Нулевая гипотеза H 0 звучит так: разница средних значений равна Δ 0 , т.е. Δ 0 = (μ 1 - μ 2 ). Часто предполагается, что Δ 0 =0, следовательно, μ 1 = μ 2 (значение Δ 0 задается исследователем исходя из условий решаемой задачи).
Альтернативная гипотеза H 1 : (μ 1 - μ 2 )<>Δ 0 . Т.е. нам требуется проверить двухстороннюю гипотезу . Для этого делается по одной выборке из каждого распределения.
Примечание : Про построение соответствующего двухстороннего доверительного интервала можно прочитать в этой статье Доверительный интервал для разницы средних значений 2-х распределений (дисперсии известны) в MS EXCEL .
СОВЕТ : Для проверки гипотез нам потребуется знание следующих понятий:
Точечной оценкой для μ 1 - μ 2 является разница между средними значениями, вычисленными на основании выборок из этих (независимых) распределений, т.е. Хср 1 - Хср 2 . Это следует из свойства математического ожидания : Е(Хср 1 - Хср 2 )= Е(Хср 1 )-Е(Хср 2 )= μ 1 - μ 2
Хср 1 - Хср 2 является случайной величиной, и как любая другая случайная величина, она имеет свое распределение вероятности. В данном случае, эта случайная величина распределена по нормальному закону . Это следует из того, что Хср 1 и Хср 2 распределены по нормальному закону (см. статью про ЦПТ ), а их линейная комбинация Хср 1 - Хср 2 также имеет нормальное распределение (см. статью про нормальное распределение ).
Теперь вычислим дисперсию этого распределения. На основании свойств дисперсии имеем, что VAR(Хср 1 - Хср 2 )= VAR(Хср 1 )+ VAR(Хср 2 ) = σ 1 2 /n 1 + σ 2 2 /n 2 . Следовательно, стандартное отклонение точечной оценки равно
Если вычисленное на основе выборок значение Хср 1 - Хср 2 будет «существенно отличаться» от Δ 0 ( нулевая гипотеза ), то это будет являться основанием для принятия альтернативной гипотезы .
Выражение «существенно отличаться» означает, что Хср 1 - Хср 2 , не попадет в определенную область значений. Эту область значений называют доверительным интервалом .
Часто ширину доверительного интервала определяют в стандартных отклонениях случайной величины, которая является точечной оценкой искомого параметра (в нашем случае стандартное отклонение величины Хср 1 - Хср 2 равно . Т.к. величина Хср 1 - Хср 2 имеет нормальное распределение , то с вероятностью 95% значение этой величины, вычисленное на основании выборок , попадет в интервал ограниченный +/-2 стандартных отклонений относительно Δ 0 . Если это не произошло, то это является основанием для отклонения нулевой гипотезы , т.к. такое событие считается маловероятным (если справедлива нулевая гипотеза ) .
Для иллюстрации вышесказанного, в файле примера на листе Сигма известна построена диаграмма с доверительным интервалом (для случая двухсторонней гипотезы ).
Здесь доверительный интервал построен не относительно значения Δ 0 , а относительно величины Хср 1 - Хср 2 , вычисленной на основании выборок . Если Δ 0 попадает в доверительный интервал , то у нас нет основания отвергать нулевую гипотезу . Если Δ 0 окажется за пределами доверительного интервала, то будет принята альтернативная гипотеза .
Значения выборок в файле примера генерируются с помощью формулы =НОРМ.ОБР(СЛЧИС();B38;B7) . Поэтому, при нажатии клавиши F9 или при изменении данных на листе, значения выборок генерируются заново. Это приводит изменению значения Хср 1 - Хср 2 и, соответственно, к изменению границ интервала.
Примечание : Доверительный интервал можно построить и относительно Δ 0 . В этом случае его границы не будут изменяться при обновлении значений выборок . Но, величина Хср 1 - Хср 2 будет по-прежнему изменяться. Если Хср 1 - Хср 2 окажется за пределами доверительного интервала, то будет принята альтернативная гипотеза .
СОВЕТ : Перед проверкой гипотез о равенстве средних значений полезно построить двумерную гистограмму , чтобы визуально определить центральную тенденцию и разброс данных в обеих выборок .
Примечание : Вышеуказанные распределения не обязательно являются нормальными . Однако, требуется чтобы выполнялись условия применимости Центральной предельной теоремы .
Теперь рассмотрим проверку гипотез с помощью процедуры z -тест .
Двухвыборочный z-тест для средних
Процедура проверки гипотезы о разности средних значений 2-х распределений в случае известных дисперсий имеет специальное название: двухвыборочный z-тест для средних (z-Test: hypothesis tests for a difference in means, variances known).
По аналогии с одновыборочным z-тестом , тестовой статистикой для проверки гипотез данного вида является случайная величина Z:
Данная тестовая статистика , как и любая другая случайная величина, имеет свое распределение. В процедуре проверки гипотез это распределение называют « эталонным распределением », англ. Reference distribution. В нашем случае Z -статистика имеет стандартное нормальное распределение .
Установим требуемый уровень значимости α (альфа) = 0,05 (допустимую для данной задачи ошибку первого рода , т.е. вероятность отклонить нулевую гипотезу , когда она верна).
Напомним, что значение, которое приняла z -статистика обозначим Z 0 .
Если вычисленное на основе выборок значение Z 0 , в случае двухсторонней гипотезы , будет в области значений ограниченной нижним и верхним α/2-квантилями стандартного нормального распределения, то у нас не будет основания отвергнуть нулевую гипотезу. Это утверждение эквивалентно рассмотренному выше случаю, когда Хср 1 - Хср 2 окажется в пределах соответствующего доверительного интервала (действительно, согласно вышеуказанной формуле, Z 0 является стандартизированным значением Хср 1 - Хср 2 ) .
Примечание : Верхний α/2-квантиль - этотакое значение случайной величины z , что P ( z >= Z α /2 )=α/2. Верхний α/2-квантиль стандартного нормального распределения обычно обозначают Z α/2 . Подробнее о квантилях распределений см. статью Квантили распределений MS EXCEL .
В нашем случае, необходимо будет вычислить только верхний α/2-квантиль, т.к. он равен соответствующему нижнему квантилю со знаком минус. Следовательно, условие отклонения нулевой гипотезы можно записать как |Z 0 |>Z α/2 .
Чтобы в MS EXCEL вычислить значение Z α/2 для различных уровней значимости (10%; 5%; 1%) - используйте формулу =НОРМ.СТ.ОБР(1-α/2) .
Итак, если формула =ABS(Z 0 ) вернет значение больше, чем результат формулы =НОРМ.СТ.ОБР(1-α/2) , то это означает, что необходимо отвергнуть нулевую гипотезу (вычисления приведены файле примера на листе Сигма известна ) .
Для односторонней альтернативной гипотезы (μ 1 - μ 2 )>Δ 0 , нулевая гипотеза будет отвергнута в случае Z 0 >Z α .
Для односторонней альтернативной гипотезы (μ 1 - μ 2 ) Z α/2 . Выражение |Z 0 |>Z α/2 эквивалентно Z 0 >Z α/2 (для положительных Z 0 ) и Z 0 Z α/2 .
Выражение |Z 0 |>Z α/2 означает, что значение Z 0 попало в одну из выделенных областей. Вероятность события, что случайная величина z попадет в одну из этих областей равна альфа: Р(z>=Z α/2 или z =Z 0 (если Z 0 положительное) или z Z α/2 ).
Если Z 0 больше 0, то будем вычислять вероятность события, что случайная величина z>=Z 0 . В этом случае вероятность равна 1-Ф(Z 0 ).
Примечание : Ф(z) – интегральная функция стандартного нормального распределения . В MS EXCEL эта функция вычисляется по формуле =НОРМ.СТ.РАСП(Z 0 ;ИСТИНА)
Если Z 0 меньше 0, то будем вычислять вероятность события z файле примера на листе Сигма известна ): =2*(1-НОРМ.СТ.РАСП(ABS(Z 0 );ИСТИНА)) Т.е. p-значение равно суммарной вероятности, что z -статистика примет значение больше |Z 0 | и меньше -|Z 0 |.
Для односторонней гипотезы μ 1 - μ 2 > Δ 0 p -значение вычисляется как 1-Ф(Z 0 ). В MS EXCEL p -значение в этом случае вычисляется по формуле =1-НОРМ.СТ.РАСП(Z 0 ;ИСТИНА) Т.е. p-значение равно вероятности, что z -статистика примет значение больше Z 0 .
Для односторонней гипотезы μ 1 - μ 2 =НОРМ.СТ.РАСП(Z 0 ;ИСТИНА) Т.е. p-значение равно вероятности, что z -статистика примет значение меньше Z 0 .
Примечание : В MS EXCEL есть функция Z.TEСT() , которая используется только для одновыборочного z-теста . Подробнее см. статью Проверка статистических гипотез в MS EXCEL о равенстве среднего значения распределения (дисперсия известна) .
Пакет анализа
В надстройке Пакет анализа для проведения двухвыборочного z-теста имеется специальный инструмент: Двухвыборочный z-тест для средних (z-Test: Two Sample for Means).
После выбора инструмента откроется окно, в котором требуется заполнить следующие поля (см. файл примера лист Пакет анализа ):
- интервал переменной 1 : ссылка на значения первой выборки . Ссылку указывать лучше с заголовком. В этом случае, при выводе результата надстройка выводит заголовки, которые делают результат нагляднее (в окне требуется установить галочку Метки );
- интервал переменной 2 : ссылка на значения второй выборки ;
- гипотетическая средняя разность : укажите значение Δ 0 , т.е. μ 1 - μ 2 . В нашем случае, введем 0;
- Дисперсия переменной 1 (известная) : значение дисперсии распределения, из которого взята первая выборка. В нашем случае, введем 100;
- Дисперсия переменной 2 (известная) : значение дисперсии распределения, из которого взята вторая выборка. В нашем случае, введем 144;
- Метки: если в полях интервал переменной 1 и интервал переменной 2 указаны ссылки вместе с заголовками столбцов, то эту галочку нужно установить. В противном случае надстройка не позволит провести вычисления и пожалуется, что « входной интервал содержит нечисловые данные »;
- Альфа:уровень значимости ;
- Выходной интервал: диапазон ячеек, куда будут помещены результаты вычислений. Достаточно указать левую верхнюю ячейку этого диапазона.
В результате вычислений будет заполнен указанный Выходной интервал.
Тот же результат можно получить с помощью формул (см. файл примера лист Пакет анализа ):
Разберем результаты вычислений, выполненных надстройкой:
- Среднее : средние значения обеих выборок Хср 1 и Хср 2 . Вычисления можно сделать с помощью формул =СРЗНАЧ(B32:B91) и =СРЗНАЧ(C32:C81) ;
- Наблюдения : размер выборок. Вычисления можно сделать с помощью формул =СЧЁТ(B32:B91) и =СЧЁТ(C32:C81)
- z : значение тестовой статистики Z (в наших обозначениях – это Z 0 ). Вычисления можно сделать с помощью формулы =(СРЗНАЧ(B32:B91)- СРЗНАЧ(C32:C81))-0)/ КОРЕНЬ(100/СЧЁТ(B32:B91) +144/СЧЁТ(C32:C81))
- P(Z Δ 0 . Эквивалентная формула =1-НОРМ.СТ.РАСП(Z 0 ;ИСТИНА) ;
- z критическое одностороннее : Верхний α-Квантиль стандартного нормального распределения . Эквивалентная формула =НОРМ.СТ.ОБР(1- α) ;
- P(Z Δ 0 . Эквивалентная формула =2*(1-НОРМ.СТ.РАСП(ABS(Z 0 );ИСТИНА)) ;
- z критическое двухстороннее: Верхний α/2-Квантиль стандартного нормального распределения . Эквивалентная формула =НОРМ.СТ.ОБР(1- α/2) .
СОВЕТ : О проверке других видов гипотез см. статью Проверка статистических гипотез в MS EXCEL .
Читайте также: