Центральный момент третьего порядка excel
Необходимые характеристики должны быть рассчитаны как для исходного ряда значений каждого признака (с помощью функций MS Excel), так и для сгруппированных данных. При этом последние являются приближенными значениями искомых характеристик.
1. Характеристики центра и структуры распределения
Средняя величина - обобщающая количественная характеристика признака в статистической совокупности, отражающая типичный уровень этого признака в расчете на единицу совокупности.
Средняя величина для несгруппированных данных:
где xi – значение признака у i–ой единицы совокупности;
N - объем совокупности.
Среднее значение по исходным данным определяются с помощью функции СРЗНАЧ. Вызываем функцию (из категории «Статистические»):
= СРЗНАЧ(число_1;число_2…)
где число_1;число_2… – числовые аргументы, для которых вычисляется среднее (выделить для первого аргумента столбец исходных значений признака).
Средняя величина для интервально сгруппированных данных:
где х н j, х в j - нижняя и верхняя граница j–ого интервала;
k – число групп;
fj – вес усреднения для j-ой группы (в качестве весов усреднения берут частоты/частости).
К структурным характеристикам ряда распределения относятся квантили распределения и мода.
Квантиль распределения(Qi) – это значение признака, занимающее определенное место в упорядоченной по данному признаку совокупности. Основными квантильными характеристиками являются:
- медиана (Ме) - значение признака, приходящееся на середину упорядоченной совокупности,
- квартили (Q1/4, Q2/4=Ме, Q3/4) – значения признака, делящие упорядоченную совокупность на 4 равные (по числу единиц) части,
- децили (Q0,1,Q0,2,…,Q0,9) – значения признака, делящие упорядоченную совокупность на 10 равных частей.
Квантили для несгруппированных данных определяются по упорядоченным значениям механически, путем определения номера искомого наблюдения.
Квантили распределения по исходным данным определяются с помощью функций МЕДИАНА, КВАРТИЛЬ, ПРОЦЕНТИЛЬ. Вызываем необходимую функцию (из категории «Статистические»):
= МЕДИАНА(число_1;число_2…)
где число_1;число_2… – числовые аргументы, для которых вычисляется медиана (выделить для первого аргумента столбец исходных значений признака).
= КВАРТИЛЬ(массив;часть)
где массив – это столбец исходных значений признака, для которых определяется значение квартиля;
часть – это значение, определяющее уровень квартиля: для Q1/4 – 1, для Q3/4 - 3.
= ПРОЦЕНТИЛЬ(массив;К)
где массив – это столбец исходных значений признака, для которых определяется значение К-ого процентиля (может использоваться для определения квартилей и децилей);
К – это значение, определяющее уровень процентиля: для Q0,1 – 0.1, для Q0,9 – 0.9; для Q1/4 – 0.25, для Q3/4 – 0.75 .
Результаты расчета характеристик по функциям MS Excel:
Для сгруппированых данных предварительно определяется группа, которая содержит i-ый квантиль: та группа от начала ряда, в которой сумма накопленных частот равна или превышает N·i, где i- индекс квантиля.
Квантили для интервально сгруппированных данных:
где Xqi - нижняя граница интервала, в котором находится i - ый квантиль;
- величина интервала, в котором находится i - ый квантиль;
F(-1) – сумма накопленных частот интервалов, предшествующих интервалу, в котором находится i - ый квантиль;
Nqi – частота интервала, в котором находится i - ый квантиль.
Мода (Мо) – наиболее часто встречающееся значение признака в совокупности.
Для не сгруппированных данных мода обычно не определяется. Если признак принимает ограниченное число значений и они повторяются, можно определить моду с помощью функции МОДА. Вызываем функцию (из категории «Статистические»):
= МОДА(число_1;число_2…)
где число_1;число_2… – числовые аргументы, для которых вычисляется мода (выделить для первого аргумента столбец исходных значений признака).
Для интервально сгруппированного ряда мода – это значение признака, которому соответствует наибольшая плотность распределения. Для сгруппированых данных предварительно определяется группа, которая содержит моду: та группа, которой соответствует максимальная частота/частость или плотность распределения (для не равноинтервальных – только по максимальной плотности). Далее значение моды уточняется по формуле:
где XMo - нижняя граница интервала, в котором находится мода;
- величина модального интервала;
NMо, NMо-1, NMо+1 – частоты, соответственно, модального, предшествующего и последующего интервалов.
Расчет моды по данной формуле предполагает, что модальный, предшествующий и последующий интервалы – это интервалы одинаковой длины.
Таблица 3. Расчет характеристик центра и структуры распределения
Границы интервала | Частота | Накопленная частота | Середина интервала | Сер. инт. × Частота |
нижняя | верхняя | |||
12 Мо | 12 Q1/4, Q1/10 | |||
22 Ме | ||||
30 Q3/4 | ||||
39 Q9/10 | ||||
Итого | - | - |
Расчет характеристик (см. табл. 3):
Среднее: млн. у.е./год
Медиана: млн. у.е./год
1 квартиль: млн. у.е./год
3 квартиль: млн. у.е./год
1 дециль: млн. у.е./год
9 дециль: млн. у.е./год
2. Характеристики вариации
Для измерения рассеяния (вариации) признака применяются различные абсолютные и относительные показатели вариации.
Абсолютные показатели вариации:
- Размах вариации, R - разность между максимальным и минимальным значениями признака в совокупности:
- Среднее линейное отклонение, d - средняя арифметическая абсолютных значений отклонений отдельных вариант от их средней арифметической. Для не сгруппированных и сгруппированных данных, соответственно:
где N – объем совокупности;
k - число групп;
fj – частота/частость в j – ой группе.
- Среднее квадратическое отклонение, s - средняя квадратическая из отклонений отдельных вариант от их средней арифметической. Для не сгруппированных и сгруппированных данных, соответственно:
- Дисперсия, s 2 - средний квадрат отклонений вариант от их средней величины (квадрат среднего квадратического отклонения). Может быть также вычислена, как разность среднего квадрата значения признака и квадрата среднего арифметического значения признака:
Абсолютные показатели вариации по исходным данным определяются с помощью функций СРОТКЛ, СТАНДОТКЛОН, ДИСП. Вызываем необходимую функцию (из категории «Статистические»):
= СРОТКЛ(число_1;число_2…)
где число_1;число_2… – числовые аргументы, для которых вычисляется среднее линейное отклонение (выделить для первого аргумента столбец исходных значений признака).
= СТАНДОТКЛОН(число_1;число_2…)
где число_1;число_2… – числовые аргументы, для которых вычисляется среднее квадратическое отклонение (выделить для первого аргумента столбец исходных значений признака).
= ДИСП(число_1;число_2…)
где число_1;число_2… – числовые аргументы, для которых вычисляется дисперсия (выделить для первого аргумента столбец исходных значений признака).
Самым распространенным относительным показателем рассеяния является коэффициент вариации. Он представляет собой выраженное в процентах отношение среднего квадратического отклонения к средней арифметической:
Коэффициент вариации используют как характеристику однородности совокупности. Совокупность считается качественно однородной, если коэффициент вариации не превышает 33%.
Результаты расчета характеристик по функциям MS Excel:
Расчет характеристик (см. табл. 4):
Размах вариации: млн. у.е./год
Среднее линейное отклонение: млн. у.е./год
Среднее квадратическое отклонение: млн. у.е./год
Дисперсия: (млн. у.е./год) 2
Таблица 4. Расчет показателей вариации
Серед. инт. | Частота | (Серед. инт.-сред.) × Част. | ABS((Серед. инт.-сред.) × Част.) | (Серед. инт.-сред.) 2 × Част. |
-1860 | ||||
-550 | ||||
Итого |
3. Характеристики формы распределения
Для характеристики однородности совокупности используют и показатели формы распределения: коэффициент асимметрии и эксцесс.
Коэффициент асимметрии, As-показатель симметричности распределения. Положительная величина показателя асимметрии указывает на правостороннюю асимметрию, отрицательная – на левостороннюю, близость нулю свидетельствует о симметричном распределении.
Способы расчета коэффициента асимметрии:
1. Коэффициент асимметрии Пирсона:
Величина As может изменяться от –1 до +1 (для одновершинных распределений). Чем ближе по модулю As к 1, тем асимметрия существеннее.
2. Показатель, основанный на определении центрального момента третьего порядка – М3:
В симметричном распределении его величина равна нулю. Для оценки существенности такого коэффициента вычисляется его средняя квадратическая ошибка:
где N - объем совокупности.
Если çAsç/sAs меньше 2, это свидетельствует о несущественном характере асимметрии.
Коэффициент эксцесса, Ex-показатель островершинности распределения. Он рассчитывается для симметричных распределений.Эксцесс представляет собой выпад вершины эмпирического распределения вверх или вниз от вершины кривой нормального распределения. Показатель, использующий центральный момент четвертого порядка - М4:
Для нормального распределения эксцесс равен нулю. Положительный эксцесс означает, что распределение более островершинное чем нормальное; отрицательный эксцесс означает более плосковершинный характер распределения, чем у нормального Для оценки существенности такого коэффициента эксцесса вычисляется его средняя квадратическая ошибка:
где N - объем совокупности.
Если çExç/sEx меньше 2, это свидетельствует о несущественном характере эксцесса (близости распределения по характеру островершинности к нормальному).
По исходным данным характеристики формы распределения могут быть определены с помощью функций СКОС, ЭКСЦЕСС. Вызываем функцию (из категории «Статистические»):
= СКОС(число_1;число_2…)
где число_1;число_2… – числовые аргументы, для которых вычисляется асимметрия (выделить для первого аргумента столбец исходных значений признака).
= ЭКСЦЕСС(число_1;число_2…)
где число_1;число_2… – числовые аргументы, для которых вычисляется эксцесс распределения (выделить для первого аргумента столбец исходных значений признака).
Результаты расчета характеристик по функциям MS Excel:
Таблица 5. Расчет показателей формы распределения
Середина интервала | Частота | (Середина интервала -среднее) 3 × Частота |
-44686500 | ||
-1663750 | ||
Итого |
Расчет характеристик (см. табл. 5):
Так как данный ряд распределения явно несимметричен, расчет эксцесса не производится.
Понятие и типы (дискретные и непрерывные величины) случайной величины. Вычисление центрального момента в Microsoft Excel. Числовые характеристики, характеризующие рассеивание случайной величины. Основные способы нахождения асимметрии и эксцесса.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | лабораторная работа |
Язык | русский |
Дата добавления | 18.04.2013 |
Размер файла | 31,4 K |
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
ОПРЕДЕЛЕНИЕ ЧИСЛОВЫХ ХАРАКТЕРИСТИК ПО ЭКСПЕРИМЕНТАЛЬНЫМ ДАННЫМ В ТАБЛИЧНОМ ПРОЦЕССОРЕ EXCEL
1. Теоретические основы
На практике очень часто приходится иметь дело с различными опытами. Качественная характеристика результата опыта есть событие. А количественной характеристикой случайного результата опыта является случайная величина. Сл у чайной величиной называется величина, которая в результате опыта может принять то или иное (но только одно) значение, причем до опыта неизвестно, какое именно.
Среди случайных величин можно выделить два основных типа: дискретные величины и непрерывные величины. Дискретной случайной величиной называется величина, число возможных значений которой либо конечное, либо бесконечное счетное множество. Случайной непрерывной величиной называется такая величина, возможные значения которой непрерывно заполняют некоторый интервал (конечный или бесконечный) числовой оси. Очевидно, что возможных значений случайной непрерывной величины бесконечно.
На практике в психологии чаще всего используют именно дискретную случайную величину. Приведем пример: предположим, исследуется уровень интеллекта в какой-либо группе испытуемых. В результате эксперимента каждый из обследованных выдаст некое значение. Мы не можем заранее предсказать, какова будет величина этого значения: 70, 100, 130 баллов и т.п., - и потому наша величина СЛУЧАЙНА. Даже если людей в группе столько, что обязательно отыщутся те, у кого будет 71 балл, 72, 73, 74… и так далее - до 127, 128, 129, 130, то все равно не может быть человека, набравшего 129,5 балла или 71,5 балла - и потому наша случайная величина ДИСКРЕТНА.
Значения наблюдаемых в практике случайных величин более или менее колеблются около среднего значения. Это явление называется рассеянием величины около ее среднего значения. Числовые характеристики, характеризующие рассеяние случайной величины, называются характеристиками рассеивания, основными из которых являются дисперсия и средне квадратичное отклонение.
Дисперсией случайной величины называется математическое ожидание квадрата отклонения величины от ее математического ожидания
Соответственно, для дискретной случайной величины дисперсия выражается суммой
где pi - вероятность случайной величины.
Средним квадратическим отклонением случайной величины называется корень квадратный из ее дисперсии:
Для чего вообще необходимы понятия дисперсии и среднеквадратического отклонения?
Во многих экспериментах необходимо знать, как в среднем характеризуется данная исследуемая величина, какое, в среднем, она может принять значение. (Допустим, надо определить, каков, в среднем, показатель интеллекта в той или иной группе лиц.)Пусть известно, что средний показатель интеллекта в некой группе равен такому-то числу. Что можно сказать об интеллекте группы, на основании лишь знания этого среднего показателя? Решительно ничего. Ведь неизвестно, все ли значения тесно сгруппированы вокруг среднего (все демонстрируют средний интеллект) или половина показателей очень низких, а половина - очень высоких. Может статься, что большинство демонстрируют интеллект выше среднего, но показатели одного-двух человек так низки, что «тянут» назад всю группу. В каждом из трех вариантов может быть одно и то же среднее значение.
В таком случае требуется иметь такую характеристику, которая бы говорила о том, сколь велик разброс значений вокруг среднего, или сколь далеко, как правило, от среднего отстоит любое, случайно взятое, значение. Для ответа на этот вопрос и служит такая математическая величина, как ДИСПЕРСИЯ, то есть - мера рассеяния. Что касается среднеквадратического отклонения, то оно более удобно на практике, так как сохраняет размерность исследуемой величины.
Обобщением основных числовых характеристик случайных величин является понятие моментов случайных величин. В теории вероятности различают моменты двух видов: начальные и центральные.
Начальным моментом k-го порядка случайной величины X называют математическое ожидание величины x k :
Из начальных моментов особое значение имеет момент первого порядка, который представляет собой математическое ожидание случайной величины.
Начальные моменты высших порядков используются главным образом для вычисления центральных моментов.
Центральным моментом к-го порядка случайной величины X называют математическое ожидание величины (X-M(X)) k :
Среди центральных моментов случайной величины особое значение имеет центральный момент второго порядка, который представляет собой дисперсию случайной величины.
На практике, кроме математического ожидания, применяются и другие характеристики положения случайной величины, в частности мода и медиана. Модой М0 случайной дискретной величины называется ее наиболее вероятное значение.
Медианой МD случайной величины Х называется такое ее значение, относительно которого равновероятно получение большего или меньшего значения случайной величины, т.е.
Третий центральный момент служит характеристикой асимметрии («скошенности») распределения. Так как третий центральный момент имеет размерность куба случайной величины, то обычно рассматривают безразмерную величину - отношение 3 к среднему квадратическому отклонению в третьей степени
величина носит название коэффициента асимметрии.
Четвертый центральный момент служит для характеристик островершинности или плосковершинности распределения. Эти свойства распределения описываются с помощью так называемого эксцесса. Эксцессом случайной величины Х называется величина
2. Задания на лабораторную работу
Экспериментально определены скорости, с которыми люди записывают цифры арабского алфавита:
Изучим различные способы вычисления описательных статистик: выборочное среднее, выборочную дисперсию, исправленную выборочную дисперсию, выборочное стандартное отклонение, асимметрию, моду, медиану.
После ввода исходных данных (столбцы A и B на рис. 1.4), вычисляем в столбце C выборочную среднюю : =СУММ(B2:B11)/10. Далее в столбцах D и E находим соответственно квадрат и куб отклонений вариант от выборочного среднего . В связи с тем, что количество данных мало, будем находить выборочное СКО через исправленную выборочную дисперсию , которая является несмещенной оценкой генеральной дисперсии. Таким образом, в столбце F имеем: =10*СУММ(D2:D11)/9, после чего в столбце G находим интересующий нас показатель исправленного выборочного СКО : =КОРЕНЬ(F2). В столбцах H и I вычисляем центральный момент 3-го порядка : =СУММ(E2:E11)/10и показатель асимметрии, который с учётом поправки на несмещенность вычисляется как : =100*H2/(72*G2^3).
По полученным оценкам и можно сделать вывод о среднем отклонении показателя уровня безработицы в регионах Центральной России от величины и о тенденции вариант генеральной совокупности к левостороннему смещению относительно выборочного среднего .
Б) Вычисление описательных статистик с помощью статистических функций.MS Excel предоставляет широкие возможности для анализа статистических данных. Для решения простых задач можно использовать встроенные статистические функции СЧЕТ, МОДА, МЕДИАНА, СРЗНАЧ, ДИСПР, ДИСП, СТАНДОТКЛОНП, СКОС и ЭКСЦЕСС, которые позволяют определить для выборки объём, моду, медиану, выборочное среднее, выборочную дисперсию, исправленную выборочную дисперсию, выборочное стандартное отклонение, асимметрию и эксцесс соответственно. Для ознакомления со всеми статистическими функциями в Excel воспользуйтесь переходом: Формулы → Библиотека функций → Другие функции(рис. 1.5),
далее из выпадающего списка выберите Статистические(рис. 1.6).
Задание для самостоятельной работы
Для закрепления навыков работы с Excel, вычислите с помощью статистических функций описательные статистики приведённой выше выборки и сравните результаты с полученными в пункте А данного раздела.
В) Вычисление описательных статистик с помощью пакета Анализ данных. Для проведения сложного статистического анализа можно упростить процесс и сэкономить время, используя надстройку «Пакет анализа» - дополнение Excel, расширяющее аналитические возможности и позволяющее строить гистограммы, составлять таблицы ранг и персентиль, делать случайные или периодические выборки данных и находить их статистические характеристики, генерировать неравномерно распределенные случайные числа, проводить регрессионный анализ и многое другое. Рассмотрим как с помощью «Пакета анализа» можно сразу получить все характеристики выборки.
Если данная надстройка ещё не подключена, последовательно переходим: Параметры Excel → Надстройки → Перейти… Далее среди доступных надстроек выбираем Пакет анализа и нажимаем OK. Работа с установленной надстройкой происходит следующим образом: Данные → Анализ данных → Описательная статистика → ОК (рис. 1.7).
Появляется диалоговое окно, которое требуется заполнить (рис. 1.8).
В этом окне указываем, как сгруппированы данные, ставим «галочку» рядом со словами Итоговая статистика, нажимаем ОК. Появляется итоговое окно. Для рассмотренной выше выборки итоговый результат представлен на рис. 1.9.
Перечислим основные характеристики случайных величин:
— математическое ожидание (характеризует среднее значение);
— дисперсия;
— среднеквадратическое отклонение;
— медиана случайной величины;
— мода случайной величины;
— начальный момент;
— центральный момент;
— аcсимметрия;
— эксцесс;
— квантиль уровня.
Медиана случайной величины — это такое значение случайной величины X, при котором X=Me и Me разделяет область значений на две части, вероятности попадания в любую из данных областей равновероятны, то есть выполняется условие:
F(Me)=0.5
Модой для дискретной случайной величины называют такое значение, которое наиболее вероятно.
Модой для непрерывной случайной величины называют наибольшее значение (точка локального максимума) плотности вероятности.
Мода и медиана на графике
Начальным моментом порядка k случайной величины X называется математическое ожидание величины Х k и определяется равенством:
Формула начального момента для непрерывной случайной величины:
Формула начального момента для дискретной случайной величины:
Центральным моментом порядка k случайной величины X называется математическое ожидание величины (X-M(Х)) k и определяется равенством:
Формула центрального момента для непрерывной случайной величины:
Формула центрального момента для дискретной случайной величины:
Центральный момент первого порядка случайной величины X равен нулю, то есть
Центральный момент второго порядка случайной величины X равен дисперсии, то есть
Центральный момент третьего порядка случайной величины X характеризует асимметрию и определяется равенством:
Центральный момент четвёртого порядка случайной величины X характеризует эксцесс и равен:
Асимметрия характеризует меру сдвига распределения случайной величины в левую или правую часть и находится по формуле:
Эксцесс — характеристика вогнутости и выпуклости распределения случайной величины и вычисляется по формуле:
График значений коэффициента эксцесса
Квантилем уровня p называют такое значение случайной величины xp которое удовлетворяет условие:
5510
2 комментария
ошибка в формуле второго центрального момента
Спасибо большое! Исправили индекс в формуле второго центрального момента.
Пусть непрерывная случайная величина Х задана функцией распределения F(X). Допустим, что все возможные значения случайной величины принадлежат отрезку [A,B].
Определение. Математическим ожиданием непрерывной случайной величины Х, возможные значения которой принадлежат отрезку [a, b], называется определенный интеграл
Если возможные значения случайной величины рассматриваются на всей числовой оси, то математическое ожидание находится по формуле:
При этом, конечно, предполагается, что несобственный интеграл сходится.
Определение. Дисперсией непрерывной случайной величины называется математическое ожидание квадрата ее отклонения.
По аналогии с дисперсией дискретной случайной величины, для практического вычисления дисперсии используется формула:
Определение. Средним квадратичным отклонением Называется квадратный корень из дисперсии.
Определение. Модой М0 дискретной случайной величины называется ее наиболее вероятное значение. Для непрерывной случайной величины мода – такое значение случайной величины, при которой плотность распределения имеет максимум.
Если многоугольник распределения для дискретной случайной величины или кривая распределения для непрерывной случайной величины имеет два или несколько максимумов, то такое распределение называется Двухмодальным или Многомодальным.
Если распределение имеет минимум, но не имеет максимума, то оно называется Антимодальным.
Определение. Медианой MD случайной величины Х называется такое ее значение, относительно которого равновероятно получение большего или меньшего значения случайной величины.
Геометрически медиана – абсцисса точки, в которой площадь, ограниченная кривой распределения делится пополам.
Отметим, что если распределение одномодальное, то мода и медиана совпадают с математическим ожиданием.
Определение. Начальным моментом Порядка K Случайной величины Х называется математическое ожидание величины ХK.
Для дискретной случайной величины: .
Для непрерывной случайной величины: .
Начальный момент первого порядка равен математическому ожиданию.
Определение. Центральным моментом Порядка K случайной величины Х называется математическое ожидание величины
Для дискретной случайной величины: .
Для непрерывной случайной величины: .
Центральный момент первого порядка всегда равен нулю, а центральный момент второго порядка равен дисперсии. Центральный момент третьего порядка характеризует асимметрию распределения.
Определение. Отношение центрального момента третьего порядка к среднему квадратическому отклонению в третьей степени называется Коэффициентом асимметрии.
Определение. Для характеристики островершинности и плосковершинности распределения используется величина, называемая Эксцессом.
Кроме рассмотренных величин используются также так называемые абсолютные моменты:
Абсолютный начальный момент: .
Абсолютный централь Ный момент: .
Абсолютный центральный момент первого порядка называется Средним арифметическим отклонением.
Пример. Для рассмоТРенного выше примера определить математическое ожидание и дисперсию случайной величины Х.
Пример. В урне 6 белых и 4 черных шара. Из нее пять раз подряд извлекают шар, причем каждый раз вынутый шар возвращают обратно и шары перемешивают. Приняв за случайную величину Х число извлеченных белых шаров, составить закон распределения этой величины, определить ее математическое ожидание и дисперсию.
Т. к. шары в каждом опыте возвращаются обратно и перемешиваются, то испытания можно считать независимыми (результат предыдущего опыта не влияет на вероятность появления или непоявления события в другом опыте).
Таким образом, вероятность появления белого шара в каждом опыте постоянна и равна
Таким образом, в результате пяти последовательных испытаний белый шар может не появиться вовсе, появиться один раз, два, три, четыре или пять раз.
Для составления закона распределения надо найти вероятности каждого из этих событий.
1) Белый шар не появился вовсе:
2) Белый шар появился один раз:
3) Белый шар появиться два раза: .
4) Белый шар появиться три раза:
5) Белый шар появиться четыре раза:
6) Белый шар появился пять раз:
Читайте также: