Средняя и предельная ошибка выборки. Методика их расчёта для средней и доли. Оценка существенности расхождения выборочных средних. Характеристики выборки и генеральной совокупности

21.09.2019

Математическая статистика – раздел математики, посвященный математическим методам систематизации, обработки и использованию статистических данных для научных и практических выводов. При этом статистическими данными называются сведения о числе объектов в какой-либо более или менее обширной совокупности, обладающих теми или иными признаками.

Статистическая совокупность, из которой отбирают часть объектов, называется генеральной совокупностью . Множество объектов, случайно отобранных из генеральной совокупности, называется выборкой . Число объектов N из генеральной совокупности и из выборки n называются соответственно объемом генеральной совокупности N и объемом выборки n .

Статистическое описание и вероятностные модели применяются к физическим, экономическим, социологическим, биологическим процессам, обладающим тем свойством, что хотя результат отдельного измерения физической величины X не может быть предсказан с достаточной точностью, но значение некоторой функции от множества результатов повторных измерений может быть предсказан с существенно лучшей точностью. Такая функция называется статистикой. Часто точность предсказания некоторой статистики возрастает с возрастанием объема выборки.

Наиболее известные статистики – относительная частота, выборочные средние, дисперсия. Когда возрастает объем выборки n , многие выборочные статистики сходятся по вероятности к соответствующим параметрам теоретического распределения величины X . Поэтому каждую выборку рассматривают как выборку из теоретически бесконечной генеральной совокупности, распределение признака в которой совпадает с теоретическим распределением вероятности случайной величины. Во многих случаях теоретическая генеральная совокупность есть идеализация действительной совокупности, из которой получена выборка.

Различные значения наблюдаемого признака, встречающегося в совокупности, называются вариантами. Частоты вариантов выражают доли (удельные веса) элементов совокупности с одинаковыми значениями признака. Вариационным рядом называется ранжированный в порядке возрастания или убывания ряд вариантов с соответствующим им частотами.

Средние значения выборки

Значения, находящиеся в середине вариационного ряда, принято делить на собственно средние и структурные средние. Собственно среднее - это арифметическое среднее. Структурные средние - мода и медиана. Кроме того, чтобы охарактеризовать структуру вариационного ряда, используют квартили, квинтили, децили и процентили. Теперь обо всём по порядку.

Среднее арифметическое значение генеральной совокупности находят по формуле:

Число единиц генеральной совокупности,
- значение j -го наблюдения.

Если величина выборки X может принимать значения с вероятностями соответственно , то средним значением величины X для выборки (её математическим ожиданием E(x) ,будет

или
или же (2)
для негруппированных выборок и

для группированных выборок, где

Число единиц выборки,
- число классов,
- значение i -го класса,
- частота i -го класса.

Пример 1. В таблице даны значения средней температуры воздуха в населённом пункте N в 2014 году:

Месяц
1	-2,3
2	-4,0
3	2,0
4	9,0
5	10,0
6	19,4
7	19,9
8	17,1
9	14,9
10	7,3
11	2,2
12	-0,3

Найти среднюю температуру воздуха.

Решение. Найдём среднюю температуру воздуха как среднее значение для негруппированной выборки:

Пример 2. В таблице – данные о группировке сельских хозяйств по урожайности зерновых:

Урожайность зерновых в центнерах с га	Число сельских хозяйств – абсолютное	Удельный вес сельских хозяйств – в процентах

Найти среднюю урожайность зерновых.

Решение. Так как имеем только группированные данные и неизвестна средняя урожайность каждой группы, как приближенные значения к средней каждой группы примем центры интервалов:

Центры интервалов

Найдём требуемую в условии задачи среднюю урожайности зерновых:

Итак, средняя урожайность по выборке составляет 15,6 центнеров с га.

Модой называют значение, которое в вариационном ряду встречается чаще других. Моду можно найти на гистограмме как самый высокий столбец.

Например, в выборке, значения которой 20, 50, 60, 70, 80, 20, 20, 75, 70, 20, 80, 20, 50, 60, модой является 20.

Медианой называют значение, которое находится в середине вариационного ряда. Первая половина элементов выборки меньше этого значения, а вторая половина - больше.

Если в выборке нечётное число элементов, то за медиану принимают собственно серединное значение. Например, в выборке, значения которой 14, 15, 18, 21, 27, медианой является 18.

Если в выборке чётное число элементов, то медиану находят, выбирая два значения, которые находятся в середине и вычисляя их среднее арифметическое. Например, есть выборка 11, 14, 15, 18, 21, 27. Медиану находят так: (15+18)/2 = 16,5.

По аналогии с медианой, которая делит значения выборки на две части, вводят понятие квартилей , которые делят вариационный ряд на 4 равные части.

Децили делят вариационный ряд уже на 10 одинаковых частей, а квинтили - на 5. Процентили делят вариационный ряд на 100 равных частей.

Дисперсия выборки. Стандартное отклонение

Дисперсией величины называется среднее значение квадрата отклонения величины от её среднего значения. Дисперсию генеральной совокупности рассчитывают по формуле:

(4)

Дисперсию выборки рассчитывают по формуле:

(5)

для негруппированных выборок и

(6)

для группированных выборок.

Пример 3. В таблице – данные о возрасте жителей административной территории Т в 2013 году. Не будем приводить эту таблицу из-за её громоздкости. Отметим лишь, что в таблице дана численность каждого из возрастов (по одному году, например, 33 года, 40 лет, 65 лет и т.д.) в группах от 0 лет по 94 года (включительно) и численность всей возрастной группы в интервале 95-99 лет, а также численность жителей старше 100 лет.

Требуется найти средний возраст жителей административной территории и дисперсию среднего возраста.

Решение. Найдём средний возраст. Так как данные в таблице являются данными генеральной совокупности, находим средний возраст генеральной совокупности:

В таблице – данные о числе жителей каждого возраста, исключение же – жители в возрасте 95-99 лет и старше 100 лет. Поэтому рассчитали центр интервала возрастной группы 95-99 лет: 97 лет и в расчётах использовали его.

Так как число жителей старше 100 лет относительно небольшое, чтобы упростить расчёты, нижнюю границу интервала приняли за значение признака.

Итак, средний возраст жителей административной территории Т – 38,2 года

Найдём теперь его дисперсию:

Пример 4. Найти дисперсию урожайности зерновых в сельских хозяйствах, используя данные примера 2.

Решение. Средняя урожайность по выборке составляет 15,6 центнеров с га. Чтобы найти дисперсию, создадим дополнительную таблицу.

Центры интервалов

Число хозяйств

4244

13,1

172,1

730412,3

10446

65,9

688558,6

12,5

18956

184391,3

17,5

20207

71505,7

22,5

8159

47,3

386328,5

27,5

4165

11,9

141,2

585113,6

32,5

1316

16,9

285,0

375024,0

Оценка статистической значимости результатов исследования

Под статистической значимостью данных понимают степень их соответствия отображаемой действительности, т.е. статистически значимыми данными считаются те, которые не искажают и правильно отражают объективную реальность.

Оценить статистическую значимость результатов исследования – означает определить, с какой вероятностью возможно перенести результаты, полученные на выборочной совокупности, на всю генеральную совокупность. Оценка статистической значимости необходима для понимания того, насколько по части явления можно судить о явлении в целом и его закономерностях.

Оценка статистической значимости результатов исследования складывается из:

1. ошибок репрезентативности (ошибок средних и относительных величин) - m ;

2. доверительных границ средних или относительных величин;

3. достоверности разности средних или относительных величин по критерию t .

Стандартная ошибка средней арифметической или ошибка репрезентативности характеризует колебания средней. При этом необходимо отметить, что чем больше объем выборки, тем меньше разброс средних величин. Стандартная ошибка среднего вычисляется по формуле:

В современной научной литературе средняя арифметическая записывается вместе с ошибкой репрезентативности:

или вместе со среднеквадратическим отклонением:

В качестве примера рассмотрим данные по 1500 городских поликлиник страны (генеральная совокупность). Среднее число пациентов, обслуживающихся в поликлинике равно 18150 человек. Случайный отбор 10 % объектов (150 поликлиник) дает среднее число пациентов, равное 20051 человек. Ошибка выборки, очевидно связанная с тем, что не все 1500 поликлиник попали в выборку, равна разности между этими средними – генеральным средним (M ген) и выборочным средним (М выб). Если сформировать другую выборку того же объема из нашей генеральной совокупности, она даст другую величину ошибки. Все эти выборочные средние при достаточно больших выборках распределены нормально вокруг генеральной средней при достаточно большом числе повторений выборки одного и того же числа объектов из генеральной совокупности. Стандартная ошибка среднего m - это неизбежный разброс выборочных средних вокруг генеральной средней.

В случае, когда результаты исследования представлены относительными величинами (например, процентными долями) – рассчитывается стандартная ошибка доли:

где P – показатель в %, n – количество наблюдений.

Результат отображается в виде (P ± m)%. Например, процент выздоровления среди больных составил (95,2±2,5)%.

В том случае, если число элементов совокупности , то при расчете стандартных ошибок среднего и доли в знаменателе дроби вместо необходимо ставить .

Для нормального распределения (распределение выборочных средних является нормальным) известно, какая часть совокупности попадает в любой интервал вокруг среднего значения. В частности:

· 68,3% всех выборочных средних попадают в интервал

· 95,5% - в интервал

· 99,7% - в интервал

На практике проблема заключается в том, что характеристики генеральной совокупности нам неизвестны, а выборка делается именно с целью их оценки. Это означает, что если мы будем делать выборки одного и того же объема n из генеральной совокупности, то в 68,3% случаев на интервале будет находиться значение M (оно же в 95,5% случаев будет находиться на интервале и в 99,7% случаев – на интервале).

Поскольку реально делается только одна выборка, то формулируется это утверждение в терминах вероятности: с вероятностью 68,3% среднее значение признака в генеральной совокупности заключено в интервале, с вероятностью 95,5%- в интервале и т.д.

На практике вокруг выборочного значения строится такой интервал, который бы с заданной (достаточно высокой) вероятностью – доверительной вероятностью – «накрывал» бы истинное значение этого параметра в генеральной совокупности. Этот интервал называется доверительным интервалом .

Доверительная вероятность P – это степень уверенности в том, что доверительный интервал действительно будет содержать истинное (неизвестное) значение параметра в генеральной совокупности.

Например, если доверительная вероятность Р равна 90%, то это означает, что 90 выборок из 100 дадут правильную оценку параметра в генеральной совокупности. Соответственно, вероятность ошибки, т.е. неверной оценки генерального среднего по выборке, равна в процентах: . Для данного примера это значит, что 10 выборок из 100 дадут неверную оценку.

Очевидно, что степень уверенности (доверительная вероятность) зависит от величины интервала: чем шире интервал, тем выше уверенность, что в него попадет неизвестное значение для генеральной совокупности . На практике для построения доверительного интервала берется, как минимум, удвоенная ошибка выборки, чтобы обеспечить уверенность не менее 95,5%.

Определение доверительных границ средних и относительных величин позволяет найти два их крайних значения – минимально возможное и максимально возможное, в пределах которых изучаемый показатель может встречаться во всей генеральной совокупности. Исходя из этого, доверительные границы (или доверительный интервал) - это границы средних или относительных величин, выход за пределы которых вследствие случайных колебаний имеет незначительную вероятность.

Доверительный интервал может быть переписан в виде: , где t – доверительный критерий.

Доверительные границы средней арифметической величины в генеральной совокупности определяют по формуле:

М ген = М выб + t m M

для относительной величины:

Р ген = Р выб + t m Р

где М ген и Р ген - значения средней и относительной величины для генеральной совокупности; М выб и Р выб - значения средней и относительной величины, полученные на выборочной совокупности; m M и m P - ошибки средней и относительной величин; t - доверительный критерий (критерий точности, который устанавливается при планировании исследования и может быть равен 2 или 3); t m - это доверительный интервал или Δ – предельная ошибка показателя, полученного при выборочном исследовании.

Следует отметить, что величина критерия t в определенной мере связана с вероятностью безошибочного прогноза (р), выраженной в %. Ее избирает сам исследователь, руководствуясь необходимостью получить результат с нужной степенью точности. Так, для вероятности безошибочного прогноза 95,5% величина критерия t составляет 2, для 99,7% - 3.

Приведенные оценки доверительного интервала приемлемы лишь для статистических совокупностей с количеством наблюдений более 30. При меньшем объеме совокупности (малых выборках) для определения критерия t пользуются специальными таблицами. В данных таблицах искомое значение находится на пересечении строки, соответствующей численности совокупности (n-1) , и столбца, соответствующего уровню вероятности безошибочного прогноза (95,5%; 99,7%), выбранному исследователем. В медицинских исследованиях при установлении доверительных границ любого показателя принята вероятность безошибочного прогноза 95,5% и более. Это означает, что величина показателя, полученная на выборочной совокупности должна встречаться в генеральной совокупности как минимум в 95,5% случаев.

1. Вопросы по теме занятия:

1. Актуальность показателей разнообразия признака в статистической совокупности.

2. Общая характеристика абсолютных показателей вариации.

3. Среднее квадратическое отклонение, расчет, применение.

4. Относительные показатели вариации.

5. Медиана, квартильная оценка.

6. Оценка статистической значимости результатов исследования.

7. Стандартная ошибка средней арифметической, формула расчета, пример использования.

8. Расчет доли и ее стандартной ошибки.

9. Понятие доверительной вероятности, пример использования.

10. Понятие доверительного интервала, его применение.

2. Тестовые задания по теме с эталонами ответов:

1. К АБСОЛЮТНЫМ ПОКАЗАТЕЛЯМ ВАРИАЦИИ ОТНОСИТСЯ

1) коэффициент вариации

2) коэффициент осцилляции

4) медиана

2. К ОТНОСИТЕЛЬНЫМ ПОКАЗАТЕЛЯМ ВАРИАЦИИ ОТНОСИТСЯ

1) дисперсия

4) коэффициент вариации

3. КРИТЕРИЙ, КОТОРЫЙ ОПРЕДЕЛЯЕТСЯ КРАЙНИМИ ЗНАЧЕНИЯМИ ВАРИАНТ В ВАРИАЦИОННОМ РЯДУ

2) амплитуда

3) дисперсия

4) коэффициент вариации

4. РАЗНОСТЬ КРАЙНИХ ВАРИАНТ – ЭТО

2) амплитуда

3) среднее квадратичное отклонение

4) коэффициент вариации

5. СРЕДНИЙ КВАДРАТ ОТКЛОНЕНИЙ ИНДИВИДУАЛЬНЫХ ЗНАЧЕНИЙ ПРИЗНАКА ОТ ЕГО СРЕДНЕЙ ВЕЛИЧИНЫ – ЭТО

1) коэффициент осцилляции

2) медиана

3) дисперсия

6. ОТНОШЕНИЕ РАЗМАХА ВАРИАЦИИ К СРЕДНЕЙ ВЕЛИЧИНЕ ПРИЗНАКА – ЭТО

1) коэффициент вариации

2) среднее квадратичное отклонение

4) коэффициент осцилляции

7. ОТНОШЕНИЕ СРЕДНЕГО КВАДРАТИЧНОГО ОТКЛОНЕНИЯ К СРЕДНЕЙ ВЕЛИЧИНЕ ПРИЗНАКА – ЭТО

1) дисперсия

2) коэффициент вариации

3) коэффициент осцилляции

4) амплитуда

8. ВАРИАНТА, КОТОРАЯ НАХОДИТСЯ В СЕРЕДИНЕ ВАРИАЦИОННОГО РЯДА И ДЕЛИТ ЕГО НА ДВЕ РАВНЫЕ ЧАСТИ – ЭТО

1) медиана

3) амплитуда

9. В МЕДИЦИНСКИХ ИССЛЕДОВАНИЯХ ПРИ УСТАНОВЛЕНИИ ДОВЕРИТЕЛЬНЫХ ГРАНИЦ ЛЮБОГО ПОКАЗАТЕЛЯ ПРИНЯТА ВЕРОЯТНОСТЬ БЕЗОШИБОЧНОГО ПРОГНОЗА

10. ЕСЛИ 90 ВЫБОРОК ИЗ 100 ДАЮТ ПРАВИЛЬНУЮ ОЦЕНКУ ПАРАМЕТРА В ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ, ТО ЭТО ОЗНАЧАЕТ, ЧТО ДОВЕРИТЕЛЬНАЯ ВЕРОЯТНОСТЬ P РАВНА

11. В СЛУЧАЕ, ЕСЛИ 10 ВЫБОРОК ИЗ 100 ДАЮТ НЕВЕРНУЮ ОЦЕНКУ, ВЕРОЯТНОСТЬ ОШИБКИ РАВНА

12. ГРАНИЦЫ СРЕДНИХ ИЛИ ОТНОСИТЕЛЬНЫХ ВЕЛИЧИН, ВЫХОД ЗА ПРЕДЕЛЫ КОТОРЫХ ВСЛЕДСТВИЕ СЛУЧАЙНЫХ КОЛЕБАНИЙ ИМЕЕТ НЕЗНАЧИТЕЛЬНУЮ ВЕРОЯТНОСТЬ – ЭТО

1) доверительный интервал

2) амплитуда

4) коэффициент вариации

13. МАЛОЙ ВЫБОРКОЙ СЧИТАЕТСЯ ТА СОВОКУПНОСТЬ, В КОТОРОЙ

1) n меньше или равно 100

2) n меньше или равно 30

3) n меньше или равно 40

4) n близко к 0

14. ДЛЯ ВЕРОЯТНОСТИ БЕЗОШИБОЧНОГО ПРОГНОЗА 95% ВЕЛИЧИНА КРИТЕРИЯ t СОСТАВЛЯЕТ

15. ДЛЯ ВЕРОЯТНОСТИ БЕЗОШИБОЧНОГО ПРОГНОЗА 99% ВЕЛИЧИНА КРИТЕРИЯ t СОСТАВЛЯЕТ

16. ДЛЯ РАСПРЕДЕЛЕНИЙ, БЛИЗКИХ К НОРМАЛЬНОМУ, СОВОКУПНОСТЬ СЧИТАЕТСЯ ОДНОРОДНОЙ, ЕСЛИ КОЭФФИЦИЕНТ ВАРИАЦИИ НЕ ПРЕВЫШАЕТ

17. ВАРИАНТА, ОТДЕЛЯЮЩАЯ ВАРИАНТЫ, ЧИСЛОВЫЕ ЗНАЧЕНИЯ КОТОРЫХ НЕ ПРЕВЫШАЮТ 25% МАКСИМАЛЬНО ВОЗМОЖНОГО В ДАННОМ РЯДУ – ЭТО

2) нижний квартиль

3) верхний квартиль

4) квартиль

18. ДАННЫЕ, КОТОРЫЕ НЕ ИСКАЖАЮТ И ПРАВИЛЬНО ОТРАЖАЮТ ОБЪЕКТИВНУЮ РЕАЛЬНОСТЬ, НАЗЫВАЮТСЯ

1) невозможные

2) равновозможные

3) достоверные

4) случайные

19. СОГЛАСНО ПРАВИЛУ "ТРЕХ СИГМ", ПРИ НОРМАЛЬНОМ РАСПРЕДЕЛЕНИИ ПРИЗНАКА В ПРЕДЕЛАХ БУДЕТ НАХОДИТЬСЯ

1) 68,3% вариант

2) 95,5% вариант

3) 99,7% вариант

4) 50,0% вариант

20. ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ, СООТВЕТСТВУЮЩИЙ СТЕПЕНИ ВЕРОЯТНОСТИ (n>30), СОСТАВЛЯЕТ

21. КОЭФФИЦИЕНТ ВАРИАЦИИ ПРИМЕНЯЕТСЯ

1) для характеристики нормальности распределения

2) для характеристики однородности совокупности

3) для определения среднеквадратического отклонения

4) для определения необходимого объема выборки

22. ВАРИАНТА, ОТДЕЛЯЮЩАЯ ВАРИАНТЫ ВЕЛИЧИНОЙ ДО 75% ОТ МАКСИМАЛЬНО ВОЗМОЖНЫХ ЗНАЧЕНИЙ – ЭТО

1) нижний квартиль

3) верхний квартиль

4) квартиль

23. ВАРИАНТА, ОТДЕЛЯЮЩАЯ ВАРИАНТЫ С ЧИСЛОВЫМ ЗНАЧЕНИЕМ ДО 50% ОТ МАКСИМАЛЬНО ВОЗМОЖНОГО – ЭТО

1) квартиль

2) нижний квартиль

4) верхний квартиль

24 КОЭФФИЦИЕНТ ВАРИАЦИИ ВЫРАЖАЕТСЯ

1) в сантиметрах

2) в числе пациентов

3) в числе вариаций

4) в процентах

25. В СЛУЧАЕ СИММЕТРИЧНОСТИ РАСПРЕДЕЛЕНИЯ ОТНОСИТЕЛЬНО СРЕДНЕГО АРИФМЕТИЧЕСКОГО ДЛЯ ЕГО ХАРАКТЕРИСТИКИ ИСПОЛЬЗУЮТСЯ

1) медиана и процентили

2) лимит и среднеквадратичное отклонение

26. В СЛУЧАЕ АСИММЕТРИЧНОСТИ РАСПРЕДЕЛЕНИЯ ОТНОСИТЕЛЬНО СРЕДНЕГО АРИФМЕТИЧЕСКОГО ДЛЯ ЕГО ХАРАКТЕРИСТИКИ ИСПОЛЬЗУЮТСЯ

1) медиана и процентили

2) медиана и среднеквадратичное отклонение

3) среднее арифметическое и среднеквадратичное отклонение

4) среднее арифметическое и процентили

27. ПРИ ЗНАЧЕНИИ КОЭФФИЦИЕНТА ВАРИАЦИИ 15% СТЕПЕНЬ РАЗНООБРАЗИЯ ПРИЗНАКА ОЦЕНИВАЕТСЯ КАК

2) средняя

3) сильная

4) равномерная

28. ГРАНИЦЫ СРЕДНИХ ИЛИ ОТНОСИТЕЛЬНЫХ ВЕЛИЧИН, ВЫХОД ЗА ПРЕДЕЛЫ КОТОРЫХ ВСЛЕДСТВИЕ СЛУЧАЙНЫХ КОЛЕБАНИЙ ИМЕЕТ НЕЗНАЧИТЕЛЬНУЮ ВЕРОЯТНОСТЬ – ЭТО

1) доверительный интервал

2) доверительный критерий

3) стандартная ошибка

4) среднее квадратическое отклонение

29. ДЛЯ РАСЧЕТА КОЭФФИЦИЕНТА ВАРИАЦИИ НЕОБХОДИМА СЛЕДУЮЩАЯ ВЕЛИЧИНА

1) стандартная ошибка

2) медиана

3) среднее квадратическое отклонение

4) доверительный интервал

30. НЕДОСТАТКОМ ЛИМИТА И АМПЛИТУДЫ КАК КРИТЕРИЕВ ВАРИАБЕЛЬНОСТИ ЯВЛЯЕТСЯ

1) необходимость нормального распределения для их расчета

2) зависимость от крайних значений переменных

3) зависимость от числа наблюдений

4) зависимость от средних значений переменных

Эталоны ответов на тестовые задания:

вопрос
ответ
вопрос
ответ
вопрос
ответ

Оценка средней величины имеет целью установить величину генеральной средней для изученной категории объектов. Требуемая для этой цели ошибка репрезентативности определяется по формуле:

При изучении шерстной продуктивности одной породы овец было взято из разных мест обитания породы у 100 взрослых овец 100 годовых настригов шерсти. Средний настриг у 100 овец оказался μ = 5,0 кг, стандартное отклонение для этой выборки s = 1,0. Ответственность исследования обычная, поэтому был принят первый порог вероятности безошибочных прогнозов b 1 = 0,95.

Оценка среднего настрига для всей породы может быть проведена следующим образом:

n = 100; μ = 5,0; s = 1,0; n = 100 – 1 = 99; t = 2,0;

D = 2,0 × 0,1 =0,2;

μ max =5,0 + 0,2 = 5,2 (возможный максимум);

μ min = 5,0 – 0,2 = 4,8 (гарантированный минимум).

1 Средний настриг шерсти по изученной выборке равен
μ ± = 5,0 ± 0,2, доверительные границы генеральной средней 4,8 – 5,2. По этим показателям можно провести сравнение результатов проведенного исследования с результатами других работ.

2 Планировать выход шерсти (n = 10000) на основе проведенного исследования следует исходя из гарантированного минимума генеральной средней μ min = 4,8 кг на одну голову, или 48 т шерсти от всех взрослых овец породы.

3 Работы по стрижке, обработке, перевозке и хранению шерсти следует планировать исходя из возможного максимума генеральной средней μ mах = 5,2 кг с головы, или 52 т от всех овец изученной категории.

При изучении способности к обучению белых мышей для каждой из 40 особей определенного происхождения регистрировалось время прохождения лабиринта в поисках корма после пятой попытки В одном опыте были получены следующие сводные показатели:
n = 40, μ = 7,0 мин, s = 3,0 мин

Требовалось определить возможное время прохождения лабиринта в среднем для мышей всей изучаемой линии, что можно сделать следующим образом: n = 40, μ = 7,0, s = 3,0, n = 40 – 1 = 39, t = 2 (ответственность обычная: b = 0,95), = 3 / = 0,48; D = 2 × 0,48 = 0,96 ≈ 1,0, т.е не более 7,0 + 1,0 = 8,0; не менее 7,0 – 1,0 = 6,0.

1 Среднее время для опытной группы

μ ± = 7,0 ± 0,48 мин.

2 Доверительные границы генеральной средней

μ ± D = 6,0 – 8,0 мин.

3 Если встретится группа мышей со средним временем или меньше 6 мин. или больше 8 мин., возникнет предположение, что эта группа отличается от изученной по способности проходить лабиринт. Это предположение необходимо будет проверить методом определения достоверности разности.

Оценка средней разности

В некоторых исследованиях в качестве первичных данных берется разность двух измерений. Это может быть в случае, когда каждая особь выборки изучается в двух состояниях – или в разном возрасте, или при разных условиях жизни. В этих случаях индивидуальные и средние разности по своему знаку и величине могут характеризовать действие на изучаемый признак или возраста, или изменения условий жизни.

Характеристика действия определенных факторов по разности может быть произведена также и в экспериментах с аналогами, когда каждой особи в опытной группе соответствует строго определенная особь в контроле

При сортоиспытании пшеницы новый сорт А сравнивался со стандартным сортом В по разности урожаев, полученных на 20 парах параллельных делянок: d i = A i – В i . В результате в качестве первичных материалов было получено 20 разностей, некоторые из них были положительными (A>В), некоторые – отрицательными (А<В).

Для всей выборки, состоящей из 20 разностей, были получены сводные выборочные показатели: n = 20, μ = + 1,0 ц/га, s = 2,5 ц/га. В этой выборке новый сорт оказался лучше стандартного: А – В= + 1,0; A>В.

Возник вопрос: а будет ли и весь новый сорт (а не только выборка из него) в аналогичных условиях лучше стандартного? Можно ли считать, что полученная средняя выборочная положительная разность d =+1,0 правильно отражает соответствующую генеральную разность между новым сортом и всем стандартным сортом? Будет ли эта генеральная разность тоже положительной? Этот вопрос можно решить путем оценки генерального значения средней разности на основе полученных сводных выборочных показателей.

Генеральный параметр изучаемой разности был оценен в форме доверительных границ с надежностью β 2 = 0,99 (исследование имело большое экономическое значение) следующим образом.

Определение. Точечной называют оценку, которая определяется одним числом.

Пусть требуется изучить количественный признак генеральной совокупности. Предположим из теоретических соображений мы установили, какое распределение имеет этот признак. Наша задача – оценить параметры, которыми определяется это распределение.

Например, если известно, что изучаемый признак распределён в генеральной совокупности по нормальному закону, то необходимо оценить математическое ожидание и среднеквадратическое отклонение, так как эти два параметра полностью определяют нормальное распределение.

Обычно имеются лишь данные выборки. Через эти данные и выражаются оцениваемые параметры.

Для того, чтобы статистические оценки давали «хорошие» приближения оцениваемых параметров, они должны удовлетворять определённым требованиям:

1) статистическая оценка должна быть несмещённой,

2) статистическая оценка должна быть эффективной,

3) статистическая оценка должна быть состоятельной.

Определение. Статистическая оценкапараметраназываетсянесмещённой , если её математическое ожидание равно оцениваемому параметру
. В противном случае оценка называется смещённой.

Определение. эффективной , если она имеет наименьшую дисперсию среди всех возможных при заданном объёме выборки.

Определение. Статистическая оценка называетсясостоятельной , если при выборке большого объёма
статистическая оценка стремится по вероятности к оцениваемому параметру.

Приведём некоторые теоремы об оценках:

Теорема. Выборочная доля
- есть несмещенная, эффективная и состоятельная оценка генеральной доли
.

Теорема. Выборочная средняя - есть несмещенная, эффективная и состоятельная оценка генеральной средней .

Теорема. Выборочная дисперсия
- есть смещённая и состоятельная оценка генеральной дисперсии
.

То есть математическое ожидание выборочной дисперсии не равно оцениваемой генеральной дисперсии, а равно
.

Поэтому, чтобы «исправить» выборочную дисперсию до несмещённой оценки достаточно умножить
на дробь. Сделав это, получим исправленную дисперсию, которую обозначают через
.

Определение. Исправленной выборочной дисперсией
называется величина

- исправленное среднеквадратическое отклонение .

Исправленная дисперсия является несмещенной оценкой генеральной дисперсии, так как .

Если
, то
, то есть
.

Следовательно, выборочная и исправленная дисперсия приблизительно равны
.

Интервальная оценка параметров

Определение. Интервальной называют оценку, которая определяется двумя числами – концами интервала.

Интервальные оценки позволяют установить точность и надёжность оценок. Пусть найденная по результатам выборки статистическая характеристика служит оценкой неизвестного параметра. Ясно, что чем меньше
, тем точнее оценка. Другими словами, если
(
), то чем меньше, тем оценка точнее. Таким образомхарактеризует точность оценки. Однако, мы не можем категорически утверждать, что оценкаудовлетворяет неравенству
. Мы можем лишь говорить о вероятности, с которой это неравенство осуществляется.

Определение. Надёжностью (доверительной вероятностью ) оценки параметрапоназывается вероятность, с которой осуществляется неравенство
.

Обычно надёжность задаётся наперед, причём чаще всего близка к единице.

Например, =.

Пусть вероятность того, что
равна:

или

Данное соотношение понимают так: вероятность того, что интервал
заключает в себе (покрывает) неизвестный параметр, равна.

Интервал
называетсядоверительным .

Величина доверительного интервала существенно зависит от объёма выборки (уменьшается с ростом) и от значения доверительной вероятности(увеличивается с приближениемк единице).

Определение. Наибольшее отклонениевыборочной средней (или выборочной доли) от генеральной средней (или генеральной доли), которое возможно с заданной доверительной вероятностью, называетсяпредельной ошибкой выборки (точность оценки ).

Эту ошибку называют случайной ошибкой репрезентативности .Систематическая ошибка репрезентативности появляется в результате нарушения принципа случайности при отборе элементов в выборку.

Основные характеристики параметров генеральной и выборочной совокупностей обозначаются символами: N - объем генеральной совокупности (число входящих в нее единиц); n - объем выборки (число обследованных единиц); - генеральная средняя (среднее значение признака в генеральной совокупности); - выборочная средняя; p - генеральная доля (доля единиц, обладающих данным значением признака в общем числе единиц генеральной совокупности); w - выборочная доля. Доля выборки есть отношение числа единиц выборочной совокупности к числу единиц генеральной совокупности: . Применяя выборочный метод в статистике, обычно используют два основных вида обобщающих показателя: среднюю величину количественного признака и относительную величину альтернативного признака (долю или удельный вес единиц в статистической совокупности, которые отличаются от всех других единиц этой совокупности только наличием изучаемого признака). Выборочная доля (w), или частость, определяется отношением числа единиц, обладающих изучаемым признаком т, к общему числу единиц выборочной совокупности п: w = т / п. Для характеристики надежности выборочных показателей различают среднюю и предельную ошибки выборки. Ошибка выборки или, иначе говоря, ошибка репрезентативности представляет собой разность соответствующих выборочных и генеральных характеристик: для средней количественного признака; для доли (альтернативного признака) . Выборочная средняя и выборочная доля являются случайными величинами, которые могут принимать различные значения в зависимости от того, какие единицы совокупности попали в выборку. Поэтому определяют среднюю из возможных ошибок - среднюю ошибку выборки.

Средняя ошибка выборки при повторном отборе рассчитывается по следующим формулам: для средней количественного признака: ; для доли (альтернативного признака): . Средняя ошибка выборки при бесповторном отборе рассчитывается по следующим формулам: для средней качественного признака; для доли (альтернативного признака) . В каждой конкретной выборке расхождение между выборочной средней и генеральной может быть меньше средней ошибки, равно ей или больше ее. Причем каждое из этих расхождений имеет различную вероятность. Поэтому фактические расхождения между выборочной средней и генеральной можно рассматривать как некую предельную ошибку, связанную со средней ошибкой и гарантируемую с определенной вероятностью Р. Предельную ошибку выборки можно рассчитать по следующим формулам: при повторном отборе: для средней, где t - нормированное отклонение - «коэффициент доверия», зависящий от вероятности, с которой гарантируется предельная ошибка выборки; - средняя ошибка выборки; для доли; при бесповторном отборе: для средней; для доли. При вероятности 0,683 коэффициент t = 1; при вероятности 0,954 коэффициент t = 2; при вероятности 0,997 коэффициент t = 3. Предельная ошибка выборки позволяет определить предельные значения характеристик генеральной совокупности и их доверительные интервалы: для средней; ; для доли; . Наряду с абсолютным значением предельной ошибки выборки рассчитывается также и предельная относительная ошибка выборки, которая определяется как процентное отношение предельной ошибки выборки к соответствующей характеристике выборочной совокупности: для средней, %: ; для доли, %: .

Последние записи

Сколько минут варить говяжью печень
Эдуард успенский смешные рассказы для детей
Молитва артемию солунскому
Плыть по течению по соннику
Рыцарство и крестовые походы Западная европа в средние века крестовые походы
Рецепт идеальных ванильных капкейков (кексов) в домашних условиях с фотографиями пошагового процесса
Салат слоеный с яблоками, яйцом, сыром и красным луком Салат лук яйцо яблоко сыр майонез
Пикантные приправы и соусы из острого перца: рецепты из разных стран мира
Гадание на кофейной гуще
Как разгадать сновидения с рыжими котами

Средние значения выборки

Дисперсия выборки. Стандартное отклонение

Оценка статистической значимости результатов исследования

Интервальная оценка параметров

Интересные статьи

Интересные статьи