Нормальный закон распределения вероятностей. Типичные распределения вероятности: шпаргалка data scientist-а

24.09.2019

Несмотря на экзотические названия, распространённые распределения связаны друг с другом достаточно интуитивными и интересными способами, позволяющими легко их вспоминать и уверенно о них рассуждать. Некоторые естественно следуют, например, из распределения Бернулли. Время показать карту этих связей.

Каждое распределение иллюстрируется примером её функции плотности распределения (ФПР). Эта статья только о тех распределениях, у которых исходы – одиночные числа. Поэтому, горизонтальная ось каждого графика – набор возможных чисел-исходов. Вертикальная – вероятность каждого исхода. Некоторые распределения дискретны - у них исходы должны быть целыми числами, типа 0 или 5. Таковые обозначаются редкими линиями, по одной на каждый исход, с высотой, соответствующей вероятности данного исхода. Некоторые – непрерывны, у них исходы могут принять любое численное значение, типа -1.32 или 0.005. Эти показаны плотными кривыми с областями под секциями кривой, которые дают вероятности. Сумма высот линий и областей под кривыми - всегда 1.

Распечатайте, отрежьте по пунктирной линии и носите с собой в кошельке. Это - ваш путеводитель в стране распределений и их родственников.

Бернулли и равномерное

Вы уже встретились с распределением Бернулли выше, с двумя исходами – орлом или решкой. Представьте его теперь как распределение над 0 и 1, 0 – орёл, 1 – решка. Как уже понятно, оба исхода равновероятны, и это отражено на диаграмме. ФПР Бернулли содержит две линии одинаковой высоты, представляющие 2 равновероятных исхода: 0 и 1 соответственно.

Распределение Бернулли может представлять и неравновероятные исходы, типа броска неправильной монетки. Тогда вероятность орла будет не 0.5, а какая-то другая величина p, а вероятность решки – 1-p. Как и многие другие распределения, это на самом деле целое семейство распределений, задаваемых определёнными параметрами, как p выше. Когда будете думать «Бернулли » – думайте про «бросок (возможно, неправильной) монетки».

Отсюда весьма небольшой шаг до того, чтобы представить распределение поверх нескольких равновероятных исходов: равномерное распределение , характеризуемое плоской ФПР. Представьте правильный игральный кубик. Его исходы 1-6 равновероятны. Его можно задать для любого количества исходов n, и даже в виде непрерывного распределения.

Думайте о равномерном распределении как о «правильном игральном кубике».

Биномиальное и гипергеометрическое

Биномиальное распределение можно представить как сумму исходов тех вещей, которые следуют распределению Бернулли.

Киньте честную монету два раза – сколько раз будет орёл? Это число, подчиняющееся биномиальному распределению. Его параметры – n, число испытаний, и p – вероятность «успеха» (в нашем случае – орла или 1). Каждый бросок – распределённый по Бернулли исход, или испытание . Используйте биномиальное распределение, когда считаете количество успехов в вещах типа броска монеты, где каждый бросок не зависит от других и имеет одинаковую вероятность успеха.

Или представьте урну с одинаковым количество белых и чёрных шаров. Закройте глаза, вытащите шар, запишите его цвет и верните назад. Повторите. Сколько раз вытащился чёрный шар? Это число также подчиняется биномиальному распределению.

Эту странную ситуацию мы представили, чтобы было легче понять смысл гипергеометрического распределения . Это распределение того же числа, но в ситуации если бы мы не возвращали шары обратно. Оно, безусловно, двоюродный брат биномиального распределения, но не такое же, так как вероятность успеха изменяется с каждым вытащенным шаром. Если количество шаров достаточно велико по сравнению с количеством вытаскиваний – то эти распределения практически одинаковы, так как шанс успеха изменяется с каждым вытаскиванием крайне незначительно.

Когда где-то говорят о вытаскивании шаров из урн без возврата, практически всегда безопасно ввернуть «да, гипергеометрическое распределение», потому что в жизни я ещё не встречал никого, кто реально наполнял бы урны шарами и потом вытаскивал их и возвращал, или наоборот. У меня даже знакомых нет с урнами. Ещё чаще это распределение должно всплывать при выборе значимого подмножества некоторой генеральной совокупности в качестве выборки.

Прим. перев.

Тут может быть не очень понятно, а раз туториал и экспресс-курс для новичков - надо бы разъяснить. Генеральная совокупность - есть нечто, что мы хотим статистически оценить. Для оценки мы выбираем некоторую часть (подмножество) и производим требуемую оценку на ней (тогда это подмножество называется выборкой), предполагая, что для всей совокупности оценка будет похожей. Но чтобы это было верно, часто требуются дополнительные ограничения на определение подмножества выборки (или наоборот, по известной выборке нам надо оценить, описывает ли она достаточно точно совокупность).

Практический пример - нам нужно выбрать от компании в 100 человек представителей для поездки на E3. Известно, что в ней 10 человек уже ездили в прошлом году (но никто не признаётся). Сколько минимум нужно взять, чтобы в группе с большой вероятностью оказался хотя бы один опытный товарищ? В данном случае генеральная совокупность - 100, выборка - 10, требования к выборке - хотя бы один, уже ездивший на E3.

В википедии есть менее забавный, но более практичный пример про бракованные детали в партии.

Пуассон

Что насчёт количества заказчиков, звонящих по горячей линии в техподдержку каждую минуту? Это исход, чьё распределение на первый взгляд биномиальное, если считать каждую секунду как испытание Бернулли, в течение которой заказчик либо не позвонит (0), либо позвонит (1). Но электроснабжающие организации прекрасно знают: когда выключают электричество – за секунду могут позвонить двое или даже больше сотни людей. Представить это как 60000 миллисекундных испытаний тоже не поможет – испытаний больше, вероятность звонка в миллисекунду меньше, даже если не учитывать двух и более одновременно, но, технически – это всё ещё не испытание Бернулли. Тем не менее, срабатывает логическое рассуждение с переходом к бесконечности. Пусть n стремится к бесконечности, а p – к 0, и так, чтобы np было постоянным. Это как делить на всё более малые доли времени со всё менее малой вероятностью звонка. В пределе мы получим распределение Пуассона .

Так же, как и биномиальное, распределение Пуассона – это распределение количества: количества раз того, как что-то произойдёт. Оно параметризуется не вероятностью p и количеством испытаний n, но средней интенсивностью λ, что, в аналогии с биномиальным, просто постоянное значение np. Распределение Пуассона – то, о чём надо вспоминать, когда идёт речь о подсчёте событий за определённое время при постоянной заданной интенсивности.

Когда есть что-то, типа прихода пакетов на роутер или появления покупателей в магазине или что-то, ожидающее в очереди – думайте «Пуассон ».

Геометрическое и отрицательное биномиальное

Из простых испытаний Бернулли появляется другое распределение. Сколько раз монетка выпадет решкой, прежде, чем выпасть орлом? Число решек подчиняется геометрическому распределению . Как и распределение Бернулли, оно параметризуется вероятностью успешного исхода, p. Оно не параметризуется числом n, количеством бросков-испытаний, потому что число неудачных испытаний как раз и есть исход.

Если биномиальное распределение это «сколько успехов», то геометрическое это «Сколько неудач до успеха?».

Отрицательное биномиальное распределение – простое обобщение предыдущего. Это количество неудач до того, как будет r, а не 1, успехов. Поэтому оно дополнительно параметризуется этим r. Иногда его описывают как число успехов до r неудач. Но, как говорит мой лайф-коуч: «Ты сам решаешь, что есть успех, а что - неудача», так что это тоже самое, если при этом не забыть, что вероятность p тоже должна правильной вероятностью успеха или неудачи соответственно.

Если нужна будет шутка для снятия напряжения, можно упомянуть, что биномиальное и гипергеометрическое распределение – это очевидная пара, но и геометрическое и отрицательное биномиальное так же весьма похожи, после чего заявить «Ну и кто же так их все называет, а?»

Экспоненциальное и Вейбула

Снова о звонках в техподдержку: сколько пройдёт до следующего звонка? Распределение этого времени ожидания как будто бы геометрическое, потому что каждая секунда, пока никто не звонит – это как неуспех, до секунды, пока, наконец, звонок не произойдёт. Количество неудач –это как количество секунд, пока никто не звонил, и это практически время до следующего звонка, но «практически» нам недостаточно. Суть в том, что это время будет суммой целых секунд, и, таким образом, не получится посчитать ожидание внутри этой секунды до непосредственно звонка.

Ну и, как и раньше, переходим в геометрическом распределении к пределу, относительно временных долей – и вуаля. Получаем экспоненциальное распределение , которое точно описывает время до звонка. Это непрерывное распределение, первое такое у нас, потому что исход не обязательно в целых секундах. Как и распределение Пуассона, оно параметризуется интенсивностью λ.

Повторяя связь биномиального с геометрическим, Пуассоновское «сколько событий за время?» связано с экспоненциальным «сколько до события?». Если есть события, количество которых на единицу времени подчиняется распределению Пуассона, то время между ними подчиняется экспоненциальному распределению с тем же параметром λ. Это соответствие между двумя распределениями необходимо отмечать, когда обсуждается любое из них.

Экспоненциальное распределение должно приходить на ум при размышлении о «времени до события», возможно, «времени до отказа». По факту, это такая важная ситуация, что существуют более обобщённые распределения чтобы описать наработку-на-отказ, типа распределения Вейбула . В то время, как экспоненциальное распределение подходит, когда интенсивность - износа, или отказов, например – постоянна, распределение Вейбула может моделировать увеличивающуюся (или уменьшающуюся) со временем интенсивность отказов. Экспоненциальное, в общем-то, частный случай.

Думайте «Вейбул » когда разговор заходит о наработке-на-отказ.

Нормальное, логнормальное, Стьюдента и хи-квадрат

Нормальное , или гауссово , распределение, наверное, одно из важнейших. Его колоколообразная форма узнаётся сразу. Как и , это особенно любопытная сущность, которая проявляется везде, даже из внешне самых простых источников. Возьмите набор значений, подчиняющихся одному распределению – любому! – и сложите их. Распределение их суммы подчиняется (приблизительно) нормальному распределению. Чем больше вещей суммируется – тем ближе их сумма соответствует нормальному распределению (подвох: распределение слагаемых должно быть предсказуемым, быть независимым, оно стремится только к нормальному). То, что это так, несмотря на исходное распределение – это потрясающе.

Прим. перев.

Меня удивило, что автор не пишет про необходимость сопоставимого масштаба суммируемых распределений: если одно существенно доминирует надо остальными - сходиться будет крайне плохо. И, в общем-то, абсолютная взаимная независимость необязательна, достаточна слабая зависимость.

Ну сойдёт, наверное, для вечеринок, как он написал.

Это называется «центральная предельная теорема », и надо знать, что это, почему так названо и что означает, иначе моментально засмеют.

В её разрезе, нормальное связано со всеми распределениями. Хотя, в основном, его связывают с распределениями всяких сумм. Сумма испытаний Бернулли следует биномиальному распределению и, с увеличением количества испытаний, это биномиальное распределение становится всё ближе в нормальному распределению. Аналогично и его двоюродный брат – гипергеометрическое распределение. Распределение Пуассона – предельная форма биномиального – так же приближается к нормальному с увеличением параметра интенсивности.

Исходы, которые подчиняются логнормальному распределению , дают значения, логарифм которых нормально распределён. Или по-другому: экспонента нормально распределённого значения логнормально распределена. Если суммы – нормально распределены, то запомните так же, что произведения распределены логнормально.

t-Распределение Стьюдента – это основа t-теста , который многие нестатистики изучают в других областях. Оно используется для предположений о среднем нормального распределения и так же стремится к нормальному распределению с увеличением своего параметра. Отличительная особенность t-распределения – его хвосты, которые толще, чем у нормального распределения.

Если толстохвостый анекдот недостаточно раскачал вашего соседа – переходите в довольно забавной байке про пиво. Больше 100 лет назад Гиннесс использовал статистику, чтобы улучшить свой стаут. Тогда Вильям Сили Госсет и изобрёл полностью новую статистическую теорию для улучшенного выращивания ячменя. Госсет убедил босса, что другие пивовары не поймут, как использовать его идеи, и получил разрешение на публикацию, но под псевдонимом «Стьюдент». Самое известное достижение Госсета – как раз это самое t-распределение, которое, можно сказать, названо в честь него.

Наконец, распределение хи-квадрат – распределение сумм квадратов нормально-распределенных величин. На этом распределении построен тест хи-квадрат , который сам основан на сумме квадратов разниц, которые должны быть нормально распределены.

Гамма и бета

В этом месте, если вы уже заговорили о чём-то хи-квадратном, разговор начинается всерьёз. Вы уже, возможно, говорите с настоящими статистиками, и, наверное, стоит уже откланиваться, поскольку могут всплыть вещи типа гамма-распределения . Это обобщение и экспоненциального, и хи-квадрат распределения. Как и экспоненциальное распределение, оно используется для сложных моделей времен ожидания. Например, гамма-распределение появляется, когда моделируется время до следующих n событий. Оно появляется в машинном обучении как «сопряжённое априорное распределение » к парочке других распределений.

Не вступайте в разговор об этих сопряжённых распределениях, но если всё-таки придётся, не забудьте сказать о бета-распределении , потому что оно сопряжённое априорное к большинству упомянутых здесь распределений. Data-scientist-ы уверены, что оно именно для этого и сделано. Упомяните об этом ненароком и идите к двери.

Начало мудрости

Распределения вероятности - это то, о чём нельзя знать слишком много. По настоящему заинтересованные могут обратиться к этой супердетализированной карте всех распределений вероятности Добавить метки Назначение сервиса . Онлайн-калькулятор используется для построения таблицы распределения случайной величины X – числа произведенных опытов и вычисления всех характеристик ряда: математического ожидания, дисперсии и среднеквадратического отклонения. Отчет с решением оформляется в формате Word .

Пример 1 . В урне белых и черных шара. Шары наудачу достают из урны без возвращения до тех пор, пока не появится белый шар. Как только это произойдет, процесс прекращается.
Данный тип заданий относится к задаче построения геометрического распределения .

Пример 2 . Два Три стрелка делают по одному выстрелу в мишень. Вероятность попадания в нее первым стрелком равна , вторым – . Составить закон распределения случайной величины Х – числа попаданий в мишень.

Пример 2a . Стрелок делает по два три четыре выстрела. Вероятность попадания при соответствующем выстреле равна , . При первом промахе стрелок в дальнейших состязаниях не участвует. Составить закон распределения случайной величины Х - число попаданий в мишень.

Пример 3 . В партии из деталей бракованных стандартных. Контролер наудачу достает детали. Составить закон распределения случайной величины Х – числа бракованных годных деталей в выборке.
Аналогичное задание : В корзине m красных и n синих шаров. Наудачу вынимают k шаров. Составить закон распределения ДСВ X – появление синих шаров.
см. другие примеры решений .

Пример 4 . Вероятность появления события в одном испытании равна . Производится испытаний. Составить закон распределения случайной величины Х – числа появлений события.
Аналогичные задания для этого вида распределения :
1. Составить закон распределения случайной величины Х числа попаданий при четырех выстрелах, если вероятность попадания в цель при одном выстреле равна 0.8 .
2. Монету подбрасывают 7 раз. Найти математическое ожидание и дисперсию числа появлений герба. Составить таблицу распределения Х – числа появлений герба.

Пример №1 . Бросаются три монеты. Вероятность выпадения герба при одном бросании равна 0.5. Составьте закон распределения случайной величины X - числа выпавших гербов.
Решение.
Вероятность того, что не выпало ни одного герба: P(0) = 0,5*0,5*0,5= 0,125
P(1) = 0,5 *0,5*0,5 + 0,5*0,5 *0,5 + 0,5*0,5*0,5 = 3*0,125=0,375
P(2) = 0,5 *0,5 *0,5 + 0,5 *0,5*0,5 + 0,5*0,5 *0,5 = 3*0,125=0,375
Вероятность того, что выпало три герба: P(3) = 0,5*0,5*0,5 = 0,125

Закон распределения случайной величины X:

X	0	1	2	3
P	0,125	0,375	0,375	0,125

Проверка: P = P(0) + P(1) + P(2) + P(3) = 0,125 + 0,375 + 0,375 + 0,125 = 1

Пример №2 . Вероятность попадания в мишень одного стрелка при одном выстреле для первого стрелка равна 0.8, для второго стрелка – 0.85. Стрелки произвели по одному выстрелу в мишень. Считая попадание в цель для отдельных стрелков событиями независимыми, найти вероятность события А – ровно одно попадание в цель.
Решение.
Рассмотрим событие A - одно попадание в цель. Возможные варианты наступления этого события следующие:

Попал первый стрелок, второй стрелок промахнулся: P(A/H1)=p 1 *(1-p 2)=0.8*(1-0.85)=0.12
Первый стрелок промахнулся, второй стрелок попал в мишень: P(A/H2)=(1-p 1)*p 2 =(1-0.8)*0.85=0.17
Первый и второй стрелки независимо друг от друга попали в мишень: P(A/H1H2)=p 1 *p 2 =0.8*0.85=0.68

Тогда вероятность события А – ровно одно попадание в цель, будет равна: P(A) = 0.12+0.17+0.68 = 0.97

Биномиальное распределение - одно из важнейших распределений вероятностей дискретно изменяющейся случайной величины. Биномиальным распределением называется распределение вероятностей числа m наступления события А в n взаимно независимых наблюдениях . Часто событие А называют "успехом" наблюдения, а противоположное ему событие - "неуспехом", но это обозначение весьма условное.

Условия биномиального распределения :

в общей сложности проведено n испытаний, в которых событие А может наступить или не наступить;
событие А в каждом из испытаний может наступить с одной и той же вероятностью p ;
испытания являются взаимно независимыми.

Вероятность того, что в n испытаниях событие А наступит именно m раз, можно вычислить по формуле Бернулли:

где p - вероятность наступления события А ;

q = 1 - p - вероятность наступления противоположного события .

Разберёмся, почему биномиальное распределение описанным выше образом связано с формулой Бернулли . Событие - число успехов при n испытаниях распадается на ряд вариантов, в каждом из которых успех достигается в m испытаниях, а неуспех - в n - m испытаниях. Рассмотрим один из таких вариантов - B 1 . По правилу сложения вероятностей умножаем вероятности противоположных событий:

а если обозначим q = 1 - p , то

Такую же вероятность будет иметь любой другой вариант, в котором m успехов и n - m неуспехов. Число таких вариантов равно - числу способов, которыми можно из n испытаний получить m успехов.

Сумма вероятностей всех m чисел наступления события А (чисел от 0 до n ) равна единице:

где каждое слагаемое представляет собой слагаемое бинома Ньютона. Поэтому рассматриваемое распределение и называется биномиальным распределением.

На практике часто необходимо вычислять вероятности "не более m успехов в n испытаниях" или "не менее m успехов в n испытаниях". Для этого используются следующие формулы.

Интегральную функцию, то есть вероятность F (m ) того, что в n наблюдениях событие А наступит не более m раз , можно вычислить по формуле:

В свою очередь вероятность F (≥m ) того, что в n наблюдениях событие А наступит не менее m раз , вычисляется по формуле:

Иногда бывает удобнее вычислять вероятность того, что в n наблюдениях событие А наступит не более m раз, через вероятность противоположного события:

Какой из формул пользоваться, зависит от того, в какой из них сумма содержит меньше слагаемых.

Характеристики биномиального распределения вычисляются по следующим формулам .

Математическое ожидание: .

Дисперсия: .

Среднеквадратичное отклонение: .

Биномиальное распределение и расчёты в MS Excel

Вероятность биномиального распределения P n (m ) и значения интегральной функции F (m ) можно вычислить при помощи функции MS Excel БИНОМ.РАСП. Окно для соответствующего расчёта показано ниже (для увеличения нажать левой кнопкой мыши).

MS Excel требует ввести следующие данные:

число успехов;
число испытаний;
вероятность успеха;
интегральная - логическое значение: 0 - если нужно вычислить вероятность P n (m ) и 1 - если вероятность F (m ).

Пример 1. Менеджер фирмы обобщил информацию о числе проданных в течение последних 100 дней фотокамер. В таблице обобщена информация и рассчитаны вероятности того, что в день будет продано определённое число фотокамер.

День завершён с прибылью, если продано 13 или более фотокамер. Вероятность, что день будет отработан с прибылью:

Вероятность того, что день будет отработан без прибыли:

Пусть вероятность того, что день отработан с прибылью, является постоянной и равна 0,61, и число проданных в день фотокамер не зависит от дня. Тогда можно использовать биномиальное распределение, где событие А - день будет отработан с прибылью, - без прибыли.

Вероятность того, что из 6 дней все будут отработаны с прибылью:

Тот же результат получим, используя функцию MS Excel БИНОМ.РАСП (значение интегральной величины - 0):

P 6 (6 ) = БИНОМ.РАСП(6; 6; 0,61; 0) = 0,052.

Вероятность того, что из 6 дней 4 и больше дней будут отработаны с прибылью:

где ,

Используя функцию MS Excel БИНОМ.РАСП, вычислим вероятность того, что из 6 дней не более 3 дней будут завершены с прибылью (значение интегральной величины - 1):

P 6 (≤3 ) = БИНОМ.РАСП(3; 6; 0,61; 1) = 0,435.

Вероятность того, что из 6 дней все будут отработаны с убытками:

Тот же показатель вычислим, используя функцию MS Excel БИНОМ.РАСП:

P 6 (0 ) = БИНОМ.РАСП(0; 6; 0,61; 0) = 0,0035.

Решить задачу самостоятельно, а затем посмотреть решение

Пример 2. В урне 2 белых шара и 3 чёрных. Из урны вынимают шар, устанавливают цвет и кладут обратно. Попытку повторяют 5 раз. Число появления белых шаров - дискретная случайная величина X , распределённая по биномиальному закону. Составить закон распределения случайной величины. Определить моду, математическое ожидание и дисперсию.

Продолжаем решать задачи вместе

Пример 3. Из курьерской службы отправились на объекты n = 5 курьеров. Каждый курьер с вероятностью p = 0,3 независимо от других опаздывает на объект. Дискретная случайная величина X - число опоздавших курьеров. Построить ряд распределения это случайной величины. Найти её математическое ожидание, дисперсию, среднее квадратическое отклонение. Найти вероятность того, что на объекты опоздают не менее двух курьеров.

Случайное событие – это любой факт, который в результате испытания может произойти или не произойти. Случайное событие – это результат испытания. Испытание – это эксперимент, выполнение определенного комплекса условий, в которых наблюдается то или иное явление, фиксируется тот или иной результат.

События обозначаются заглавными буквами латинского алфавита А,В,С.

Численная мера степени объективности возможности наступления события называется вероятностью случайного события.

Классическое определение вероятности события А:

Вероятность события А равна отношению числа случаев, благоприятствующих событию A(m), к общему числу случаев (n).

Статистическое определение вероятности

Относительная частота событий – это доля тех фактически проведенных испытаний, в которых событие А появилось W=P*(A)= m/n. Это опытная экспериментальная характеристика, где m – число опытов, в которых появилось событие А; n – число всех проведенных опытов.

Вероятностью события называется число, около которого группируются значения частоты данного события в различных сериях большого числа испытаний P(A)=.

События называются несовместными , если наступление одного из них исключает появление другого. В противном случае события – совместные .

Сумма двух событий – это такое событие, при котором появляется хотя бы одно из этих событий (А или В).

Если А и В совместные события, то их сумма А+В обозначает наступление события А или события В, или обоих событий вместе.

Если А и В несовместные события, то сумма А+В означает наступление или события А или события В.

2. Понятие о зависимых и независимых событиях. Условная вероятность, закон (теорема) умножения вероятностей. Формула Байеса.

Событие В называется независимым от события А, если появление события А не изменяет вероятности появления события В. Вероятностью появления нескольких независимых событий равна произведению вероятностей этих:

P(AB) = P(A)*P(B)

Для зависимых событий:

P(AB) = P(A)*Р(B/A).

Вероятность произведения двух событий равна произведению вероятности одного из них на условную вероятность другого, найденную в предположении, что первое событие произошло.

Условная вероятность события В - это вероятность события В, найденная при условии, что событие А произошло. Обозначается Р(В/А)

Произведение двух событий – это событие, состоящее в совместном появлении этих событий (А и В)

Формула Байеса служит для переоценки случайных событий

P(H/A) = (P(H)*P(A/H))/P(A)

P(H) – априорная вероятность события Н

P(H/A) – апостериорная вероятность гипотезы H при условии, что событие А уже произошло

P(A/H) – экспертная оценка

P(A) – полня вероятность события А

3. Распределение дискретных и непрерывных случайных величин и их характеристики: математическое ожидание, дисперсия, среднее квадратичное отклонение. Нормальный закон распределения непрерывных случайных величин.

Случайная величина – это величина, которая в результате испытания в зависимости от случая принимает одно из возможного множества своих значений.

Дискретная случайная величина – это случайная величина, когда принимает отдельное изолированное, счетное множество значений.

Непрерывная случайная величина – это случайная величина, принимающая любые значения из некоторого интервала. Понятие непрерывной случайной величины возникает при измерениях.

Для дискретной случайной величины закон распределения может быть задан в виде таблицы , аналитически (в виде формулы) и графически .

Таблица – это простейшая форма задания закона распределения

Требования:

для дискретных случайных величин

Аналитический:

1)F(x)=P(X

Функция распределения = интегральная функция распределения. Для дискретный и непрерывных случайных величин.

2)f(x) = F’(x)

Плотность распределения вероятностей = дифференциальная функция распределения только для непрерывной случайной велечины.

Графический:

С-ва: 1) 0≤F(x)≤1

2) неубывающая для дискретных случайных величин

С-ва: 1) f(x)≥0 P(x)=

2) площадь S=1

для непрерывных случайных величин

Характеристики:

1.математическое ожидание – среднее наиболее вероятное событие

Для дискретных случайных величин.

Для непрерывных случайных величин.

2)Дисперсия – рассеяние вокруг математического ожидания

Для дискретных случайных величин:

D(x)=x i -M(x)) 2 *p i

Для непрерывных случайных величин:

D(x)=x-M(x)) 2 *f(x)dx

3)Среднее квадратическое отклонение :

σ(х)=√(D(x))

σ – стандартное отклонение или стандарт

х – арифметическое значение корня квадратного из ее дисперсии

Нормальный закон распределения (НЗР) – закон Гаусса

НЗР – это распад вероятностей непрерывной случайной величины, который описывается дифференциальной функцией

Теория вероятностей – это раздел математики, изучающий закономерности случайных явлений: случайные события, случайные величины, их свойства и операции над ними.

Долгое время теория вероятностей не имела четкого определения. Оно было сформулировано лишь в 1929 году. Возникновение теории вероятностей как науки относят к средним векам и первым попыткам математического анализа азартных игр (орлянка, кости, рулетка). Французские математики XVII века Блез Паскаль и Пьер Ферма, исследуя прогнозирование выигрыша в азартных играх, открыли первые вероятностные закономерности, возникающие при бросании костей.

Теория вероятности возникла как наука из убеждения, что в основе массовых случайных событий лежат определенные закономерности. Теория вероятности изучает данные закономерности.

Теория вероятностей занимается изучением событий, наступление которых достоверно неизвестно. Она позволяет судить о степени вероятности наступления одних событий по сравнению с другими.

Например: определить однозначно результат выпадения «орла» или «решки» в результате подбрасывания монеты нельзя, но при многократном подбрасывании выпадает примерно одинаковое число «орлов» и «решек», что означает, что вероятность того, что выпадет «орел» или «решка», равна 50%.

Испытанием в этом случае называется реализация определенного комплекса условий, то есть в данном случае подбрасывание монеты. Испытание может воспроизводиться неограниченное количество раз. При этом комплекс условий включает в себя случайные факторы.

Результатом испытания является событие . Событие бывает:

Достоверное (всегда происходит в результате испытания).
Невозможное (никогда не происходит).
Случайное (может произойти или не произойти в результате испытания).

Например, при подбрасывании монеты невозможное событие - монета станет на ребро, случайное событие - выпадение «орла» или «решки». Конкретный результат испытания называется элементарным событием . В результате испытания происходят только элементарные события. Совокупность всех возможных, различных, конкретных исходов испытаний называется пространством элементарных событий .

Основные понятия теории

Вероятность - степень возможности происхождения события. Когда основания для того, чтобы какое-нибудь возможное событие произошло в действительности, перевешивают противоположные основания, то это событие называют вероятным, в противном случае - маловероятным или невероятным.

Случайная величина - это величина, которая в результате испытания может принять то или иное значение, причем неизвестно заранее, какое именно. Например: число на пожарную станцию за сутки, число попадания при 10 выстрелах и т.д.

Случайные величины можно разделить на две категории.

Дискретной случайной величиной называется такая величина, которая в результате испытания может принимать определенные значения с определенной вероятностью, образующие счетное множество (множество, элементы которого могут быть занумерованы). Это множество может быть как конечным, так и бесконечным. Например, количество выстрелов до первого попадания в цель является дискретной случайной величиной, т.к. эта величина может принимать и бесконечное, хотя и счетное количество значений.
Непрерывной случайной величиной называется такая величина, которая может принимать любые значения из некоторого конечного или бесконечного промежутка. Очевидно, что количество возможных значений непрерывной случайной величины бесконечно.

Вероятностное пространство - понятие, введенное А.Н. Колмогоровым в 30-х годах XX века для формализации понятия вероятности, которое дало начало бурному развитию теории вероятностей как строгой математической дисциплине.

Вероятностное пространство - это тройка (иногда обрамляемая угловыми скобками: , где

Это произвольное множество, элементы которого называются элементарными событиями, исходами или точками;
- сигма-алгебра подмножеств , называемых (случайными) событиями;
- вероятностная мера или вероятность, т.е. сигма-аддитивная конечная мера, такая что .

Теорема Муавра-Лапласа - одна из предельных теорем теории вероятностей, установлена Лапласом в 1812 году. Она утверждает, что число успехов при многократном повторении одного и того же случайного эксперимента с двумя возможными исходами приблизительно имеет нормальное распределение. Она позволяет найти приближенное значение вероятности.

Если при каждом из независимых испытаний вероятность появления некоторого случайного события равна () и - число испытаний, в которых фактически наступает, то вероятность справедливости неравенства близка (при больших ) к значению интеграла Лапласа.

Функция распределения в теории вероятностей - функция, характеризующая распределение случайной величины или случайного вектора; вероятность того, что случайная величина X примет значение, меньшее или равное х, где х - произвольное действительное число. При соблюдении известных условий полностью определяет случайную величину.

Математическое ожидание - среднее значение случайной величины (это распределение вероятностей случайной величины, рассматривается в теории вероятностей). В англоязычной литературе обозначается через , в русской - . В статистике часто используют обозначение .

Пусть задано вероятностное пространство и определенная на нем случайная величина . То есть, по определению, - измеримая функция. Тогда, если существует интеграл Лебега от по пространству , то он называется математическим ожиданием, или средним значением и обозначается .

Дисперсия случайной величины - мера разброса данной случайной величины, т. е. ее отклонения от математического ожидания. Обозначается в русской литературе и в зарубежной. В статистике часто употребляется обозначение или . Квадратный корень из дисперсии называется среднеквадратичным отклонением, стандартным отклонением или стандартным разбросом.

Пусть - случайная величина, определенная на некотором вероятностном пространстве. Тогда

где символ обозначает математическое ожидание.

В теории вероятностей два случайных события называются независимыми , если наступление одного из них не изменяет вероятность наступления другого. Аналогично, две случайные величины называют зависимыми , если значение одной из них влияет на вероятность значений другой.

Простейшая форма закона больших чисел – это теорема Бернулли, утверждающая, что если вероятность события одинакова во всех испытаниях, то с увеличением числа испытаний частота события стремится к вероятности события и перестает быть случайной.

Закон больших чисел в теории вероятностей утверждает, что среднее арифметическое конечной выборки из фиксированного распределения близко к теоретическому среднему математическому ожиданию этого распределения. В зависимости от вида сходимости различают слабый закон больших чисел, когда имеет место сходимость по вероятности, и усиленный закон больших чисел, когда имеет место сходимость почти наверняка.

Общий смысл закона больших чисел - совместное действие большого числа одинаковых и независимых случайных факторов приводит к результату, в пределе не зависящему от случая.

На этом свойстве основаны методы оценки вероятности на основе анализа конечной выборки. Наглядным примером является прогноз результатов выборов на основе опроса выборки избирателей.

Центральные предельные теоремы - класс теорем в теории вероятностей, утверждающих, что сумма достаточно большого количества слабо зависимых случайных величин, имеющих примерно одинаковые масштабы (ни одно из слагаемых не доминирует, не вносит в сумму определяющего вклада), имеет распределение, близкое к нормальному.

Так как многие случайные величины в приложениях формируются под влиянием нескольких слабо зависимых случайных факторов, их распределение считают нормальным. При этом должно соблюдаться условие, что ни один из факторов не является доминирующим. Центральные предельные теоремы в этих случаях обосновывают применение нормального распределения.