Математическая статистика

ИДА Кривой Рог IBM

Частное Учебное Заведение

Институт Делового Администрирования

Private Educational Institution

Institute of Business Managment

Кафедра информационных систем

высшей математики

Математическая cтатистика

?????

????????Конспект лекций??

для специальностей УА, ФК 1995

??1997??

Введение в курс

Основные определения

Несмотря на многообразие используемых в литературе определений термина
“статистика”, суть большинства из них сводится к тому, что статистикой
чаще всего называют науку, изучающую методы сбора и обработки фактов и
данных в области человеческой деятельности и природных явлений.

В нашем курсе, который можно считать введением в курс “Экономическая
статистика”, речь будет идти о так называемой прикладной статистике, (
т.е. только о сущности специальных методов сбора, обработки и анализа
информации и, кроме того, о практических приемах выполнения связанных с
этим расчетов.

Великому американскому сатирику О’Генри принадлежит ироническое
определение статистики: “Есть три вида лжи ( просто ложь, ложь злостная
и …статистика!”. Попробуем разобраться в причинах, побудивших написать
эти слова.

Практически всему живому на земле присуще воспринимать окружающую среду
как непрерывную последовательность фактов, событий. Этим же свойством
обладают и люди, с той лишь разницей, что только им дано анализировать
поступающую информацию и (хотя и не всем из них это удается) делать
выводы из такого анализа и учитывать их в своей сознательной
деятельности. Поэтому можно смело утверждать, что во все времена, все
люди занимались и занимаются статистическими “исследованиями”, даже не
зная иногда такого слова ( “статистика”.

Все наши наблюдения над окружающем нас миром можно условно разделить на
два класса:

( наблюдения за фактами ( событиями, которые могут произойти или не
произойти;

( наблюдения за физическими величинами, значения которых в момент
наблюдения могут быть различными.

И атеист и верующий в бога человек, скорее всего, согласятся с несколько
необычным заявлением ( в окружающем нас мире происходят только случайные
события, а наблюдаемые нами значения всех показателей внешней среды
являются случайными величинами (далее везде – СВ) . Более того, далее
будет показано, что иногда можно использовать только одно понятие (
случайное событие.

Не задерживаясь на раскрытии философской сущности термина “случайность”
(вполне достаточно обычное, житейское представление), обратимся к
чрезвычайно важному понятию ( вероятность. Этот термин обычно используют
по отношению к событию и определяют числом (от 0 до 1), выражающим
степень нашей уверенности в том, что данное событие произойдет. События
с вероятностью 0 называют невозможными, а события с вероятностью 1 (
достоверными (хотя это уже – неслучайные, детерминированные события).

Иногда в прикладной статистике приходится иметь дело с так называемыми
редкими (маловероятными) событиями. К ним принято относить события,
значение вероятности которых не превышает определенного уровня, чаще
всего – 0.05 или 5 %.

В тех случаях, когда профессионалу(статистику приходится иметь дело со
случайными величинами, последние часто делят на две разновидности:

( дискретные СВ, которые могут принимать только конкретные, заранее
оговоренные значения (например, ( значения чисел на верхней грани
брошенной игральной кости или порядковые значения текущего месяца);

( непрерывные СВ (чаще всего ( значения некоторых физических величин:
веса, расстояния, температуры и т.п.), которые по законам природы могут
принимать любые значения, хотя бы и в некотором интервале.

Вероятности случайных событий

Итак, основным “показателем” любого события (факта) А является численная
величина его вероятности P(A), которая может принимать значения в
диапазоне [0…1] ( в зависимости от того, насколько это событие случайно.
Такое, смысловое, определение вероятности не дает, однако, возможности
указать путь для вычисления ее значения.

Поэтому необходимо иметь и другое, отвечающее требованиям практической
работы, определение термина “вероятность”. Это определение можно дать на
основании житейского опыта и обычного здравого смысла.

Если мы интересуемся событием A, то, скорее всего, можем наблюдать,
фиксировать факты его появления. Потребность в понятии вероятности и ее
вычисления возникнет, очевидно, только тогда, когда мы наблюдаем это
событие не каждый раз, либо осознаем, что оно может произойти, а может
не произойти. И в том и другом случае полезно использовать понятие
частоты появления события fA ( как отношения числа случаев его появления
(благоприятных исходов или частостей) к общему числу наблюдений.

произошло 14 раз, то мы можем с куда большей уверенностью полагать его
вероятность равной 14 % .

Таким образом, мы (конечно же, ( не первые) сформулировали второе
определение понятия вероятности события ( как предела, к которому
стремится частота наблюдения за событием при непрерывном увеличении
числа наблюдений. Теория вероятностей, специальный раздел математики,
доказывает существование такого предела и сходимость частоты к
вероятности при стремлении числа наблюдений к бесконечности. Это
положение носит название центральной предельной теоремы или закона
больших чисел.

Итак, первый ответ на вопрос ( как найти вероятность события, у нас уже
есть. Надо проводить эксперимент и устанавливать частоту наблюдений,
которая тем точнее даст нам вероятность, чем больше наблюдений мы
имеем.

Ну, а как быть, если эксперимент невозможен (дорог, опасен или меняет
суть процессов, которые нас интересуют)? Иными словами, нет ли другого
пути вычисления вероятности событий, без проведения экспериментов?

Такой путь есть, хотя, как ни парадоксально, он все равно основан на
опыте, опыте жизни, опыте логических рассуждений. Вряд ли кто либо будет
производить эксперименты, подбрасывая несколько сотен или тысячу раз
симметричную монетку, чтобы выяснить вероятность появления герба при
одном бросании! Вы будете совершенно правы, если без эксперимента
найдете вероятность выпадения цифры 6 на симметричной игральной кости и
т.д., и т.п.

величину вероятности того, что событие A не произойдет. Тогда из
определения вероятности через частоту наступления события следует,
что

= 1,
{1–1}

что полезно читать так ( вероятность того, что событие произойдет или
не произойдет, равна 100 %, поскольку третьего варианта попросту нет.

Подобные логические рассуждения приведут нас к более общей формуле (
сложения вероятностей. Пусть некоторое случайное событие может произойти
только в одном из 5 вариантов, т.е. пусть имеется система из трех
несовместимых событий A, B и C .

Тогда очевидно, что:

P(A) + P(B) + P(C) = 1;
{1–2} и столь же простые рассуждения приведут к выражению
для вероятности наступления одного из двух несовместимых событий
(например, A или B):

P(A(B) = P(A) + P(B);
{1–3} или одного из трех:

P(A(B(C) = P(A) + P(B) + P(C);
{1-4} и так далее.

Рассмотрим чуть более сложный пример. Пусть нам надо найти вероятность
события C, заключающегося в том, что при подбрасывании двух разных монет
мы получим герб на первой (событие A) и на второй (событие B). Здесь
речь идет о совместном наступлении двух независимых событий, т.е. нас
интересует вероятность P(C) = P(A( B).

И здесь метод построения схемы событий оказывается чудесным помощником (
можно достаточно просто доказать, что

P(A(B) =P(A)(P(B).
{1-5} Конечно же, формулы {1-4} и {1-5} годятся для любого
количества событий: лишь бы они были несовместными в первом случае и
независимыми во втором.

Наконец, возникают ситуации, когда случайные события оказываются взаимно
зависимыми. В этих случаях приходится различать условные вероятности:

P(A / B) – вероятность A при условии, что B уже произошло;

) – вероятность A при условии, что B не произошло,

называя P(A) безусловной или полной вероятностью события A .

Выясним вначале связь безусловной вероятности события с условными. Так
как событие A может произойти только в двух, взаимоисключающих
вариантах, то, в соответствии с {1–3} получается, что

). {1–6}

) часто называют апостериорными (“a posteriopri” – после того, как…), а
безусловную вероятность P(A) – априорной (“a priori” – до того, как…).

Очевидно, что если первым считается событие B и оно уже произошло, то
теперь наступление события A уже не зависит от B и поэтому вероятность
того, что произойдут оба события составит

P(A(B) = P(A/B)(P(B).
{1–7} Так как события
взаимозависимы, то можно повторить наши выводы и получить

); {1–8}

а также P(A(B) = P(B/A)(P(A).
{1–9}

Мы доказали так называемую теорему Байеса

P(A/B)(P(B) = P(B/A)(P(B);
{1–10} – весьма важное средство анализа, особенно в области
проверки гипотез и решения вопросов управления на базе методов
прикладной статистики.

Подведем некоторые итоги рассмотрения вопроса о вероятностях случайных
событий. У нас имеются только две возможности узнать что либо о
величине вероятности случайного события A:

( применить метод статистического моделирования ( построить схему
данного случайного события и (если у нас есть основания считать, что мы
правильно ее строим) и найти значение вероятности прямым расчетом;

( применить метод статистического испытания ( наблюдать за появлением
события и затем по частоте его появления оценить вероятность.

На практике приходится использовать оба метода, поскольку очень редко
можно быть абсолютно уверенным в примененной схеме события (недостаток
метода моделирования) и столь же редко частота появления события
достаточно быстро стабилизируется с ростом числа наблюдений (недостаток
метода испытаний).

Распределения вероятностей случайных величин

Шкалирование случайных величин

Как уже отмечалось, дискретной называют величину, которая может
принимать одно из счетного множества так называемых “допустимых”
значений. Примеров дискретных величин, у которых есть некоторая
именованная единица измерения, можно привести достаточно много.

Прежде всего, надо учесть тот факт что все физические величины (вес,
расстояния, площади, объемы и т.д.) теоретически могут принимать
бесчисленное множество значений, но практически ( только те значения,
которые мы можем установить измерительными приборами. А это значит, что
в прикладной статистике вполне допустимо распространить понятие
дискретных СВ на все без исключения численные описания величин, имеющих
единицы измерения.

Вместе с тем надо не забывать, что некоторые СВ просто не имеют
количественного описания, естественных единиц измерения (уровень знаний,
качество продукции и т. п.).

Покажем, что для решения вопроса о “единицах измерения” любых СВ, с
которыми приходится иметь дело в прикладной статистике, достаточно
использовать четыре вида шкал.

( Nom. Первой из них рассмотрим так называемую номинальную шкалу —
применяемую к тем величинам, которые не имеют природной единицы
измерения. В ряде случаев нам приходится считать случайными такие
показатели предметов или явлений окружающего нас мира, как марка
автомобиля; национальность человека или его пол, социальное положение;
цвет некоторого изделия и т.п.

В таких ситуациях можно говорить о случайном событии ( “входящий в
магазин посетитель оказался мужчиной”, но вполне допустимо рассматривать
пол посетителя как дискретную СВ, которая приняла одно из допустимых
значений на своей номинальной шкале.

Итак, если некоторая величина может принимать на своей номинальной
шкале значения X, Y или Z, то допустимыми считаются только выражения
типа: X # Y, X=Z , в то время как выражения типа X ( Z, X + Z не имеют
никакого смысла.

( Ord. Второй способ шкалирования – использование порядковых шкал. Они
незаменимы для СВ, не имеющих природных единиц измерения, но
позволяющих применять понятия предпочтения одного значения другому.
Типичный пример: оценки знаний (даже при числовом описании), служебные
уровни и т. п. Для таких величин разрешены не только отношения
равенства (= или #), но и знаки предпочтения (> или 6) = (1+8) / 256 ( 0.036. Осталось
построить решающее правило – критерий для принятия окончательного
решения в отношении выдвинутых гипотез (основной Њ0 и альтернативной
Њ1).

Заметим, что при выдвинутой нами основной гипотезе Њ0:(p=q)
альтернативную гипотезу можно выдвигать по разному:

Њ1: (p#q) – монета несимметрична, ненаправленная гипотеза, требующая
использования двухсторонних вероятностей;

Њ1: (p6) ( 0.072, т.е. больше порогового значения

Решение: нулевую гипотезу не отвергаем, монетку считаем симметричной.

( Нулевая гипотеза Њ0: (p=q). Альтернативная гипотеза Њ1: (pq) или (p0. Всего вариантов 16, а
вариантов с нулевой или положительной суммой 9. Вероятность ошибки при
отклонении Њ0 оказалась равной 9/16(0.57, что намного больше
контрольных 5 % . Как и следовало ожидать, нам нет смысла отбрасывать
нулевую гипотезу – слишком велика ошибка первого рода.

Все было бы хорошо, но если мы выдвинем другую нулевую гипотезу о
математическом ожидании выручки, например – Њ0: M(G)= 196 гривен, то
после аналогичных расчетов получим результат – и эту гипотезу нет
оснований отбрасывать, правда вероятность ошибки первого рода теперь
будет иной – “всего лишь” 0.125. Столько же составит вероятность этой
ошибки и при Њ0: M(G)= 214. Таким образом, все нулевые гипотезы со
значениями от 196 до 214 можно не отвергать (не достигнуто пороговое
значение 0.05). Можно ли рекомендовать принятие альтернативной гипотезы
и, если – да, то при каком значении гипотетического математического
ожидания?

Теория прикладной статистики отвечает на этот вопрос однозначно – нет,
рекомендовать нам это она не вправе!

Вспомним “неудобное” свойство статистических выводов или рекомендаций –
они никогда не бывают однозначными, конкретными. Поэтому наивно ожидать
решения задачи об оценке математического ожидания по данным наблюдений в
виде одного, конкретного числа.

Еще раз продумаем, чего мы добиваемся, меняя значение в нулевой
гипотезе? Ведь самая большая ошибка первого рода была как раз тогда,
когда мы выдвинули такое понятное предположение – математическое
ожидание равно среднему.

Более того, проверка нулевой гипотезы такого вида была совершенно
бессмысленным делом. Практически всегда в этих случаях альтернативная
гипотеза окажется самой вероятной, но практически никогда вероятность
ее истинности не достигнет желанных 95 %.

Всё дело в том, что просчитать последствия своего решения мы умеем
только отвергая нулевую гипотезу, но, принимая ее, последствия
просчитать не можем.

Вот если бы, передвигая воображаемый указатель по шкале СВ мы получили
сигнал “СТОП, достаточно! Достигнут уровень ошибки 5 %”, то мы бы
запомнили данное значение как левую (или правую) границу интервала, в
котором почти “наверняка” лежит искомое нами математическое ожидание. В
нашем примере этого не произошло и, оказывается и не могло произойти.

Дело в том, что у нас всего 4 наблюдения (196,208,210,214) со средним
значением 207 и среднеквадратичным отклонением около 13.5 гривен (т.е.
более 6 % от среднего). И получить значимые статистические выводы в этом
случае просто невозможно – надо увеличить объем выборки, число
наблюдений.

А вот на вопрос – а сколько же надо наблюдений, каково их достаточное
число, прикладная статистика имеет ответ: для “преодоления 5 % барьера”
достаточно 5 наблюдений.

Попробуем решить другую задачу об оценке математического ожидания СВ на
интервальной шкале, но будем решать её не “по чувству”, а “по разуму”.

( Наблюдения над случайной величиной X: 19,17,15,13,12,11,10,8,7.

( Количество наблюдений: 9, возможных исходов 512.

( Њ0: M(X)= 9, Њ1: M(X)# 9.

Найдем сумму отклонений от гипотетического среднего, S = 31.

Из 512 возможных вариантов суммы отклонений выберем только те, в которых
эта сумма составляет 31 и более. Таких вариантов всего 11, значит при
принятии нулевой гипотезы Њ0: M(X)= 9 вероятность наблюдать такие суммы
P(S (31) составляет 11/512 ( 0.02 , что меньше порогового значения в 5 %
.

Вывод: гипотезу Њ0 следует отвергнуть и считать приемлемым по
надежности неравенство M(X) # 9.

До сих пор мы выдвигали гипотезу о значении математического ожидания на
“левом крае” распределения наблюдений и могли бы повторять проверки,
задаваясь значениями M(X) в 10, 11 и т.д., до тех пор, пока вероятность
ошибки первого рода не достигла бы порогового значения.

Можно также исследовать правый край распределения – проверять гипотезы
при больших значениях математического ожидания.

Например:

( Наблюдения над случайной величиной X: 19,17,15,13,12,11,10,8,7.

( Количество наблюдений: 9, возможных исходов 512.

( Њ0: M(X)= 17, Њ1: M(X)# 17.

Теперь сумма отклонений от гипотетического среднего окажется S = – 41.

Из 512 возможных вариантов суммы отклонений выберем только те, в которых
эта сумма составляет –41 и менее. Таких вариантов всего 3, значит при
принятии нулевой гипотезы Њ0: M(X)= 17 вероятность наблюдать такие суммы
составляет P(S ( – 31) = 3/512 ( 0.006 , что намного меньше порогового
значения в 5 % . Следовательно, можно попробовать гипотезы с меньшим
M(X), сужая диапазон или так называемый доверительный интервал для
неизвестного нам математического ожидания.

Оценка наблюдений при известном законе распределения

Не всегда закон распределения СВ представляет для нас полную тайну.
В ряде случаев у нас могут быть основания предполагать, что случайные
события, определяющие наблюдаемые нами значения этой величины,
подчиняются определенной вероятностной схеме.

В таких случаях использование методов выдвижения и проверки гипотез даст
нам информацию о параметрах распределения, что может оказаться вполне
достаточно для решения конкретной экономической задачи.

Оценка параметров нормального распределения

Нередки случаи, когда у нас есть некоторые основания считать
интересующую нас СВ распределенной по нормальному закону. Существуют
специальные методы проверки такой гипотезы по данным наблюдений, но мы
ограничимся напоминанием природы этого распределения – наличия влияния
на значение данной величины достаточно большого количества случайных
факторов.

Напомним себе также, что у нормального распределения всего два параметра
– математическое ожидание ( и среднеквадратичное отклонение (.

Пусть мы произвели 40 наблюдений над такой случайной величиной X и эти
наблюдения представили в виде:

Таблица 5-2

Xi 85 105 125 145 165 185 205 225 Всего

ni 4 3 3 2 4 7 12 5 =SIGN(LEFT) 40

f i 0.100 0.075 0.075 0.050 0.100 0.175 0.300 0.125 1

Если мы усредним значения наблюдений, то формула расчета выборочного
среднего

( Xi ( ni =( Xi ( fi
{5–1} будет отличаться от выражения для
математического ожидания ( только использованием частот вместо
вероятностей.

В нашем примере выборочное среднее значение составит Mx = 171.5 , но из
этого пока еще нельзя сделать заключение о равенстве ( = 171.5.

( Во-первых, Mx – это непрерывная СВ, следовательно, вероятность ее
точного равенства чему-нибудь вообще равна нулю.

( Во-вторых, нас настораживает отсутствие ряда значений X.

( В-третьих, частоты наблюдений стремятся к вероятностям при бесконечно
большом числе наблюдений, а у нас их только 40. Не мало ли?

Если мы усредним теперь значения квадратов отклонений наблюдений от
выборочного среднего, то формула расчета выборочной дисперсии

( (Xi – Mx)2 ( ni =( (Xi)2 ( fi – (Mx)2
{5–2} также не будет отличаться от формулы, определяющей дисперсию (2 .

В нашем примере выборочное значение среднеквадратичного отклонения
составит Sx= 45.5 , но это совсем не означает, что ( =45.5.

И всё же – как оценить оба параметра распределения или хотя бы один из
них по данным наблюдений, т.е. по уже найденным Mx и Sx?

Прикладная статистика дает следующие рекомендации:

( значение дисперсии (2 считается неизвестным и решается первый вопрос
– достаточно ли число наблюдений N для того, чтобы использовать вместо
величины ( ее выборочное значение Sx;

( если это так, то решается второй вопрос – как построить нулевую
гипотезу о величине математического ожидания ( и как ее проверить.

Предположим вначале, что значение ( каким–то способом найдено. Тогда
формулируется простая нулевая гипотеза Њ0: (=Mx и осуществляется её
проверка с помощью следующего критерия. Вычисляется вспомогательная
функция (Z–критерий)

,
{5-3} значение и знак которой зависят от выбранного нами
предполагаемого (.

Доказано, что значение Z является СВ с математическим ожиданием 0 ,
дисперсией 1 и имеет нормальное распределение.

Теперь важно правильно построить альтернативную гипотезу Њ1. Здесь чаще
всего применяется два подхода.

Выбор одного из них зависит от того – большое или малое (по модулю)
значение Z у нас получилось. Иными словами – как далеко от расчетного Mx
мы выбрали гипотетическое (..

( При малых отличиях между Mx и ( разумно строить гипотезы в виде

Њ0: (= Mx;

Њ1: неизвестное нам значение ( лежит в пределах

(Z 2k {5–4}

Критическое (соответствующее уровню значимости в 5%) значение критерия
составляет при этом = 1.96 (двухсторонний критерий). Если оказывается,
что выборочное значение критерия (Z( 100…120) различие между z– и t–критериями несущественно. Значения
критерия Стьюдента для (=0.05 при разных количествах наблюдений
составляют:

Таблица 5–3

m 1 2 3 4 5 6 7 8 9 10 20 30 40 120

t 12.7 4.30 3.18 2.78 2.57 2.45 2.36 2.31 2.26 2.23 2.09 2.04 2.02 1.98

Оценка параметров дискретных распределений

В ряде случаев работы с некоторой дискретной СВ нам удается построить
вероятностную схему событий, приводящих к изменению значений данной
величины. Иными словами – закон распределения нам известен, но
неизвестны его параметры. И наша задача – научиться оценивать эти
параметры по данным наблюдений.

Начнем с наиболее простого случая. Пусть у нас есть основания считать,
что случайная величина X может принимать целочисленные значения на
интервале [0…k…n] с вероятностями

(1– p)n-k,

т.е. распределена по биномиальному закону. Так вот, – единственный
параметр p этого распределения нас как раз и интересует.

Примером подобной задачи является чисто практический вопрос о контроле
качества товара.

Пусть мы решили оценить качество одной игральной кости из партии,
закупленной для казино. Проведя n=200 бросаний мы обнаружили появлений
цифры 6 в X = 25 случаях.

Выдвинем нулевую гипотезу Њ0: кость симметрична, то есть p= 1/6.

Вроде бы по наблюдениям частота выпадения цифры 6, составившая 25/200 не
совпадает с гипотетическим значением вероятности 1/6. Но это чисто
умозрительное, дилетантское заключение.

Теория прикладной статистики рекомендует вычислить значение непрерывной
СВ

,
{5–7} т.е. использовать z–критерий (см. {5–3}).

В нашем примере наблюдаемое значение Z составит около –1.58.
Следовательно, при пороговой вероятности в 5% условие (Z(50

При достаточно больших выборках можно поступать и иначе. В качестве
правила проверки гипотез используют так называемый критерий “хи–квадрат”

. {6–1}

Эта непрерывная случайная величина была предложена видным статистиком
Р.Фишером для проверки гипотез о соответствии выборочного распределения
некоторому заданному закону. Для этого используются экспериментальные
частости NE и вычисленные в соответствии Њ0 “теоретические” NH .
Разумеется, суммирование ведется по всем допустимым значениям СВ. В
нашем примере у нее всего лишь два значения (изделие годно или
бракованное), поэтому в числителе надо иметь т.н. поправку на
непрерывность. Она корректирует влияние природы распределений:
дискретное у наблюдаемой величины и непрерывное у критерия Фишера.

Изменим условия предыдущего примера – пусть N= 100, число бракованных
изделий составило NE–=12. Нетрудно определить NE+=88, но что касается
“гипотетических” частостей NH– и NH+, то эти величины зависят от
того, как мы сформулируем гипотезы. Если их оставить без изменения, то
эти частости составят NH+ = 90 и NH– = 10. Вычисление выборочного
значения (2–критерия не вызывает проблем, важнее знать – как
использовать результат расчета. В нашем примере расчетное значение
критерия составит 0.25. Кроме конкретного значения критерия надо учесть
так называемое число степеней свободы. В нашем случае это 1, а в общем
случае надо уменьшить число допустимых значений n на единицу. Ну, а
далее требуется взять стандартные статистические таблицы, учесть
пороговое значение ошибки первого рода – и получить ответ. Для примера
приведем часть такой таблицы при (=0.05

Таблица 6–1

Степеней свободы 1 2 3 4 5 6 7 8 9

Критическое (2 3.84 5.99 7.82 9.49 11.1 12.6 14.1 15.5 16.9

Если наблюдаемое значение (2 меньше критического, гипотеза Њ0 может быть
принята.

В условиях нашего примера расчетное значение критерия (2 составляет
всего лишь 0.25, что меньше критического 3.48 (для одной степени
свободы) и отвергать гипотезу Њ0 (браковать всю партию) нет
оснований. Но, если бы мы наблюдали не 12, а 17 случаев брака, то
расчетное значение критерия составило бы около 4.62 и гипотезу Њ0
пришлось бы отвергнуть.

Случай многозначной случайной величины

Существует достаточно обширный класс задач со случайными величинами,
распределенными на номинальной шкале с тремя и более допустимыми
значениями.

В таких задачах обычно используется все тот же критерий (2 с числом
степеней свободы более одной. По сути дела, используют почти ту же
формулу –

, {6–2} в которой
просто не используется поправка на непрерывность.

Так, например, наблюдая численности покупок четырех категорий
некоторого товара, мы могли зафиксировать следующие данные:

Таблица 6–1

Товары A B C D Всего

Число покупок 30 55 27 48 =SIGN(LEFT) 160

Выдвинем гипотезы:

Њ0: Все товары одинаково популярны или РА=РB=РC=РD=0.25

Њ1: Популярности товаров значимо различны.

Несложный расчет дает расчетную величину критерия около 14, т.е.
ощутимо больше критического значения 7.8 для 3–х степеней свободы по
табл. 6–1. Это дает нам основание отвергнуть гипотезу о равной
популярности этих видов товара.

Выборочные распределения на шкале Ord

Случайные величины с порядковой шкалой измерения – это дискретные, для
всех допустимых значений которых, кроме отношений“=” или “#”, разрешены
отношения “”. Классическим примером порядковых величин
являются оценки знаний, успеваемости, приоритета. Для таких СВ, как и
для номинальных, не имеют смысла понятия моментов распределений.

Продемонстрируем ряд задач, возникающих при оперировании такими
величинами и рассмотрим специальные методы непараметрической статистики
в применении к этим задачам.

Следует различать ситуации, связанные с величинами на порядковой шкале:

( случайная величина имеет всего два допустимых значения (одно из них
больше, предпочтительнее второго);

( случайная величина имеет более двух допустимых значений.

В первом случае мы имеем по сути дела двух позиционную номинальную шкалу
и все сказанное выше о распределениях на шкале Nom вполне приемлемо для
решения задач на такой шкале Rel. К примеру – задачи о проверке
симметрии монеты или о допустимом количестве бракованных изделий вполне
могут рассматриваться с использование порядковой шкалы, если считать
герб “старше” решки, бракованное изделие “хуже” исправного.

Второй тип СВ предполагает наличие нескольких фиксированных значений,
упорядоченных по некоторому признаку, свойству или нашему предпочтению.
В этих случаях говорят, что случайная величина (например – оценка
знаний, сорт товара) может быть величиной “первого ранга”, “второго
ранга” и т.д.

В принципе корректная постановка задач о распределении СВ на порядковых
(ранговых) шкалах ничем не отличается от рассмотренных ранее методов
статистики для интервальных, относительных и номинальных шкал.

Пусть мы наблюдали, зафиксировали оценки знаний 100 обучаемых по четырех
ранговой шкале (“отлично”, “хорошо”, “удовлетворительно” и “плохо”)

Таблица 7–1

Оценка знаний Отл. Хор. Удовл. Плохо Всего

Ранг оценки по смыслу 1 2 3 4

Количество наблюдений 25 45 20 10 =SIGN(LEFT) 100

Ранг по итогам наблюдений 2 1 3 4

Как обычно, далее приходится строить гипотезы и подбирать критерии для
их проверки. При выдвижении нулевой гипотезы надо, прежде всего, помнить
о необходимости с её помощью рассчитать распределение СВ – в нашем
случае это означает расчет количества оценок в условиях истинности Њ0.

Конечно, без “технологических” представлений о природе СВ выдвижение и
проверка гипотез (а затем использование статистических выводов) – пустая
трата времени.

Пусть мы осознаем зависимость оценки знаний от предварительной
подготовки обучаемых (она может быть одинакова у всех или значимо
отличаться), от эффективности системы обучения и, наконец, от способа
проверки знаний. Тогда результаты наблюдений могут оказаться полезными
при решении задач управления обучением и, по крайней мере, контроля
процесса обучения.

Если у нас есть основания считать предварительную подготовку обучаемых
одинакового уровня для всех и способ проверки знаний достаточно
объективным, то тогда можно выдвинуть нулевую гипотезу Њ0: система
обучения эффективна. Конечно, мы не можем теоретически предсказать
количество оценок каждого из рангов. Но этого и не нужно – оценки не
числа, и частота наблюдения оценки “отлично” не может быть умножена на
значение этой оценки. Другое дело, если мы договоримся считать систему
обучения эффективной только в том случае, если она по отношению к
одинаково подготовленным обучаемым дает большие числа более высоких
оценок.

Тогда, в соответствии с Њ0 ранги 2–й строки табл.7–1 могут
рассматриваться как гипотетические, а ранги 4-й строки – как выборочные,
наблюдаемые. Осталось установить – какой же критерий принять для
проверки нашей гипотезы. Один из часто используемых в подобных задачах
критериев носит название коэффициента ранговой корреляции Спирмэна

,
{7–1}

в котором di – разности гипотетических и наблюдаемых рангов; n – число
рангов.

Величина коэффициента ранговой корреляции имеет непрерывное
распределение на интервале [–1…+1] с математическим ожиданием 0 – если,
конечно, гипотеза Њ0 верна. Поэтому значение вычисленного Rs можно
использовать в качестве критерия проверки гипотез. В нашем примере сумма
квадратов разностей рангов равна S=2 и для n=4 коэффициент Спирмэна по
итогам наблюдений составит Rs = 0.8. Обратимся теперь к статистическим
таблицам и рассмотрим ту, которая рассчитана для числа рангов n=4.

Таблица 7–2

Наблюдаемое значение суммы S 2 4 6 8 10

Вероятность S при ошибочности Њ0 0.042 0.167 0.208 0.375 0.458

Для нашего примера предположение о полной эффективности системы обучения
вполне обосновано.

Мы ознакомились только с одним из существующих методов статистического
анализа СВ со шкалой Ord. Существуют и другие, обоснованные и
апробированные методы (коэффициент ранговой корреляции Кэндалла).
Отличие между ними только в способе расчета критерия принятия или
отбрасывания нулевой гипотезы.Вместе с тем мы не затронули вопроса о
проблемах, возникающих при наличии нескольких величин с ранговой шкалой
измерения. Эти проблемы связаны с множественной ранговой корреляцией или
конкордацией (согласованностью рангов).

Пусть у нас имеются ранжировки m=4 экспертов по отношению к n=6
факторам, которые определяют эффективность некоторой экономической
системы:

Эксперты / Факторы F1 F2 F3 F4 F5 F6 (

A 5 4 1 6 3 2 =SIGN(LEFT) 21

B 2 3 1 5 6 4 =SIGN(ABOVE) 21

C 4 1 6 3 2 5 21

D 4 3 2 5 1 6 21

Сумма рангов =SIGN(ABOVE) 15 =SIGN(ABOVE) 11 =SIGN(ABOVE)
10 =SIGN(ABOVE) 19 =SIGN(ABOVE) 12 =SIGN(ABOVE) 17
=SIGN(LEFT) 84

Суммарный ранг 4 2 1 6 3 5

Отклонение суммы рангов от 84/6 =14 +1 -3 -4 +5 -2 +3

Квадраты этих отклонений 1 9 16 25 4 9 =SIGN(LEFT) 64

Заметим, что полная сумма рангов составляет 84, что дает в среднем по
14 на фактор. Для общего случая n факторов и m экспертов среднее
значение суммы рангов для любого фактора определится выражением

0.5(m((n+1)
{7–2}

Теперь можно оценить степень согласованности мнений экспертов по
отношению к шести факторам. Для каждого из факторов наблюдается
отклонение суммы рангов, указанных экспертами, от среднего значения
такой суммы.

Поскольку сумма этих отклонений всегда равна нулю, для их усреднения
разумно использовать квадраты значений. В нашем случае сумма таких
квадратов составит S= 64, а в общем случае эта сумма будет наибольшей
только при полном совпадении мнений всех экспертов по отношению ко всем
факторам:

m2 ( (n3– n) / 12
{7 –3} что в нашем примере дает 280.

М. Кэндаллом предложен показатель согласованности или коэффициент
конкордации, определяемый как

W = S / Smax
{7–4} принимающий, в отличие от обычных (парных)
коэффициентов ранговой корреляции, значения от 1 (при наибольшей
согласованности) до 0.

В нашем примере значение коэффициента конкордации составляет около 0.23
и явно недостаточно для принятия гипотезы о согласованности мнений
экспертов.

Существуют специальные таблицы, позволяющие отыскивать значения сумм S,
настолько близких к Smax , что вероятность ошибки при принятии гипотезы
о полной согласованности мнений экспертов не превосходит 5%. Вот одна
из таких таблиц с критическими (достаточными) значениями сумм квадратов
отклонений рангов S для n=3…7 факторов при m= 3…15 экспертов.

m \ n 3 4 5 6 7

3 – – 64 104 157

4 – 50 88 143 217

5 – 63 112 182 276

6 – 76 136 221 335

8 48 102 184 299 453

10 60 128 231 377 571

15 90 193 350 571 865

Для нашего примера указанная вероятность соответствует сумме квадратов
отклонений S= 143, что намного больше наблюдаемой суммы 64. Поэтому
гипотезу о согласованности мнений экспертов придется отбросить.

Материал семинарских занятий

Введение в комбинаторику

При изучении курса математической статистики приходится использовать
методы одного из разделов математики, который хотя формально и не
относится к высшей, вузовской математике, но, к сожалению, не изучается
в средней школе.

Этот раздел – комбинаторика, “наука о способах подсчета вариантов”. Эта
наука имеет тот же, примерно 300 летний возраст, что и сама статистика.
Комбинаторика – сверстница теории вероятностей, теоретического
фундамента прикладной статистики. Как и в древней, в современной
статистике невозможно обойтись без навыков просчитывать в уме или, по
крайней мере, быстро, по простым формулам, варианты событий, размещений
предметов, значений величин и т.п.

Замечание о расчетах в уме сделано не случайно. Знание основ
комбинаторики позволит хотя бы оценивать числа вариантов и соотношения
между ними также “профессионально” как и делаете это вы, оценивая
возраст встреченного человека.

В этом плане комбинаторику можно называть “логикой вариантов” и это
будет вполне резонно – в этой науке больше чистой логики, чем
математики.

Для демонстрации необходимости знаний комбинаторики и в качестве первой
практической задачи рассмотрим несколько простых, практических
вопросов.

( Вам, очевидно, известно, что внутренний, “машинный” язык компьютера
люди построили по образу и подобия человеческого языка: буквы, слова,
предложения.

Обстоятельства надежности записи и чтения на этом языке привели к
решению сделать компьютерный язык предельно бедным. В нем всего две
буквы (“0” и “1”, “+ ” и “–”, “да” и “нет”, – в зависимости от
физического процесса записи), всегда 8 букв в слове, отсутствует пробел
между словами (это была бы третья буква).

И вот возникает вопрос – а сколько вариантов у машинного слова, т.е. у
одного байта? Еще проще – если одним байтом записывать числа, то сколько
положительных целых чисел можно охватить 1 байтом? В поисках ответа
можно терпеливо выписывать все возможные варианты слов из 8 нулей и
единиц: 00000000, 00000001, 00000010 и т.д. до 11111111. Но ведь это
долго и надо быть уверенным, что ничего не пропустили!

Так вот – законы комбинаторики позволяют мгновенно решить эту задачу и
получить ответ – вариантов записи байта ровно 256.

Это чисто практический вопрос – ведь компьютер с возможностью считать в
целых числах от –128 до 127 никто не купит.

Ну, если целые числа хранить в 2-х машинных словах, в 2-х байтах или в
16 “разрядах”.? Уж это новое число вариантов никто не согласится
вычислять простым перебором! А ответ комбинаторики все тот же прост – в
этом случае есть возможность работать с целыми числами от –32768 до
32767.

Оказывается, что эти числа не надо запоминать, поскольку алгоритм их
расчетов очень прост и посилен человеку, осилившему только арифметику.

( Рассмотрим второй пример решения практического вопроса с
использованием правил комбинаторики. Пусть решается вопрос об
установлении проводной связи между 25 предприятиями фирмы по следующему
принципу – каждое предприятие должно иметь отдельный канал связи со
всеми остальными. Сколько таких каналов придется установить в фирме?

Для решения вопроса можно нарисовать выпуклый 25–угольник и провести в
нем все диагонали, пересчитав в конце их число и не забыв добавить число
сторон. Человек, знающий комбинаторику, во-первых, не сделает ошибки
–25(24=600 каналов. Во-вторых, он мгновенно укажет верный ответ – всего
требуется 300 каналов. Комментарии излишни…

Для освоения наиболее популярных применений комбинаторики нам
потребуется использовать, по крайней мере, два ее основных понятия –
перестановки и сочетания.

Перестановками называют операции над упорядоченным рядом из n различных
объектов, в процессе которых “списочный состав” ряда не изменяется, но
“места” объектов в этом ряду изменяются от варианта к варианту. Не
будем тратить время на обоснование расчетной формулы для произвольного
n, а попробуем найти число перестановок в ряду из 1, 2 и 3 предметов.

Воспользуемся для этого простенькой схемой:

n=1 A
1 вариант.

n=2 AB BA
1(2= 2 варианта.

n=3 ABC ACB BCA BAC CAB CBA 1(2(3= 6
вариантов.

Можно доказать строго, что в общем случае число перестановок в ряду из n
элементов составит

{8–1}

Сочетаниями называют операции над множеством из n различных объектов,
в процессе которых образуют подмножества из k элементов, взятых из
исходного множества, так, чтобы варианты подмножеств отличались друг от
друга хотя бы одним элементом.

Опустим доказательство формулы для расчета числа сочетаний из n по k в
общем виде и приведем лишь примеры для числа сочетаний из 3 по 2 и из 5
по 3.

( Элементы исходного множества A, B, C.

Варианты подмножеств: AB, AC, BC – всего три.

( Элементы исходного множества A, B, C, D, E.

Варианты подмножеств: ABC, ABD, ABE, ACD, ACE, ADE, BCD, BCE, BDE, CDE
– всего десять.

В общем случае число вариантов сочетаний или просто – число сочетаний из
n по k определяется по формуле

{8–2}

Существует еще один способ вычисления числа сочетаний из n по k – с
использованием коэффициентов в развернутой форме бинома (p+q)n. В самом
деле, например, при n=3 коэффициенты при степенях разложения составляют
1, 3, 3, 1 – а это и есть сочетания из 3 по 0, 1, 2, 3 и 4 элементов.

Известна также схема простого расчета биномиальных коэффициентов,
которая носит названия треугольника Паскаля:

Для n

Первый элемент любого основания равен 1, второй – номеру основания, а
все последующие – сумме двух “вышестоящих”.

Методы вычисления моментов распределений

При вычислении моментов распределения случайных величин полезно
использовать некоторые удобные (как для прямого расчета, так и для
составления компьютерных программ) выражения.

( Пусть требуется просуммировать ряд чисел T1, T2, ……Tk, …Tm и мы
замечаем, что они отличаются друг от друга на одну и ту же величину d,
т.е. образуют арифметическую прогрессию. В этом случае полезна замена –

{8–3}

Таким образом, среднее значение для ряда таких чисел составит:

.
{8–4}

( Для вычисления суммы чисел натурального ряда или суммы квадратов этих
чисел удобны формулы:

. {8–5}

( Если некоторая случайная величина Y может быть выражена через другую
в виде

Y= a(X+b, то справедливы соотношения:

M(Y) = a(M(X)+b; D(Y) = a2 ( D(X).
{8–6}

( Если некоторая случайная величина X имеет математическое ожидание
M(X) и среднеквадратичное отклонение S(X) , то “нормированная” случайная
величина:

{8–7} имеет нулевое математическое ожидание и
единичную дисперсию.

Алгоритмы простейших статистических расчетов

Несмотря на относительную простоту, статистические расчеты требуют
значительных затрат времени, повышенного внимания и, связанного с этим
риска ошибок. Кроме того, в большинстве случаев практики после расчетов
выборочных значений и выдвижения гипотез почти всегда приходится
обращаться к статистическим таблицам, т.е. к данным классических
распределений.

Большую часть этих трудностей можно преодолеть – путем использования
специальных статистических программ (или целого набора – пакета
прикладных программ).

На сегодня программное обеспечение статистических расчетов выполнено,
как правило, на уровне глобальных задач прикладной статистики,
системного анализа и т.п. Надежных, простых в употреблении компьютерных
программ практически нет – считается, что писать и распространять такие
программы не престижно! С другой стороны, потребители таких программ –
профессиональные статистики не испытывают затруднений в самостоятельном
написании удобных (для себя) программ и даже пакетов. То, что есть – не
хорошо и не плохо, просто это традиция и нарушать ее нет желания ни у
фирм, производящих программы, ни у потенциальных пользователей.

Поэтому имеет смысл затратить некоторое время на анализ определенных
трудностей, которые наверняка будут проявляться при программировании
типовых статистических расчетов.

Оказывается, что здесь программиста поджидают “подводные камни”, тупики
и прочие неприятности, связанные не только с реальными возможностями
компьютера, но и с самими формулами статистики, особенностями этой
науки.

Вычисление моментов выборочных распределений

Пусть у нас имеется массив выборочных значений случайной величины и
соответствующие частости (числа наблюдений) этих значений, то есть
матрица из двух столбцов и m строк.

Обозначим такой массив W и рассмотрим вопрос о вводе исходных данных.
Конечно же, мы быстро сообразим, что ввод надо организовать для пар
значений Xi, ni – только в этом варианте можно снизить вероятность
ошибок.

Вопрос об общем количестве наблюдений можно не ставить в начале диалога
– освободить пользователя от необходимости вычислять N = n1 + n2 + … +
nm. Организовать сигнал конца ввода не представляет проблем – скажем,
ввести отрицательное число наблюдений на очередном шаге.

Как организовать подготовку данных для расчета выборочных моментов –
например, выборочного среднего Mx и выборочной дисперсии Dx?

Среди многих вариантов наилучшим будет, пожалуй, следующий.

Приготовить три контрольных величины M1, M2 и NN, предварительно
присвоив им нулевые значения до начала ввода, что на языке Pascal будет
выглядеть так –

Var NN, I, X, Y: Integer;

W: Array [1…2,1…m] of Integer;

M1, M2, D, S, V: Real;

M1:=0; M2:=0; NN:=0; I:= 0;

Теперь можно организовать суммирование поступающих с клавиатуры (или
прямо из уже готового массива, записанного где–то на диске) выборочных
данных Xi и ni.

Пусть у нас такой массив уже есть, тогда с каждой очередной парой чисел
следует поступить так

Repeat

I:=I + 1; X:=W[I,1]; Y:=W[I,2];

NN:=NN+Y;

M1:=(M1+X(Y); M2:=M2+Sqr(X) (Y

Until I 0;

Полезно также знать, что при достаточно больших N вычисление факториала
можно производить по формуле Стирлинга , однако приведенный алгоритм
намного проще алгоритма использования этой формулы.

Моделирование законов распределения

Практика прикладной статистики невозможна без использования данных о
классических, стандартных законах распределения. Чтобы избежать
непосредственного использования статистических таблиц при выполнения
расчетов – особенно в части проверки гипотез, можно поступить двояко.

( Ввести содержание таблиц в память компьютера (непосредственно в
рабочую программу или в виде отдельного файла – приложения к этой
программе). Но этого мало. Надо научить компьютер “водить пальцем по
таблице”, т.е. запрограммировать иногда не совсем элементарный алгоритм
пользования таблицей. Работа эта хоть и занудная, но зато не требующая
никаких знаний, кроме умения программировать решение корректно
поставленных задач – описания пользования таблицами составлены четко и
алгоритмично.

( Можно поступить более рационально. Поскольку речь идет о классических
распределениях дискретных или непрерывных случайных величин, то в нашем
распоряжении всегда имеются формулы вычисления вероятности (или
интеграла вероятности). Бытует мнение, что программирование расчетов по
формулам является чуть ли не самым низким уровнем искусства
программирования. На самом же деле это не совсем так, а при
программировании законов распределения вероятностей – совсем не так!

Без понимания природы процесса, который порождает данную случайную
величину, без знания основ теории вероятностей и математической
статистики нечего и пытаться строить такие программы. Но если всё это
есть, то можно строить компьютерные программы с такими возможностями
статистического анализа, о которых не могли и мечтать отцы–основатели
прикладной статистики. Покажем это на нескольких простых примерах.

Нам уже известно, что выдвижение в качестве нулевой гипотезы о
некотором стандартном законе распределения связано только с одним
обстоятельством – мы можем предсказывать итоги наблюдения в условиях её
справедливости. Но это предсказание невозможно без использования
конкретных значений параметра (или нескольких параметров) закона. Во
всех “до–компьютерных” руководствах по прикладной статистике рано или
поздно приходится читать – “а теперь возьмем таблицу … и найдем для
наших условий …”. Хочется проверить ту же гипотезу при другом значении
параметра? Нет проблем! Повтори все расчеты при этом новом значении и
снова работай с таблицей.

Иными словами, в “до–компьютерную” эпоху вопрос – а что вообще можно
получить из данного наблюдения (или серии наблюдений), какова
максимальная информация о случайной величине заключена в этих
наблюдениях, – не ставился.

Причина этого очевидна – сложность и большие затраты времени на расчеты.
Но дело еще и в том, что неопределенность статистических выводов
приводила к тупиковой ситуации, когда затраты на проведение сложных,
требующих особого внимания и безупречной логики расчетов, могли
оказаться куда больше возможного экономического выигрыша при внедрении
результатов.

Поэтому сегодня, отдав должное изобретательности творцов прикладной
статистики, следует ориентировать практику статистических расчетов
исключительно на применение компьютерных программ.

Это могут быть, условно говоря, “параметрические” программы,
ориентированные на тот или иной тип распределения. Их назначение – найти
по данным имеющихся наблюдений статистическую значимость гипотез о
параметрах таких распределений или, наоборот, по заданным пользователем
параметрам рассчитать вероятности всех (!) заданных им ситуаций.

Вполне реально создание и использование “непараметрических” программ –
способных анализировать входные данные наблюдений и проверять гипотезы о
принадлежности случайной величины к любому из “известных этой программе”
закону распределения.

Наконец, использование компьютерной техники современного уровня
позволяет решать за вполне приемлемое время и небольшую цену еще один
вид задач – статистического моделирования. Сущность этого термина
раскрывается в специальной области кибернетики – системном анализе, но
кратко может быть раскрыта следующим образом.

Пусть некоторая случайная величина Z является, по нашим представлениям,
функцией двух других случайных величин – X и Y. При этом оказывается,
что X зависит от двух также случайных величин A и B, а Y зависит от
трех случайных событий C, D и E.

Так вот, в этом “простом” случае мы знаем или предполагаем, что знаем
вероятности всех событий и законы распределения всех случайных величин,
кроме “выходной” величины Z.

Для простоты будем считать функциональные зависимости также известными
(например, – вытекающими из некоторых законов природы):

;

A = 1, 2 , … 16 и распределена по биномиальному закону с параметром p=
0.42;

B – распределена по нормальному закону с (=12 и ( =2;

Y = 42, если произошло событие C, а события D и E не произошли;

Y = 177, если произошли события D и E, независимо от того, произошло ли
C;

Y = –15 во всех остальных случаях.

Ясно, что попытка строить для этого примера–шутки логическую схему, по
которой можно было бы вычислять возможные значения Z и соответствующие
этим значениям вероятности, обречена на провал – слишком сложными и не
поддающимися аналитическому описанию окажутся наши выкладки.

Однако же, при наличии знаний хотя бы основных положений прикладной
статистики и умении программировать, вполне оправданно потратить
некоторое время на создание программы и ее обкатку, проверку по правилам
статистики.

Далее можно будет “проигрывать” все возможные ситуации и буквально через
секунды получать “распределение случайной величины Z” в любом виде
(кроме, разумеется, формульного).

Итак, надо уметь программировать операции, дающие случайную величину с
заранее оговоренным законом распределения. Большинство языков
программирования высокого уровня имеют встроенные подпрограммы
(процедуры или функции в языке Pascal), обеспечивающие генерацию
случайной величины R, равномерно распределенной в диапазоне 0…1. Будем
полагать, что в нашем распоряжении имеется такой “датчик случайных
чисел”.

Покажем, как превратить такую величину R в дискретную с биномиальным
законом распределения. Пусть нам нужна случайная величина K, с
целочисленными значениями от 0 до N при значении заданном значении
параметра p. Один из вариантов алгоритма такой генерации мог бы
выглядеть так.

Var X, P: Real;

I, K, N: Integer;

K:=0;

For I:=1 to N Do

Begin

X:= R;

If X>(1– p)

Then K:=K+1

End;

После очередного цикла генерации мы получаем случайную величину K,
распределенную по биномиальному закону настолько надежно, насколько
удачной является функция генерации числа R. Во избежание сомнений стоит
потратить время на обкатку такого алгоритма – повторив цикл 100 или 1000
раз и проверив надежность генерации по данным “наблюдений” с помощью
теоретических значений математического ожидания N(p и дисперсии
N(p((1–p).

Несколько более сложно генерировать непрерывные случайные величины, в
частности для популярных распределений – нормального, “хи–квадрат”,
Стьюдента и т.п.

Дело здесь в том, что непрерывная случайная величина имеет бесконечное
число допустимых значений, даже если интервал этих значений ограничен.

Но, вместе с тем, для конкретного закона распределения непрерывной
случайной величины известна плотность вероятности – предел, к которому
стремится вероятность попадания такой величины в заданный интервал при
сужении интервала до нуля.

Покажем эти трудности и пути их преодоления на примере нормального
распределения. Пусть нам требуется генерировать нормированную случайную
величину Z с нормальным законом распределения.

Для такой величины ( =0, ( =1, а попадание ее значений в диапазон
более 3 или менее –3 практически невероятно (около 0.0027).

Разобьем диапазон –3…+3 на 2N+1 интервалов, шириной 2d каждый. При
достаточно малом d= 3 / N, вероятность попадания Z в любой из них
вычисляется легко:

P(–d

Оглавление TOC \o "1-3" 1. Введение в курс GOTOBUTTON _Toc388744745 PAGEREF _Toc388744745 1—2 1.1 Основные определения GOTOBUTTON _Toc388744758 PAGEREF _Toc388744758 1—2 1.2 Вероятности случайных событий GOTOBUTTON _Toc388744759 PAGEREF _Toc388744759 1—3 2. Распределения вероятностей случайных величин GOTOBUTTON _Toc388744760 PAGEREF _Toc388744760 2—5 2.1 Шкалирование случайных величин GOTOBUTTON _Toc388744761 PAGEREF _Toc388744761 2—5 2.2 Законы распределений дискретных случайных величин. GOTOBUTTON _Toc388744762 PAGEREF _Toc388744762 2—6 2.3 Односторонние и двухсторонние значения вероятностей GOTOBUTTON _Toc388744763 PAGEREF _Toc388744763 2—9 2.4 Моменты распределений дискретных случайных величин. GOTOBUTTON _Toc388744764 PAGEREF _Toc388744764 2—9 2.5 Распределения непрерывных случайных величин GOTOBUTTON _Toc388744765 PAGEREF _Toc388744765 2—13 2.5.1 Нормальное распределение GOTOBUTTON _Toc388744766 PAGEREF _Toc388744766 2—14 2.5.2 Распределения выборочных значений параметров нормального распределения GOTOBUTTON _Toc388744767 PAGEREF _Toc388744767 2—16 3. Взаимосвязи случайных величин GOTOBUTTON _Toc388744768 PAGEREF _Toc388744768 3—16 3.1 Парная корреляция GOTOBUTTON _Toc388744769 PAGEREF _Toc388744769 3—16 3.2 Множественная корреляция GOTOBUTTON _Toc388744770 PAGEREF _Toc388744770 3—17 4. Проверка статистических гипотез GOTOBUTTON _Toc388744771 PAGEREF _Toc388744771 4—18 4.1 Понятие статистической гипотезы GOTOBUTTON _Toc388744772 PAGEREF _Toc388744772 4—18 4.2 Критерии статистических гипотез GOTOBUTTON _Toc388744773 PAGEREF _Toc388744773 4—19 4.3 Ошибки при проверке статистических гипотез GOTOBUTTON _Toc388744774 PAGEREF _Toc388744774 4—20 5. Выборочные распределения на шкалах Int и Rel GOTOBUTTON _Toc388744775 PAGEREF _Toc388744775 5—21 5.1 Оценка наблюдений при неизвестном законе распределения GOTOBUTTON _Toc388744776 PAGEREF _Toc388744776 5—22 5.2 Оценка наблюдений при известном законе распределения GOTOBUTTON _Toc388744777 PAGEREF _Toc388744777 5—24 5.2.1 Оценка параметров нормального распределения GOTOBUTTON _Toc388744778 PAGEREF _Toc388744778 5—24 5.2.2 Оценка параметров дискретных распределений GOTOBUTTON _Toc388744779 PAGEREF _Toc388744779 5—27 6. Выборочные распределения на шкале Nom GOTOBUTTON _Toc388744780 PAGEREF _Toc388744780 6—28 6.1 Случай двухзначной случайной величины, N50 GOTOBUTTON
_Toc388744782 PAGEREF _Toc388744782 6—29

6.3 Случай многозначной случайной величины GOTOBUTTON _Toc388744783
PAGEREF _Toc388744783 6—30

7. Выборочные распределения на шкале Ord GOTOBUTTON _Toc388744784
PAGEREF _Toc388744784 7—31

8. Материал семинарских занятий GOTOBUTTON _Toc388744785 PAGEREF
_Toc388744785 8—34

8.1 Введение в комбинаторику GOTOBUTTON _Toc388744786 PAGEREF
_Toc388744786 8—34

8.2 Методы вычисления моментов распределений GOTOBUTTON _Toc388744787
PAGEREF _Toc388744787 8—36

8.3 Алгоритмы простейших статистических расчетов GOTOBUTTON
_Toc388744788 PAGEREF _Toc388744788 8—36

8.3.1 Вычисление моментов выборочных распределений GOTOBUTTON
_Toc388744789 PAGEREF _Toc388744789 8—37

8.3.2 Проблема переполнения GOTOBUTTON _Toc388744790 PAGEREF
_Toc388744790 8—37

8.3.3 Моделирование законов распределения GOTOBUTTON _Toc388744791
PAGEREF _Toc388744791 8—38

9. Литература GOTOBUTTON _Toc388744792 PAGEREF _Toc388744792 9—42

PAGE

PAGE 1—2

( (X)

99.73 %

( – 3( ( (+3(

Рис.4–1

Њ0:

Неверна

Верна

Принята

Отброшена

Нет ошибки

Ошибка

2 рода

Ошибка

1 рода

Њ0: дневная выручка имеет некоторый закон распределения

с математическим ожиданием в M(G)=207 гривен.

E ?

?0: J

Нашли опечатку? Выделите и нажмите CTRL+Enter