Видеолекция. Основные понятия математической статистики

Просмотреть

   

  

Переходим ко второй части нашего модуля, а именно к разделу Математическая статистика. Этот раздел будет состоять из двух частей: из основной части (основы математической статистики) и вариативной части, которая будет посвящена проверке статистических гипотез.

Сегодня рассмотрим основные понятия математической статистики. Математическая статистика как наука изучает закономерности массовых статистических явлений, и объектом статистического исследования является статистическая совокупность.

Статистическая совокупность – это множество объектов, однородных относительно некоторого признака. При этом каждый объект называется единицей статистической совокупности, у объекта может быть несколько признаков. При этом некоторые признаки могут быть общими для всех объектов совокупности, а некоторые – индивидуальными. Цель математической статистики – проанализировать все эти признаки или часть из них, которые наиболее интересны исследователю, на наличие закономерности, на вариацию и так далее.

В качестве примеров статистических совокупностей можно привести – множество жителей российской федерации, множество растений семейства крестоцветных, множество деталей, изготовленных на некотором станке, а также множество книг. Мы видим, что множество совокупностей говорит нам о том, что математическая статистика может быть использована во многих отраслях науки. Таким образом, это очень широкая прикладная наука.

Когда мы исследуем статистическую совокупность, мы проводим три этапа. Первый этап – это статистическое наблюдение, которое состоит в том, что данные собираются и некоторым образом фиксируются, то есть у некоторого набора единиц   совокупности фиксируются признаки. Второй этап – это сводка и группировка результатов наблюдений. Он состоит в том, что данные сводятся в некоторые таблицы, группируются по выбранным признакам и подсчитываются первичные итоги. Например, среднее значение. И последний этап (именно этим этапом в первую очередь занимается математическая статистика) – это анализ полученных показателей. Мы кратко рассмотрим первые два этапа и большую часть времени уделим последнему третьему этапу.

Первый этап – это выборочный метод. Почему он так называется? Давайте поймем, что статистическое наблюдение – это исследование единиц статистической совокупности. Оно может быть двух видов: сплошное наблюдение, когда исследуется все единицы генеральной совокупности. Например, мы хотим найти средний рост студентов группы  прикладной математики 2 курса, там, допустим, учиться 25 человек. Тогда мы можем измерить рост у всех 25 человек и подсчитать среднее. В этом случае мы можем провести сплошное наблюдение.

Если же мы хотим найти средний рост всех жителей Российской Федерации, то данная задача получится гораздо сложнее, так как слишком много единиц в совокупности. Каждую единицу нужно обследовать какое-то время, за какие-то деньги, то есть если много единиц, то будет потрачено много времени и много денег, что очень плохо.

Другой момент, который может мешать провести сплошное исследование, это дорогостоящие исследования одной единицы. Например, изучение автомобиля. Каждый автомобиль стоит дорого, то есть на его изучение требуются деньги. Чем меньше, тем лучше.

Третий момент, краш-тесты автомобилей связаны с тем, что автомобиль после них не пригоден к использованию. Поэтому если мы проведем сплошное исследование автомобилей, то использовать дальше их не сможем. Поэтому проводятся выборочные исследования (или не сплошные), когда исследуется не вся совокупность, а только ее часть.

Вся исследуемая совокупность называется генеральной, а та часть, которую мы будем исследовать (то есть та часть, у которой будут регистрироваться значения признаков) называется выборочный. При этом размер совокупности называется объемом совокупности. Объем генеральной совокупности обычно обозначается N, а объем выборочной совокупности (или выборки) обычно обозначается n.

Также важен способ подбора выборочной совокупности. Считается, что выборочная совокупность – хорошая (или репрезентативная), когда отбор производится абсолютно случайно, то есть любая единица имеет одинаковую вероятность попасть в эту совокупность. Репрезентативность – это представительность. При этом отбор может производиться двумя случайными способами. Мы можем взять некоторый объект, изучить его совокупности, отпустить с миром. И дальше из всей генеральной совокупности мы можем снова выбирать объект. Это означает, что данный объект может ещё раз попасть в выборочную совокупность. Такой отбор называется повторным. Если же мы изучили объект и отложили его в сторонку, а дальше уже выбираем из генеральной совокупности без этого объекта, то такой отбор называется бесповторным. Проще исследуется повторный отбор, но при этом в реальных исследованиях чаще всего проводится именно бесповторный отбор. При большом объеме выборки границы между повторным и бесповторным отборами практически стираются. Поэтому математическая статистика обычно исследует именно большие выборки.

Не всегда случайный отбор удобен и возможен. Кроме него существуют также механический отбор или простой отбор с помощью регулярных процедур, когда объекты всей совокупности упорядочиваются и выбираются через равные промежутки. Неудобства такого отбора может заключаться в том, что при неудачном упорядочивании и при неудачном шаге отбора выборка может получиться не репрезентативной, не представительной.

Пример привести достаточно легко. Пусть у нас есть многоэтажный многоквартирный дом, и изучается, например, один подъезд, а именно количество детей в одной квартире. При этом если мы возьмем стандартные дома, то на одном этаже присутствует 4 квартиры: однокомнатная, двухкомнатная, трехкомнатная, четырехкомнатная. Если брать шаг в четыре квартиры, то есть брать каждую четвертую квартиру, то мы всегда будем попадать либо на однокомнатную, например, либо на четырехкомнатную. В случае выбора все время однокомнатной квартиры результаты будут занижены. Если мы постоянно будем выбирать четырехкомнатную квартиру, то результаты окажутся завышенными. Таким образом, выборка будет не репрезентативной. То есть в случае простого регулярного отбора с одной стороны мы получаем удобства, с другой стороны нужно всегда думать о репрезентативности выборки.

Третий способ: это стратифицированный отбор. Данный отбор применяется тогда, когда генеральная совокупность изначально разбита на большие типические группы. Например, мы изучаем жителей Кировской области. Кировская область разбита на районы, поэтому здесь удобно проводить стратифицированные отборы, Этот отбор также называется типическим или районированным. В этом случае отбираются единицы из каждого района, каждой страты. При этом количество единиц из района выбраны пропорционально размеру этого района.

И последний способ отбора – это серийный отбор. Серийный отбор проводится тогда, когда у нас генеральная совокупность разбита на множество мелких одинаковых групп. В этом случае проводится случайный отбор серий или маленьких групп, а уже внутри группы проводится сплошной отбор. Например, у вас есть грузовик, в котором имеются ящики с тушенкой. Вы отбираете несколько случайных ящиков, а уже банки с тушенкой внутри ящика исследуете сплошным отбором. Данные, полученные в результате статистического наблюдения, группируются в статистические ряды. При этом перед группировкой необходимо выбрать некоторый признак для группировки.

Какие же бывают признаки? Во-первых, это могут быть атрибутивные признаки (или качественные признаки), признаки, которые в количественных единицах не выражаются. Либо это могут быть количественные признаки, то есть признаки выраженные числами. В свою очередь атрибутивные признаки делятся на порядковые, то есть признаки, которые в явном виде числами не выражаются, но которое можно упорядочить, то есть ранжировать. Вторая группа – это номинативные признаки, которые упорядочить невозможно. Примеры данных признаков приведены на слайде. Количественные признаки в свою очередь делятся на дискретные и непрерывные. Это нам уже более-менее понятно. Когда количество значений конечно или счетно, мы получим дискретный признак. Когда количество возможных значений признака непрерывно, мы получим непрерывный признак.

Статистические ряды в зависимости от выбора группировочного признака также делятся на атрибутивные и вариационные. Атрибутивный ряд группируется по атрибутивному признаку, вариационный – по количественному. Математическая статистика в первую очередь изучает вариационные ряды.

Вариационный ряд, как и атрибутивный, состоит из двух строк. В первой строке указываются варианты, это конкретное значение признака, а во второй – их частоты, это количество раз, которое данные варианта встретилась в выборочной совокупности. Достаточно часто вместо частот рассматриваются относительные частоты или частности. Это частоты, выраженные в долях единиц или в процентах, то есть второй ряд нормируется таким образом, чтобы сумма всех значения в нем была равна единице. Мы видим, что статистический ряд – это аналог ряда распределения.

Примеры приведены на слайде. Пример дискретного ряда: число детей в семье может быть 1, 2 или 3. И интервальный ряд – приведены интервалы, то есть имеется достаточно большая вариация признака. Интервальный ряд применяется не только, когда признак непрерывный, но и в случае, если вариация признака велика, то есть значений признака много и в дискретный ряд его группировать неудобно.

Статистические ряды удобно изображать на графиках. Существует два основных способа: это полигон и гистограмма.

Полигон изображается следующим образом: варианты откладываются по оси абсцисс, на оси ординат откладываются частоты или относительные частоты. Точка – это соответствующее значение пары – (вариант, чистота). Эти частоты соединяются отрезками, крайние точки соединяются с осью абсцисс, получается некоторый многоугольник (полигон).

Гистограмма же строится по-другому. Появляются интервалы, эти интервалы откладываются на оси абсцисс. Дискретный ряд, в принципе, тоже можно гистограммой определить. Высота столбика – это частота или относительная частота. Если рассматривать гистограмму относительных частот, то сумма площадей всех столбиков будет равна единице, а, значит, если мы нормируем на размер промежутка высоту столбиков, то сумма всех значений будет равна единице, а, значит, гистограмма будет оценкой плотности и вероятности.

Также часто нам хочется понять, каким образом распределён признак. Для этого мы можем оценить функцию распределения. Для оценки функции распределения рассматривается эмпирическая функция распределения, которая вычисляется по формуле, приведенной на слайде, где под знаком суммы стоят индикаторы признаков в каждом опыте.

Рассмотрим пример. Пусть исследуется рост учащихся в некоторой студенческой группе, при этом по результатам двадцати пяти измерений построена таблица. Требуется построить эмпирическую функцию распределения.

Для начала мы должны упорядочить эти значения, далее сгруппировать и построить график, где на оси абсцисс отложить значения, на оси ординат накопленные частоты. Для первого значения – частота - единица, для второго - двойка и так далее. Потом каждое значение делим на их общее количество. Если у нас какое-то значение встречается несколько раз, то, соответственно, там будет больший скачок. Обратите внимание, что на функции распределения график поднялся довольно сильно. В Еxcel это делается при помощи оси дат. При выводе данного графика у оси абсцисс устанавливается тип «ось дат», и получается эмпирическая функция распределения.

Последнее изменение: Четверг, 4 февраля 2021, 08:31