Видеолекция. Статистические оценки параметров генеральной совокупности.

Просмотреть

 

Статистические оценки параметров генеральной совокупности. Довольно часто нам известен заранее тип распределения признаков, но нам не известно, какими параметрами этот тип обладает. То есть у нас, может быть, он имеет какие-то разные математические ожидания, разную дисперсию и так далее. Задача данного раздела оценить эти параметры.

Задача ставится следующим образом. Пусть у нас есть некоторый набор значений признака. При этом в каждом опыте мы рассмотрим случайную величину Хi, где Хi – это случайная величина, признак в данном опыте, а xi – это его значение в конкретном опыте. То есть по результатам опыта мы получили какое-то значение. Будем предполагать, что все случайные величины независимы, то есть опыты независимые, при этом все случайные величины имеют одинаковое распределение. То есть мы рассматриваем один и тот же признак при неизменных условиях проведения опыта. Тогда статистической оценкой параметра θ будет являться некоторая не случайная функция от случайных величин x1, x2, и так далее xn.

Например, если θ – это математическое ожидание случайной величины, то в качестве возможных оценок можно рассматривать среднее арифметическое значение (это наиболее часто встречающаяся оценка), моду (это наиболее вероятное значение), медиану (это среднее значение, если мы все значения упорядочим, она будет в середине, то есть это не среднее арифметическое, а именно в серединке), а также, например, полусумму максимального и минимального.

Вопрос: как выбрать среди данных оценок самую хорошую? На самом деле четкого ответа на этот вопрос не существует. Но мы рассмотрим некоторые критерии, по которым сравниваются те или иные оценки случайных величин. А также рассмотрим, какими признаками, свойствами может обладать статистическая оценка.

Первое. Несмещенность. Статистическая оценка – несмещенная, если ее значение равно ее математическому ожиданию.

Рассмотрим свойства статистических оценок. Статистическая оценка – несмещенная, если математическое ожидание оценки равно значению признака. В статистике стараются рассматривать именно несмещённые оценки, но не всегда это возможно. В некоторых случаях несмещенных оценок попросту нет, тогда рассматриваются асимптотически несмещенные оценки, то есть для каждого конкретного объема выборки несмещённой оценки нет, но в пределе эта оценка будет несмещенной. То есть в пределе математическое ожидание будет стремиться именно к значению признака.

Рассмотрим пример. Х с чертой – это среднее арифметическое значений признака выборки или выборочное среднее. Данная оценка является несмещенной для математического ожидания. Докажем это.

Пусть математическое ожидание Х с чертой – это математическое ожидание вот такого среднего арифметического. По свойствам математического ожидания константу n можно вынести за пределы, а математическое ожидание суммы равно сумме математических ожиданий. В итоге получим равенство, указанное внизу слайда.

Далее вспоминаем, что все xi одинаково распределены, соответственно, их математическое ожидание равно а, то есть оно равно генеральному математическому ожиданию. А, значит, мы получаем коэффициент 1/n, n – это количество, и каждое значение равно а. n сокращается, получаем, что математическое ожидание данной оценки равно а. То есть средняя выборочная несмещенная оценка математического ожидания.

Проверим, является ли выборочная дисперсия несмещенной оценкой генеральной дисперсии s-квадрат. Что такое генеральная дисперсия? У нас величина xi – имеет математическое ожидание а, как в предыдущем примере, и дисперсию s-квадрат. Будем пользоваться этим при вычислениях. Докажем. Математическое ожидание s2 (мы будем обозначать выборочную дисперсию – s2 , соответственно, выборочное среднее, квадратическое отклонение буквой s) равно… Заменим... Далее по свойствам математического ожидания 1/n можно вынести за скобку, а в скобках распишем xi минус x чертой, как xi минус а, минус (x с чертой минус а). То есть добавим и вычтем генеральное среднее. Далее нужно раскрыть скобки, преобразовать, воспользоваться свойствами математического ожидания. В итоге у вас должно получиться, что математическое ожидание s2 не равно генеральной дисперсии. Оно равно (n – 1) / n s-квадрат. Таким образом, выборочная дисперсия является смещенной оценкой генеральной дисперсии.

Для того, чтобы получить несмещённую оценку, нужно исправить дисперсию, то есть умножить ее на коэффициент n/(n-1). На слайде приведены выборочная дисперсия и исправленное выборочное. Исправленную дисперсию будем обозначать символом s02.

Второе свойство. Оценка называется состоятельной, если она ее значение по вероятности сходится к значению искомого признака. Формула приведена на слайде. Состоятельность оценок доказывать неудобно. Иногда можно воспользоваться законами больших чисел. Иногда для доказательства состоятельности использует утверждение, приведенное на слайде. То есть, если дисперсия ограничена, при этом стремится к нулю, то, если оценка является несмещенной, то также она будет состоятельной. Заметим, что оценки Х с чертой s02 состоятельные. Для s02 доказывать не будем. Оставлю это вам на самостоятельную работу. Здесь достаточно сложные выкладки. Сейчас докажем, что среднее выборочное является состоятельной оценкой генерального среднего. X с чертой, мы знаем, что это несмещенная оценка. Поэтому можем воспользоваться утверждением. Для этого найдем дисперсию выборочного среднего. По свойствам дисперсии коэффициент можно выносить с квадратом, а дисперсия суммы равна сумме дисперсий. Таким образом, мы получим следующее выражение. Мы получим, что дисперсия выборочного среднего равна s-квадрат на n. Так как s-квадрат – значение постоянное, а n стремится к бесконечности, то это отношение стремится к нулю. Таким образом, дисперсия ограничена. Так как оценка несмещенная, это по утверждению, она также является состоятельной.

Третье свойство. Эффективность. Несмещенная оценка является эффективной (вот здесь очень важно, что эффективность рассматривается только для оценок с одинаковым смещением, мы рассмотрим только для несмещенных оценок), если ее дисперсия минимальная среди всех изучаемых не смещенных оценок. То есть мы рассматриваем класс оценок, имеющих одинаковое смещение (в нашем случае 0) и среди них выбираем эффективной ту, у которой дисперсия самая маленькая. Например, для математического ожидания случайной величины этой оценкой будет среднее арифметическое. Но на практике могут использоваться и неэффективные оценки. Например, у медианы эффективность стремится к 2/π, но при этом она используется на практике в силу меньшего количества вычислений.

У каждой оценки рассматривают эффективность. Как раз это отношение дисперсии эффективной оценки к дисперсии текущей оценки (вот на слайде это приведено для медианы).

Не всегда точечных оценок бывает достаточно. Например, мы получили, что оценка математического ожидания равно 135,5. Вопрос: оправдано ли, что вот это математическое ожидание равно именно этому значению? Ну, конечно, нет.

Другой момент. Мы даже не можем сказать, что существует какой-то интервал, в который это значение обязательно попадёт со стопроцентной уверенностью. Мы лишь можем сказать, что с некоторой уверенностью γ, эта величина называется доверительной вероятностью, значение оценки попадет в некоторый интервал. И так говорить не совсем корректно. Правильней сказать: интервал накроет истинное значение. Ведь оно уже есть, оно конкретно, а интервал у нас случайный, потому что точечная оценка – это случайная величина. Соответственно, ее границы также будут случайными. Еще γ называют надежностью оценки. Часто на практике берут достаточно большие значения γ – 0,95, 0,99 и более. То есть меньше 0,95 обычно не рассматриваются. Иногда 0,9, но это очень редкая ситуация.

Соответственно, интервал (θn*-e, θn*+e) будет называться доверительным. Не всегда доверительный интервал симметричен относительно точечной оценки. Иногда рассматривают симметричные по вероятности доверительные интервалы. Когда мы рассматриваем, что вот у нас γ должна попасть в интервал, значит 1/γ – вне интервала, и по 1- γ должно быть с обеих сторон. Если мы знаем распределение оценки, то мы можем это найти. В общем-то, это требуется для того, чтобы построить доверительный интервал. Узнать распределение оценки – это самый сложный момент при построении интервальных оценок. Узнать распределения признака и, соответственно, распределение его оценки не всегда возможно.

Поэтому мы рассмотрим только самый простой случай. Пусть у нас признак имеет нормальное распределение. Тогда его оценки (параметры) – это математическое ожидание и дисперсия – также имеют нормальное распределение при большом объеме выборки.

Рассмотрим самый простой пример. Пусть признак имеет нормальное распределение. Его параметрами будут его математическое ожидание и σ-квадрат. Так как нормальное распределение наиболее часто встречается, то для его параметров получены достаточно хорошие оценки.

Первым примером мы рассмотрим математическое ожидание. Дисперсия у вас будет рассмотрена в самостоятельной работе в справочнике.

Нам требуется построить доверительный интервал для математического ожидания. Если мы рассмотрим величину (Х с чертой – а)*√n/s0, то можно заметить, что данная величина имеет распределение Стьюдента с (n-1) степенью свободы. Почему Стьюдента? Это распределение, которое близко к нормальному. Вообще говоря, при большом количестве испытаний оно сходится к нормальному. О его свойствах можете почитать в справочнике. Там есть таблица. Либо почитать дополнительную литературу. Оно часто используется в математической статистике. Мы еще с вами к нему вернемся. У нас n испытаний, но за счет того, что у нас дисперсия нормированная, одна степень свободы связана, поэтому S(n-1). Доверительный интервал математического ожидания будет выглядеть следующим образом (см. на слайде), где величины t – это квантили распределения Стьюдента. Квантили данного распределения табулированы, при этом их можно как вычислить и в специализированных таблицах, так и посчитать в пакете Мicrosoft Еxcel, который будет рассмотрен на лабораторной работе.


Статистические оценки параметров генеральной совокупности. Довольно часто нам известен заранее тип распределения признаков, но нам не известно, какими параметрами этот тип обладает. То есть у нас, может быть, он имеет какие-то разные математические ожидания, разную дисперсию и так далее. Задача данного раздела оценить эти параметры.

Задача ставится следующим образом. Пусть у нас есть некоторый набор значений признака. При этом в каждом опыте мы рассмотрим случайную величину Хi, где Хi – это случайная величина, признак в данном опыте, а xi – это его значение в конкретном опыте. То есть по результатам опыта мы получили какое-то значение. Будем предполагать, что все случайные величины независимы, то есть опыты независимые, при этом все случайные величины имеют одинаковое распределение. То есть мы рассматриваем один и тот же признак при неизменных условиях проведения опыта. Тогда статистической оценкой параметра θ будет являться некоторая не случайная функция от случайных величин x1, x2, и так далее xn.

Например, если θ – это математическое ожидание случайной величины, то в качестве возможных оценок можно рассматривать среднее арифметическое значение (это наиболее часто встречающаяся оценка), моду (это наиболее вероятное значение), медиану (это среднее значение, если мы все значения упорядочим, она будет в середине, то есть это не среднее арифметическое, а именно в серединке), а также, например, полусумму максимального и минимального.

Вопрос: как выбрать среди данных оценок самую хорошую? На самом деле четкого ответа на этот вопрос не существует. Но мы рассмотрим некоторые критерии, по которым сравниваются те или иные оценки случайных величин. А также рассмотрим, какими признаками, свойствами может обладать статистическая оценка.

Первое. Несмещенность. Статистическая оценка – несмещенная, если ее значение равно ее математическому ожиданию.

Рассмотрим свойства статистических оценок. Статистическая оценка – несмещенная, если математическое ожидание оценки равно значению признака. В статистике стараются рассматривать именно несмещённые оценки, но не всегда это возможно. В некоторых случаях несмещенных оценок попросту нет, тогда рассматриваются асимптотически несмещенные оценки, то есть для каждого конкретного объема выборки несмещённой оценки нет, но в пределе эта оценка будет несмещенной. То есть в пределе математическое ожидание будет стремиться именно к значению признака.

Рассмотрим пример. Х с чертой – это среднее арифметическое значений признака выборки или выборочное среднее. Данная оценка является несмещенной для математического ожидания. Докажем это.

Пусть математическое ожидание Х с чертой – это математическое ожидание вот такого среднего арифметического. По свойствам математического ожидания константу n можно вынести за пределы, а математическое ожидание суммы равно сумме математических ожиданий. В итоге получим равенство, указанное внизу слайда.

Далее вспоминаем, что все xi одинаково распределены, соответственно, их математическое ожидание равно а, то есть оно равно генеральному математическому ожиданию. А, значит, мы получаем коэффициент 1/n, n – это количество, и каждое значение равно а. n сокращается, получаем, что математическое ожидание данной оценки равно а. То есть это средняя выборочная несмещенная оценка математического ожидания.

Проверим, является ли выборочная дисперсия несмещенной оценкой генеральной дисперсии сигма-квадрат. Что такое генеральная дисперсия? У нас величина xi – имеет математическое ожидание а, как в предыдущем примере, и дисперсию сигма-квадрат. Будем пользоваться этим при вычислениях. Докажем. Математическое ожидание s2 (мы будем обозначать выборочную дисперсию – s2 , соответственно, выборочное среднее, квадратическое отклонение буквой s) равно… Заменим... Далее по свойствам математического ожидания 1/n можно вынести за скобку, а в скобках распишем xi минус x чертой, как xi минус а, минус (x с чертой минус а). То есть добавим и вычтем генеральное среднее. Далее нужно раскрыть скобки, преобразовать, воспользоваться свойствами математического ожидания. В итоге у вас должно получиться, что математическое ожидание s2 не равно генеральной дисперсии. Оно равно (n – 1) / n σ-квадрат. Таким образом, выборочная дисперсия является смещенной оценкой генеральной дисперсии.

Для того, чтобы получить несмещённую оценку, нужно исправить дисперсию, то есть умножить ее на коэффициент n/(n-1). На слайде приведены выборочная дисперсия и исправленное выборочное. Исправленную дисперсию будем обозначать символом s02.

Второе свойство. Оценка называется состоятельной, если она ее значение по вероятности сходится к значению искомого признака. Формула приведена на слайде. Состоятельность оценок доказывать неудобно. Иногда можно воспользоваться законами больших чисел. Иногда для доказательства состоятельности использует утверждение, приведенное на слайде. То есть, если дисперсия ограничена, при этом стремится к нулю, то, если оценка является несмещенной, то также она будет состоятельной. Заметим, что оценки Х с чертой s02 состоятельные. Для s02 доказывать не будем. Оставлю это вам на самостоятельную работу. Здесь достаточно сложные выкладки. Сейчас докажем, что среднее выборочное является состоятельной оценкой генерального среднего. X с чертой, мы знаем, что это несмещенная оценка. Поэтому можем воспользоваться утверждением. Для этого найдем дисперсию выборочного среднего. По свойствам дисперсии коэффициент можно выносить с квадратом, а дисперсия суммы равна сумме дисперсий. Таким образом, мы получим следующее выражение. Мы получим, что дисперсия выборочного среднего равна σ-квадрат на n. Так как σ-квадрат – значение постоянное, а n стремится к бесконечности, то это отношение стремится к нулю. Таким образом, дисперсия ограничена. Так как оценка несмещенная, это по утверждению, она также является состоятельной.

Третье свойство. Эффективность. Несмещенная оценка является эффективной (вот здесь очень важно, что эффективность рассматривается только для оценок с одинаковым смещением, мы рассмотрим только для несмещенных оценок), если ее дисперсия минимальная среди всех изучаемых не смещенных оценок. То есть мы рассматриваем класс оценок, имеющих одинаковое смещение (в нашем случае 0) и среди них выбираем эффективной ту, у которой дисперсия самая маленькая. Например, для математического ожидания случайной величины этой оценкой будет среднее арифметическое. Но на практике могут использоваться и неэффективные оценки. Например, у медианы эффективность стремится к 2/π, но при этом она используется на практике в силу меньшего количества вычислений.

У каждой оценки рассматривают эффективность. Как раз это отношение дисперсии эффективной оценки к дисперсии текущей оценки (вот на слайде это приведено для медианы).

Не всегда точечных оценок бывает достаточно. Например, мы получили, что оценка математического ожидания равно 135,5. Вопрос: оправдано ли, что вот это математическое ожидание равно именно этому значению? Ну, конечно, нет.

Другой момент. Мы даже не можем сказать, что существует какой-то интервал, в который это значение обязательно попадёт со стопроцентной уверенностью. Мы лишь можем сказать, что с некоторой уверенностью γ, эта величина называется доверительной вероятностью, значение оценки попадет в некоторый интервал. И так говорить не совсем корректно. Правильней сказать: интервал накроет истинное значение. Ведь оно уже есть, оно конкретно, а интервал у нас случайный, потому что точечная оценка – это случайная величина. Соответственно, ее границы также будут случайными. Еще γ называют надежностью оценки. Часто на практике берут достаточно большие значения γ – 0,95, 0,99 и более. То есть меньше 0,95 обычно не рассматриваются. Иногда 0,9, но это очень редкая ситуация.

Соответственно, интервал (θn*-e, θn*+e) будет называться доверительным. Не всегда доверительный интервал симметричен относительно точечной оценки. Иногда рассматривают симметричные по вероятности доверительные интервалы. Когда мы рассматриваем, что вот у нас γ должна попасть в интервал, значит 1/γ – вне интервала, и по 1-γ должно быть с обеих сторон. Если мы знаем распределение оценки, то мы можем это найти. В общем-то, это требуется для того, чтобы построить доверительный интервал. Узнать распределение оценки – это самый сложный момент при построении интервальных оценок. Узнать распределения признака и, соответственно, распределение его оценки не всегда возможно.

Поэтому мы рассмотрим только самый простой случай. Пусть у нас признак имеет нормальное распределение. Тогда его оценки (параметры) – это математическое ожидание и дисперсия – также имеют нормальное распределение при большом объеме выборки.

Рассмотрим самый простой пример. Пусть признак имеет нормальное распределение. Его параметрами будут его математическое ожидание и σ-квадрат. Так как нормальное распределение наиболее часто встречается, то для его параметров получены достаточно хорошие оценки.

Первым примером мы рассмотрим математическое ожидание. Дисперсия у вас будет рассмотрена в самостоятельной работе в справочнике.

Нам требуется построить доверительный интервал для математического ожидания. Если мы рассмотрим величину (Х с чертой – а)*√n/s0, то можно заметить, что данная величина имеет распределение Стьюдента с (n-1) степенью свободы. Почему Стьюдента? Это распределение, которое близко к нормальному. Вообще говоря, при большом количестве испытаний оно сходится к нормальному. О его свойствах можете почитать в справочнике. Там есть таблица. Либо почитать дополнительную литературу. Оно часто используется в математической статистике. Мы еще с вами к нему вернемся. У нас n испытаний, но за счет того, что у нас дисперсия нормированная, одна степень свободы связана, поэтому S(n-1). Доверительный интервал математического ожидания будет выглядеть следующим образом (см. на слайде), где величины t – это квантили распределения Стьюдента. Квантили данного распределения табулированы, при этом их можно как вычислить и в специализированных таблицах, так и посчитать в пакете Мicrosoft Еxcel, который будет рассмотрен на лабораторной работе.

Последнее изменение: Четверг, 4 февраля 2021, 08:30