Видеолекция 2. Система случайных величин (часть 2)

查看

 


Продолжаем разговор о системах случайных величин. На прошлом занятии мы рассмотрели, каким образом можно задать систему двух случайных величин. В конце прошлого занятия мы рассмотрели определение независимых случайных величин. Сегодня разберемся, какие виды связи бывают между случайными величинами, а для этого введем понятие условного закона распределения.

Первое, что мы рассмотрим – это условный ряд распределения. Условным рядом распределения случайной величины при условии, что вторая случайная величина приняла некоторое значение, называется условная вероятность события ξ = xi при условии, что η = yi. Определяется она по формуле условной вероятности. И если посмотреть, то в числителе у нас окажется число pij, а в знаменателе у нас окажется частное распределение величины η, то есть это будет сумма pij по j.

В случае, если система абсолютно непрерывна, можно рассмотреть условную функцию распределения и условную плотность распределения.

Введем сначала условную функцию распределения. Пусть у нас случайная величина η приняла значение y0. Нужно найти распределение случайной величины ξ при условии, что η = y0. Функцию распределения зададим следующим образом. Посмотрим сначала некоторый промежуток, то есть не точку y0, (мы знаем, что есть проблема, когда в конкретную точку попадают), а промежуток от y0 до y0+Δy. Будем Δy уменьшать. Тогда рассмотрим событие, что случайная величина приняла некоторое значение меньше х при условии, что вторая случайная величина попала вот в этот промежуток. Тогда мы можем задать функцию распределения, которая находится под пределом. Дальше устремим Δy к нулю и в пределе получим функцию распределения в точке x при условии, что η = y0. Если такой предел существует, то мы можем говорить о наличии условной функции распределения. Далее если мы эту функцию распределения вычислим, то мы заметим, что она равна интегралу от минус бесконечности до x от совместной плотности распределения, деленному на частную плотность распределения величины η. Продифференцируем обе части по параметру x. Слева будет функция распределения, справа в знаменателе у нас конкретное число, а в числителе – интеграл с верхним переменным пределом. Мы получим значения для плотности распределения условной, которая приведена на слайде (см. на видео). То есть данное равенство позволяет нам легко считать условные плотности распределения.

Важное понятие, которое дальше будет использоваться в математической статистике, это условное математическое ожидание. Условное математическое ожидание – это математическое ожидание величины ξ при условии, что η = y0. Мы заметим, что данное математическое ожидание зависит от того, какое именно значение случайная величина η приняла и будем это обозначать φ(y0), то есть это некоторая функция. Причем это скалярная функция, не случайная. А зависимость среднего значения ξ от значения η мы назовем регрессией ξ на η. Если же рассмотреть математическое ожидание случайной величины η при условии, что величина ξ приняла значение x0 это будет регрессия η на ξ. Здесь путать не надо. График же функции φ(y0) будет называться кривой регрессии. Здесь мы приостановимся и скажем, что если у нас φ является константой, то мы можем говорить, что вне зависимости от того, какое значение приняла η, среднее значение ξ не меняется. Вот такая зависимость называется корреляционной.

На слайде приведены три вида зависимости. Самая жесткая зависимость функциональная, когда по значению одной случайной величины можем получить значение второй случайной величины. Самая мягкая это статистическая, когда независимость отсутствует, то есть значение одной случайной величины влияет на распределение второй случайной величины. И третья зависимость это вот наша вновь рассмотренная корреляционная зависимость. Эта зависимость среднего значения одной случайной величины от значения второй случайной величины.

Для того, чтобы рассмотреть корреляционную зависимость посмотрим ещё несколько определений. Первый параметр – числовая характеристика системы случайных величин – это ковариация. Обозначается cov(ξ, η) и характеризует линейную зависимость двух случайных величин. Ковариация считается, как математическое ожидание произведения двух центрированных случайных величин. Напомню, что случайная величина является центрированной, если из нее вычесть ее математическое ожидание, то есть ее серединка сместится в ноль. Тогда заметим, что основным свойством ковариации является то, что она коммутативна. По определению видно, что не важно, в каком порядке мы рассматриваем случайные величины. И еще одна удобная формула для вычисления ковариации приведена на слайде с выводом. Так же как мы рассматривали для дисперсии более удобную формулу, так и для ковариации существует более удобная формула. Еще раз оговорюсь, что данную формулу имеет смысл использовать лишь при ручных расчетах. То есть если вы считаете на компьютере, то совершенно не нужно вот эту формулу использовать, потому что формула по определению просто считает быстрее, а так как у вас нет проблемы точности вычислений, настолько жестко как руками, сложности вычислений даже я б сказала, то можно посчитать ковариацию по определению.

Свойства ковариации. Какие еще можно рассмотреть? Важно смотреть на знак ковариации. Давайте обратим внимание, что это некоторое математическое ожидание. Если дисперсия – это математическое ожидание квадрата, то математическое ожидание произведения двух разных центрированных случайных величин может оказаться как отрицательным, так и положительным. Таким образом, в зависимости от знака мы говорим о наличии положительной или отрицательной зависимости между случайными величинами. То есть если у меня ковариация положительна, то значит, с увеличением значения одной случайной величины вторая также в среднем увеличивается, и наоборот, если ковариация отрицательна, то с увеличением значений одной случайной величины вторая в среднем уменьшается. Не забываем про слово «в среднем».

Второй момент. Ковариация ограничена сверху корнем из произведения дисперсий. Доказывать мы это не будем. Здесь можно либо аккуратно расписать, либо воспользоваться системами и функциями двух случайных величин, которые в данный курс не вошли. Кому интересно можете заглянуть тему функции двух случайных величин в любом учебнике и посмотреть доказательства данного факта.

Важно, что если случайные величины независимы, то они также будут некоррелированы, то есть если ковариация равна нулю, мы будем говорить, что величины некоррелированы. То есть смотрите, это означает, что из независимости следует некоррелировананость, но не наоборот. Если мы вспомним картинку с видами зависимостей (вернитесь на несколько слайдов назад), то вы увидите, что если точка попала вне статистической зависимости, то она обязательно находится вне корреляционной. Обратное неверно. То есть мы видим на картинке, что у нас есть некоторый набор пар, где статистическая зависимость присутствует, а корреляционной нет. Давайте докажем это. Что вот там действительности не пусто. А для этого просто приведем пример, когда статистическая зависимость имеется, а корреляционной нет. На практике мы посчитаем для данного примера, который приведен слайде частное распределение. Здесь у нас пара случайных величин равномерно распределена в круге радиуса 2. Когда мы говорим, равномерно распределена, мы имеем в виду, что вероятность выпадения каждой точки абсолютно одинакова. Так вот, как и в одномерном случае, в двумерном случае плотность распределения будет константой. При этом так как вероятность попадания точки в какую-нибудь точку этой области будет 1, то есть мы знаем, что условия нормировки работает, и у нас получается площадь под плотностью распределения – это цилиндр, мы знаем, что объем цилиндра это его высота на основание, то чтобы найти высоту – это значение плотности распределения, – достаточно посчитать площадь основания и единицу разделить на площадь основания. То есть в нашем случае это будет единица на 4π, потому что площадь круга радиуса 2 равна 4π.

И мы, таким образом, можем найти частные распределения для случайных величин ξ и η. При этом произведение этих частных распределений не будет равно совместной плотностью, то есть она не будет константой на круге и нулем вне этого круга. Поэтому в данном случае величины зависимыми будут, то есть они не будут независимые. Давайте докажем, что при этом коррелированными они не будут. Так как у нас картинка абсолютно симметрична, то, какое бы значение x я не взяла, распределение y будет равномерно симметрично относительно начала координат, а значит, среднее значение будет равно нулю. То есть, какое бы значение x я не взяла среднее значение y окажется равным нулю. Значит, условное математическое ожидание всегда будет равно одному и тому же значению. А значит, величины будут некоррелированными. Можно проверить, что в данном случае ковариация будет равна нулю. Проверьте это самостоятельно. Таким образом, если случайные величины независимы, то они обязательно будут некоррелированными. Обратное неверно.

Ковариация неудобна тем, что если дисперсия достаточно большая, то и ковариация может быть большой. То есть если мы рассматриваем случайные величины в разных единицах, то в результате ковариация будет принимать разные значения. Таким образом, используя ковариацию, мы не можем сравнивать зависимость между разными парами случайных величин. Где более тесная связь, где менее тесная связь? Все зависит от единиц измерений. Это нехорошо. Поэтому имеет смысл нормировать корреляцию.

Нормированная ковариация называется коэффициентом корреляции, то есть мы знаем, что ковариация не превосходит корня из произведений дисперсий, поэтому ковариацию мы как раз разделим на этот корень и получим коэффициент корреляции. Опять же коэффициент корреляции теперь по модулю не превосходит корня из проведения дисперсий на корень из произведения дисперсий, то есть единицы. При этом может принимать как отрицательное, так и положительное значение. Если коэффициент корреляции равен +1 или -1, то мы можем говорить, что между величинами имеется функциональная зависимость. При этом, что важно она будет линейной, то есть на практике именно линейная зависимость наиболее часто встречается.

Об этом мы еще раз поговорим в математической статистике, когда будем говорить про зависимость.

И второе свойство. Если случайные величины независимы, то коэффициент корреляции равен нулю. Обратное неверно мы уже показали, то есть ковариация не ноль, значит, и коэффициент корреляции также не 0.

На этом лекция закончена. Всем успехов.

最后修改: 2021年02月4日 Четверг 08:19