Видеолекция. Зависимость между величинами. Виды зависимостей

Просмотреть

 


На прошлой лекции мы рассматривали распределение одного признака, то есть мы выделяли некоторый признак и изучали его индивидуально. Довольно часто задачей исследования является изучение нескольких признаков в совокупности и изучение взаимосвязей между этими признаками или зависимости между этими признаками.

Таким образом, у нас в самом простом случае имеется 2 признака, то есть у нас есть набор пар значений (xi; yi), где xi – значение признака Х в k-ом опыте, уi – значение признака Y в k-ом опыте. Требуется установить, зависимы ли данные признаки или нет, и восстановить зависимость.

Прежде чем говорить о том, как узнать зависимы или нет, нужно рассмотреть виды зависимости. Данные виды также рассмотрены в разделе 3.6 данного курса, но так как раздел является вариативным, мы рассмотрим их еще раз.

Самой общей является зависимость статистическая, когда значения одной переменной влияет на закон распределения второй, то есть если между переменными статистической зависимости нет, то данные переменные, данные случайные величины мы называем независимыми, то есть никак одна не влияет на другую.

Второй вид зависимости – корреляционная. Это зависимость среднего значения одной случайной величины от значения другой случайной величины. Тогда эта зависимость более узкая, то есть она встречается реже статистической, но в статистике рассматривается именно корреляционная зависимость, и дальше на этой лекции, говоря зависимые, мы будем подразумевать именно корреляционную зависимость.

Частный случай корреляционной зависимости, самый редкий случай зависимости – это функциональная зависимость. Это зависимость, при которой значению одной случайной величины соответствует значение другой случайной величины, то есть каждому значению соответствует некоторое другое значение второй величины. Она встречается очень редко, мы периодически будем говорить, что в том или ином случае мы можем наблюдать именно функциональную зависимость. Еще раз повторюсь, что, когда мы говорим в статистике «исследовать зависимость между случайными величинами», обычно мы подразумеваем именно корреляционную зависимость.

Зависимость между переменными исследуется двумя видами анализа. Это корреляционный анализ и регрессионный анализ. Корреляционный анализ рассчитывает некоторые коэффициенты корреляции, оценивает их и позволяет сделать выводы о связях. Регрессионный анализ изучает форму этой связи, то есть он позволяет установить форму зависимости и подобрать ее параметры, а также оценить полученную кривую на предмет качества.

Сначала рассмотрим корреляционный анализ. Из раздела «теория вероятности», мы знаем, что корреляционная зависимость оценивается коэффициентом корреляции. На самом деле, мы рассматривали только один коэффициент корреляции, в статистике рассматриваются несколько коэффициентов корреляции, в зависимости от того какую зависимость мы хотим проанализировать. Если нас интересует линейная зависимость, то мы рассматриваем именно коэффициент корреляции Пирсона, если же нас интересует не линейная зависимость или множественная зависимость, то будут рассматривать другие коэффициенты корреляции.

Корреляционные зависимости делятся на разные по форме – прямолинейные или криволинейные, по направлению – прямая и обратная или положительная и отрицательная. В случае положительной корреляционной зависимости у нас: во-первых коэффициент корреляции положителен, а во-вторых среднее значение второго признака (зависимого) увеличивается при увеличении значения факторного признака и наоборот; при отрицательной связи при увеличении значений факторного признака уменьшается значение зависимого признака (или результативного) и наоборот. Еще раз оговорюсь, что факторными признаками называются признаки, которые лежат в основе зависимости, от которых строится зависимость, а результативные – это признаки, которые мы исследуем, их тоже может быть один или несколько. В рамках данной лекции мы рассмотрим только парную зависимость, когда у нас один факторный признак и один результативный. Также корреляционную зависимость разделяют по степени или по тесноте – в зависимости от модуля значения коэффициента корреляции может быть сильная зависимость, средняя, умеренная, слабая или очень слабая. Слабую и очень слабую иногда не разделяют. Таблица приведена на слайде.

Для оценки тесноты линейной зависимости рассматривают коэффициент корреляции Пирсона. Из курса теории вероятности мы знаем, что он вычисляется по формуле, где М[Х] – математическое ожидание, Д[Х] – дисперсия, при этом его значения лежат в диапазоне от 0 до 1, а оценка данного коэффициента приведена на слайде, где у нас математическое ожидание заменено на среднее, а дисперсия на квадрат среднеквадратического отклонения, соответственно у нас здесь избавлено от корней.

Для оценки тесноты линейной связи используется коэффициент корреляции Пирсона. Коэффициент корреляции между двумя случайными величинами приведен на слайде. Ниже приведена оценка данного коэффициента, где М[Х], М[У] – математические ожидания случайных величин, а х с чертой, у с чертой - их оценки. Соответственно Д[Х], Д[У] – дисперсии случайных величин, а s0x2 , s2  - их оценки, а s0x , s– оценки среднеквадратических отклонений. х,у с чертой общей – это среднее произведение.

Все значения по модулю не превосходят единицы, то есть у нас на самом деле математическое ожидание произведения отклонений не больше, чем корень из произведения дисперсий.

Далее, если у нас по модулю коэффициент корреляции равен 1, то имеет место функциональная линейная связь, при этом если он равен 1, то у нас будет прямая линейная связь, если – 1, то обратная линейная связь. В случае же, если у нас коэффициент корреляции равен 0, то линейная корреляционная связь отсутствует. Здесь у нас тонкий нюанс. Коэффициент корреляции равен нулю. Пусть мы на практике получили оценку. Мы понимаем, что уже из предыдущего занятия, что оценка и истинное значение не равны. Встает вопрос– «Если мы получили r*xy не нулевой, но близкий к нулю, значит ли это, что зависимость отсутствует?». Этот вопрос мы оставляем до одного из следующих занятий, там мы как раз-таки рассмотрим гипотезу о незначимости коэффициента корреляции и поймем, как ее проверять. Если же мы рассматриваем два или более двух признаков, то обычно анализируется корреляционная таблица. По ней могут быть рассчитаны множественный коэффициенты корреляции и так далее. Вот эта таблица rij, где ij – это коэффициент корреляции между хi, yj, а rii всегда будет равен 1.

Перейдем к регрессионному анализу. Пусть у нас рассматривается пара случайных величин Х и Y, тогда математическое ожидание У, при условии, что значение Х приняло значение х – это некоторая кривая регрессии или уравнение регрессии. Тогда мы можем представить величину Yi = φ(хi) +εi , где хi – не случайное значение первой случайной величины, а Yi – случайная величина, которая задает множество всех значений, которые могут быть получены в данном случае, причем для εi формулируются некоторые свойства. Первые 4 свойства обязательны, а 5 свойства является дополнительным и используется для оценки уравнения регрессии.

Этапы регрессионного анализа состоят в том, что сначала делается предположение о форме связи между переменными, далее находятся параметры и последним этапом является проверка надежности полученных оценок, то есть оценка уравнения регрессии. Нам нужно проверить насколько хорошо и правильно мы выбрали форму связи и насколько качественно были найдены оценки параметров регрессии.

Для нахождения уравнения параметров уравнения регрессии при известной форме используется метод наименьших квадратов. Пусть у нас есть пара х, у , при этом мы хотим построить кривую регрессию, представленную на слайде, где а – это один или несколько параметров, тогда построим функции ошибок – это функция отклонений значения полученного по уравнению от истинного значения переменной у в данном опыте, то есть сумма квадратов этих отклонений. Мы уже понимаем, что сумма отклонений просто будет равна 0. Так вот эта сумма квадратов уравнений должна быть минимальной, именно поэтому метод и называется «методом наименьших квадратов». Чтобы найти минимум этой функции, у нас параметры а1, а2,.., ак , нам нужно рассмотреть частные производные. Так как данное уравнение является квадратным относительно всех параметров, то у него найденная стационарная точка будет точкой минимума. Здесь уже 2 этап проверки на минимум проводить не нужно.

Рассмотрим наиболее часто встречающийся и наиболее простой случай, когда математическое ожидание Y, условное математическое ожидание линейно зависит от величины х. В этом случае мы можем построить зависимость у с крышечкой, представленной на слайде, где Е (а, b) – функция ошибок, найдем производные и получим следующую систему, то есть эти вычисления сделайте самостоятельно. Решив данную систему, можно найти параметры а и b. На самом деле на практике, если вычисления делаются руками, то именно такой способ будет удобнее, он позволит вам минимизировать вычисления. Если же это все рассчитывается автоматически, то можно выразить значение параметров а и b. Для этого оба уравнения, обе части обоих уравнений поделим на n. Получим следующую систему, где х с чертой, у с чертой – среднее значение величин х, у. х2 – средний квадрат, ху с чертой – это среднее произведение. Опять же решением данной системы будут значения а и b. Выразим b из второго уравнения, поменяем уравнения местами и подставим в первое. Продолжим выражать, то есть мы выразим a и получим, что, а – это будет среднее произведение минус произведение среднего, деленное на тоже самое с квадратами.

Теперь давайте вспомним, что оценка дисперсии ничто иное, как х2 с чертой минус х с чертой в квадрате, то есть в знаменателе стоит оценка дисперсии, а в числителе стоит оценка корреляции, то есть величина y с крышечкой будет равняться, тому, что написано на слайде. При этом коэффициент a называется коэффициентом регрессии и показывает тесноту связи. Понятно, что в зависимости от того, в каких единицах будут измеряться, у нас коэффициент регрессии будет разным. Принято анализировать не сам коэффициент регрессии, а коэффициент корреляции. На слайде это не приведено, но можно выразить коэффициент регрессии через оценки дисперсии и коэффициент корреляции. Сделайте это самостоятельно.

Иногда регрессия все же не является линейной, то есть если мы множество имеющихся у нас точек поместим на плоскость, то мы увидим, что линия там никак не получается. При этом на глаз тип зависимости очень сложно оценить. Например, гиперболу от параболы не всегда можно отличить, если она как-то хитро повернута. Поэтому рассматривают различные нелинейные регрессии. Например, линейная по оцениваемым параметрам, тогда можно просто заменой переменных свести данные уравнения к линейным и оценить, какое из них больше подходит.

Нелинейная по оцениваемым параметрам. Она может быть внутренне линейной, внутренне нелинейной. Вопрос: существует ли замена переменной такая, чтобы уравнение было сведено к линейному? Чаще всего стараются искать именно такие зависимости, которые сводятся к линейной и уже дальше анализировать, причем свести можно, как к парной линейной, так и к множественной линейной. Например, полиномиальные зависимости заменой переменных сводятся к множественной линейной, где каждая степень – это своя переменная. Дальше происходит анализ. Анализ в рамках данного курса мы рассматривать не будем. Он есть в справочнике, более подробно смотрите в литературе. Спасибо за внимание.

Последнее изменение: Четверг, 4 февраля 2021, 08:29