Лабораторная работа 2 (видео, часть 2). Парный регрессионный анализ

View

 

 Раздел «Основы математической статистики». Тема «Парный регрессионный анализ».

Предлагаю вам мини тест. Вопрос первый. В зависимости от числа взаимосвязанных признаков различают регрессии… Варианты ответов. Выберите верный. Второй вопрос. В зависимости от типа выбранного уравнения различают регрессии… Варианты ответов. Выберите верный. Вопрос третий. Уравнение y=1+0,5x определяет следующий вид регрессии… Варианты ответов. Выберите верный.

Сейчас проверим. Вопрос первый. Верный вариант ответа - номер 2. Вопрос второй. Верный вариант ответа - номер 1. Вопрос третий. Верный вариант ответа - 3.

Вспомним вид уравнения парной линейной регрессии. Что хочу напомнить. Уравнение регрессии в учебниках вы можете встречать в таком виде или, соответственно, вот в таком виде. e – случайная ошибка, a и b называются коэффициентами регрессии. Х - независимая переменная. Y - зависимая переменная. Коэффициенты a и b можно найти по этим формулам. Напомню, что коэффициент b показывает среднее изменение переменной Y с изменением на 1 единицу. Коэффициент a показывает, с какой скоростью (быстро или медленно) изменяется переменная Y по сравнению с переменной X. Если коэффициент a положительный, переменная Y растет более быстрыми темпами, чем Х. Если коэффициент a - отрицательный, то наоборот.

Рассмотрим пример. Изучалась зависимость между массой матерей X, измеряемой в начале беременности (кг), и массой новорожденных детенышей шимпанзе Y (кг). Найти уравнение линейной регрессии. Таблица данных представлена на слайде.

Сейчас будем вычислять произведения этих переменных и квадраты  соответственно XY. Найдем средние значения. Обратите внимание, что среднее значение по х - 11.87. Среднее значение по переменной Y – 0,703. Здесь – среднее произведение. Здесь – среднее для X^2. Здесь – среднее для Y^2. Конечно, будем брать округленные средние значения c точностью либо до сотых, либо до тысячных.  И сейчас подставим в формулы коэффициентов линейной регресс и найдем их значения. Коэффициент b примерно составляет 0,235, a=0,424. Так. Сейчас давайте перенесем данные на рабочий лист Excel и построим диаграмму в поле корреляции и построим таблицу данных. Итак. Начнем с поля корреляции. Заходим в Панель инструментов Вставка, находим Точечный, выбираем. Теперь, выбираем любую точку, нажимаем правую  кнопку мыши, Добавить линии тренда,  выбираем линию тренда - Линейная. Не забудьте поставить галочки Показывать уравнение и Показывать коэффициент R-квадрат. Вид уравнения на экране. Если внимательно посмотрим, то наше уравнение имеет только что найденный с использованием формулы вид. Итак, уравнение регрессии, связывающее массу детенышей с массой их матерей имеет такой вид. Еще раз обратите внимание: чтобы построить линии тренда, мы воспользовались Вставкой диаграммы Точечная. Добавляли линейные линии тренда. Коэффициент детерминации R-квадрат примерно равен 0,319, это означает, что вариация массы новорожденных детенышей на 31,9% обусловлена изменчивостью массы матерей.

Сейчас продолжим работать в Ecxel. Я вам предлагаю построить таблицу данных. Для этого на ленте выбираем Данные, Анализ данных, и выбираем Регрессия. Входной интервал – масса детенышей. Выделим столбец В. Входной интервал X– в нашем случае – масса матерей. Выделим столбец А. Столбцы имеют заголовки, поэтому не забудьте поставить галочку в Метках. Уровень надежности. Выходной интервал. Так. Получили таблицу. R-квадрат мы уже находили. Здесь коэффициент a и коэффициент b представлены в третьей таблице. Так. Далее. Обратите внимание, что вероятности для коэффициентов и для точности и значимости уравнений регрессии здесь тоже представлены. И сейчас мы, соответственно, их оценим. Итак. Это коэффициент а в нашем уравнении регрессии. Это коэффициент b. Это коэффициент детерминации. Теперь посмотрим на значимость F. Значимость F - это вероятность ошибки, с которой был выполнен F-тест. F- тест, напоминаю, позволяет оценить значимость уравнения регрессии.  Выбранная нами надежность  - 95%, значит, ошибка составляет 5% или 0,05. Поэтому значимость F мы сравним с 0,05. Значимость F меньше 0,05, что говорит о том, что найденное уравнение регрессии является статистически значимым. Далее. Посмотрим вероятности для коэффициентов. Мы их также сравним с 0,05. Можем с надежностью 95% утверждать, что t-тест выполнился, а, значит, коэффициенты регрессии являются статистически значимыми. Следующие два столбца – границы доверительного интервала для коэффициентов a и b. Таким образом, можем с надежностью 95% утверждать, что построенная нами модель является адекватной и пригодной для дальнейшего использования для прогнозирования и анализа данных.

Предлагаю задачи для самостоятельного решения. Обратите внимание, что здесь предлагается вычислить прогноз. Прогноз вычисляется уже тогда, когда найдена модель регрессии. Прогноз можно вычислить с помощью статистической функции ПРЕДСКАЗ. Либо вы можете воспользоваться найденным уравнением и вручную вычислить прогноз.

Желаю успехов! Спасибо за внимание.

Last modified: Четверг, 4 февраля 2021, 8:28