Линейная регрессия – это статистический метод, используемый для моделирования и предсказания линейной зависимости между зависимой переменной и одной или несколькими независимыми переменными. Он основан на следующих предположениях:
- Линейность: Линейная регрессия предполагает линейную зависимость между зависимой переменной и независимыми переменными. Это означает, что изменение зависимой переменной должно быть пропорциональным изменению независимых переменных.
- Независимость ошибок: Ошибки (резидуалы) модели должны быть независимыми и случайными. Это предположение означает, что ошибки в предсказаниях не должны демонстрировать систематических закономерностей и не должны зависеть от значений независимых переменных.
- Нормальное распределение ошибок: Ошибки модели должны иметь нормальное распределение. Это означает, что ожидаемое значение ошибок должно быть равно нулю, и распределение ошибок должно быть симметричным вокруг нуля.
- Гомоскедастичность: Гомоскедастичность предполагает, что дисперсия ошибок одинакова для всех значений независимых переменных. То есть разброс ошибок не должен зависеть от значений предикторов.
- Линейная независимость признаков: В множественной линейной регрессии предполагается, что независимые переменные не сильно коррелированы друг с другом. Сильная мультиколлинеарность между предикторами может привести к неустойчивости оценок коэффициентов.
- Отсутствие эндогенности: Отсутствие эндогенности означает, что независимые переменные не должны быть эндогенными, то есть не должны зависеть от ошибок модели.
Когда эти предположения не выполняются, результаты линейной регрессии могут быть неадекватными или ошибочными. Поэтому перед применением линейной регрессии важно провести анализ данных, чтобы проверить выполнение данных предположений и при необходимости применить соответствующие методы предобработки данных или выбрать другую модель, которая лучше соответствует структуре данных.