Линейная модель множественной регрессии. Модель множественной линейной регрессии

МОДЕЛЬ МНОЖЕСТВЕННОЙ РЕГРЕССИИ

1. ОТБОР ФАКТОРОВ В МОДЕЛЬ МНОЖЕСТВЕННОЙ РЕГРЕССИИ. ОЦЕНКА ПАРАМЕТРОВ МОДЕЛИ

При построении модели множественной регрессии для отображения зависимости между объясняемой переменной Y и независимыми (объясняющими) переменнымиX 1 ,X 2 , …,X k могут использоваться показательная, параболическая и многие другие функции. Однако наибольшее распространение получили модели линейной взаимосвязи, когда факторы входят в модель линейно.

Линейная модель множественной регрессии имеет вид

где k – количество включенных в модель факторов.

Коэффициент регрессии a j показывает, на какую величину в среднем изменится результативный признакY , если переменнуюX j увеличить на единицу измерения, т.е. является нормативным коэффициентом.

Анализ уравнения (1) и методика определения параметров становятся более наглядными, а расчетные процедуры существенно упрощаются, если воспользоваться матричной формой записи уравнения:

где Y – это вектор зависимой переменной размерности, представляющий собойn наблюдений значенийy i ;X – матрицаn наблюдений независимых переменныхX 1 , X 2 , …, X k , размерность матрицыX равна

; а - подлежащий оцениванию вектор неизвестных параметров

Таким образом,

Уравнение (1) содержит значения неизвестных параметров

. Эти величины оцениваются на основе выборочных

наблюдений, поэтому полученные расчетные показатели не являются истинными, а представляют собой лишь их статистические оценки.

Модель линейной регрессии, в которой вместо истинных значений параметров подставлены их оценки (а именно такие регрессии и применяются на практике), имеет вид

Оценка параметров модели множественной регрессии проводится с помощью метода наименьших квадратов. Формулу для вычисления

параметров регрессионного уравнения приведем без вывода:

Отбор факторов, включаемых в регрессию – один из важнейших этапов построения модели регрессии. Подходы к отбору факторов могут быть разные: один из них основан на анализе матрицы коэффициентов парной корреляции, другой – на процедурах пошагового отбора факторов.

Перед построением модели множественной регрессии вычисляются парные коэффициенты линейной корреляции между всеми исследуемыми переменными Y ,X 1 , X 2 , …, X m , и из них формируется матрица

Вначале анализируют коэффициенты корреляции, отражающие тесноту связи зависимой переменной со всеми включенными в анализ факторами, с целью отсева незначимых переменных.

Затем переходят к анализу остальных столбцов матрицы с целью выявления мультиколлинеарности.

Ситуация, когда два фактора связаны между собой тесной линейной связью (парный коэффициент корреляции между ними превышает по абсолютной величине 0,8), называется коллинеарностью факторов . Коллинеарные факторы фактически дублируют друг друга в модели, существенно ухудшая ее качество.

Наибольшие трудности возникают при наличии мультикоминеарности факторов, когда тесной связью одновременно связаны несколько факторов, т.е. когда нарушается одна из предпосылок регрессионного анализа, состоящая в том, что объясняющие переменные должны быть независимы.

Под мультиколлинеарностью понимается высокая взаимная коррелированность объясняющих переменных, которая приводит к линейной зависимости нормальных уравнений. Мультиколлинеарность может

приводит к невозможности решения соответствующей системы нормальных уравнений и получения оценок параметров регрессионной модели;

стохастической , когда между хотя бы двумя объясняющими переменными существует тесная корреляционная связь. В этом случае определитель матрицы не равен нулю, но очень мал. Экономическая интерпретация параметров уравнения регрессии при этом затруднена, так как некоторые из его коэффициентов могут иметь неправильные с точки зрения экономической теории знаки и неоправданно большие значения. Оценки

параметров ненадежны, обнаруживают большие стандартные ошибки и меняются с изменением объема наблюдений (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.

Мультиколлинеарность может возникать в силу разных причин. Например, несколько независимых переменных могут иметь общий временной тренд, относительно которого они совершают малые колебания.

Существует несколько способов для определения наличия или отсутствия мультиколлинеарности:

анализ матрицы коэффициентов парной корреляции. Явление мультиколлинеарности в исходных данных считают установленным, если коэффициент парной корреляции между двумя переменными больше 0,8:

исследование матрицы. Если определитель матрицы близок к нулю, это свидетельствует о наличии мультиколлинеарности.

Для выявления второй ситуации служит тест на мультиколлинеарность Фаррара-Глоубера. С помощью этого теста проверяют, насколько значимо определитель матрицы парных коэффициентов корреляции отличается от единицы. Если он равен нулю, то столбцы матрицыX линейно зависимы и вычислить оценку коэффициентов множественной регрессии по методу наименьших квадратов становится невозможно.

Этот алгоритм содержит три вида статистических критериев проверки наличия мультиколлинеарности:

1) всего массива переменных (критерий «хи-квадрат»);

2) каждой переменной с другими переменными (F -критерий);

3) каждой пары переменных (t -тест).

2) Вычислить наблюдаемое значение статистики Фаррара-Глоубера по формуле

Эта статистика имеет распределение (хи-квадрат).

3) Фактическое значение -критерия сравнить с табличным значением

при 0,5k (k – 1) степенях свободы и уровне значимостиα . ЕслиFG набл больше табличного, то в массиве объясняющих переменных

существует мультиколлинеарность.

2. Проверка наличия мультиколлинеарности каждой переменной другими переменными (F - критерий ):

где c ij – диагональные элементы матрицыC.

3) Фактические значения F -критериев сравнить с табличным значением

при v 1 =k ,v 2 =n – k – 1 степенях свободы и уровне значимостиα , гдеk

– количество факторов. Если F j >F табл , то соответствующая j -я независимая переменная мультиколлинеарна с другими.

3. Проверка наличия мультиколлинеарности каждой пары переменных (t -

тест).

1) Вычислить коэффициент детерминации для каждой переменной:

2) Найти частные коэффициенты корреляции:

где c ij - элемент матрицыС . содержащийся в i -й строке и j -м столбце;c ii иc jj – диагональные элементы матрицыС .

3) Вычислить t -критерии:

4) Фактические значения критериев t ij сравнить с табличнымt табл при (n –

мультиколлинеарность.

Разработаны различные методы устранения или уменьшения мультиколлинеарности. Самый простой из них, но не всегда самый эффективный, состоит в том, что из двух объясняющих переменных, имеющих высокий коэффициент корреляции (больше 0,8), одну переменную исключают из рассмотрения. При этом какую переменную оставить, а какую удалить из анализа, решают исходя из экономических соображений.

Для устранения мультиколлинеарности можно также:

добавить в модель важный фактор для уменьшения дисперсии случайного члена;

изменить или увеличить выборку;

преобразовать мульти коллинеарные переменные и др.

Другой метод устранения или уменьшения мультиколлинеарности – использование стратегии шагового отбора, реализованной в ряде алгоритмов пошаговой регрессии.

Наиболее широкое применение получили следующие схемы построения уравнения множественной регрессии:

метод включения – дополнительное введение фактора;

метод исключения – отсев факторов из полного его набора.

В соответствии с первой схемой признак включается в уравнение в том случае, если его включение существенно увеличивает значение множественного коэффициента корреляции. Это позволяет последовательно отбирать факторы, оказывающие существенное влияние на результативный признак даже в условиях мультиколлинеарности системы признаков, отобранных в качестве аргументов. При этом первым в уравнение включается фактор, наиболее тесно коррелирующий сY вторым – тот фактор, который в паре с первым из отобранных дает максимальное значение множественного коэффициента корреляции, и т.д. Существенно, что на каждом шаге получают новое значение множественного коэффициента (большее, чем на предыдущем шаге); тем самым определяется вклад каждого отобранного фактора в объясненную дисперсиюY.

Вторая схема пошаговой регрессии основана на последовательном исключении факторов с помощью t -критерия. Она заключается в том, что после построения уравнения регрессии и оценки значимости всех коэффициентов регрессии из модели исключают тот фактор, коэффициент при котором незначим и имеет наименьшее по модулю значение t -критерия. После этого получают новое уравнение множественной регрессии и снова производят оценку значимости всех оставшихся коэффициентов регрессии. Если и среди них окажутся незначимые, то опять исключают фактор с наименьшим значением t -критерия. Процесс исключения факторов останавливается на том шаге, при котором все регрессионные коэффициенты значимы.

Ни одна из этих процедур не гарантирует получения оптимального набора переменных. Однако при практическом применении они позволяют получить достаточно хорошие наборы существенно влияющих факторов.

Если это соотношение нарушено, то число степеней свободы остаточной дисперсии очень мало. Это приводит к тому, что параметры уравнения регрессии оказываются статистически незначимыми, а F -критерий меньше табличного значения.

2. ОЦЕНКА КАЧЕСТВА МНОЖЕСТВЕННОЙ РЕГРЕССИИ

Качество модели регрессии проверяется на основе анализа остатков регрессии ε. Анализ остатков позволяет получить представление, насколько хорошо подобрана сама модель и насколько правильно выбран метод опенки коэффициентов. Согласно общим предположениям регрессионного анализа остатки должны вести себя как независимые (в действительности – почти независимые) одинаково распределенные случайные величины.

Исследование полезно начинать с изучения графика остатков. Он может показать наличие какой-то зависимости, не учтенной в модели. Скажем, при подборе простой линейной зависимости междуY иX график

остатков может показать необходимость перехода к нелинейной модели (квадратичной, полиномиальной, экспоненциальной) или включения в модель периодических компонент.

График остатков хорошо показывает и резко отклоняющиеся от модели наблюдения – выбросы. Подобным аномальным наблюдениям надо уделять особо пристальное внимание, так как они могут грубо искажать значения оценок. Чтобы устранить эффект выбросов, надо либо удалить эти точки из анализируемых данных (эта процедура называется цензурированием), либо применять методы оценивания параметров, устойчивые к подобным грубым отклонениям.

Качество модели регрессии оценивается по следующим направлениям:

проверка качества уравнения регрессии;

проверка значимости уравнения регрессии;

анализ статистической значимости параметров модели;

проверка выполнения предпосылок МНК.

Для проверки качества уравнения регрессии вычисляют коэффициент множественной корреляции (индекс корреляции) R и коэффициент детерминацииR 2 . Чем ближе к единице значения этих характеристик, тем выше качество модели.

Ответы на экзаменационные билеты по эконометрике Яковлева Ангелина Витальевна

26. Линейная модель множественной регрессии

Построение модели множественной регрессии является одним из методов характеристики аналитической формы связи между зависимой (результативной) переменной и несколькими независимыми (факторными) переменными.

Модель множественной регрессии строится в том случае, если коэффициент множественной корреляции показал наличие связи между исследуемыми переменными.

Общий вид линейной модели множественной регрессии:

yi=?0+?1x1i+…+?mxmi+?i,

где yi – значение i-ой результативной переменной,

x1i…xmi – значения факторных переменных;

?0…?m – неизвестные коэффициенты модели множественной регрессии;

?i – случайные ошибки модели множественной регрессии.

При построении нормальной линейной модели множественной регрессии учитываются пять условий:

1) факторные переменные x1i…xmi – неслучайные или детерминированные величины, которые не зависят от распределения случайной ошибки модели регрессии ?i;

3) дисперсия случайной ошибки модели регрессии постоянна для всех наблюдений:

4) между значениями случайных ошибок модели регрессии в любых двух наблюдениях отсутствует систематическая взаимосвязь, т.е. случайные ошибки модели регрессии не коррелированны между собой (ковариация случайных ошибок любых двух разных наблюдений равна нулю):

Это условие выполняется в том случае, если исходные данные не являются временными рядами;

5) на основании третьего и четвёртого условий часто добавляется пятое условие, заключающееся в том, что случайная ошибка модели регрессии – это случайная величина, подчиняющейся нормальному закону распределения с нулевым математическим ожиданием и дисперсией G2: ?i~N(0, G2).

Общий вид нормальной линейной модели парной регрессии в матричной форме:

Y=X* ?+?,

– случайный вектор-столбец значений результативной переменной размерности (n*1);

– матрица значений факторной переменной размерности (n*(m+1)). Первый столбец является единичным, потому что в модели регрессии коэффициент ?0 умножается на единицу;

– вектор-столбец неизвестных коэффициентов модели регрессии размерности ((m+1)*1);

– случайный вектор-столбец ошибок модели регрессии размерности (n*1).

Включение в линейную модель множественной регрессии случайного вектора-столбца ошибок модели обусловлено тем, что практически невозможно оценить связь между переменными со 100-процентной точностью.

Условия построения нормальной линейной модели множественной регрессии, записанные в матричной форме:

1) факторные переменные x1j…xmj – неслучайные или детерминированные величины, которые не зависят от распределения случайной ошибки модели регрессии ?i . В терминах матричной записи Х называется детерминированной матрицей ранга (k+1), т.е. столбцы матрицы X линейно независимы между собой и ранг матрицы Х равен m+1

2) математическое ожидание случайной ошибки модели регрессии равно нулю во всех наблюдениях:

3) предположения о том, что дисперсия случайной ошибки модели регрессии является постоянной для всех наблюдений и ковариация случайных ошибок любых двух разных наблюдений равна нулю, записываются с помощью ковариационной матрицы случайных ошибок нормальной линейной модели множественной регрессии:

G2 – дисперсия случайной ошибки модели регрессии?;

In – единичная матрица размерности (n*n ).

4) случайная ошибка модели регрессии? является независимой и независящей от матрицы Х случайной величиной, подчиняющейся многомерному нормальному закону распределения с нулевым математическим ожиданием и дисперсией G2: ??N(0;G2In.

В нормальную линейную модель множественной регрессии должны входить факторные переменные, удовлетворяющие следующим условиям:

1) данные переменные должны быть количественно измеримыми;

2) каждая факторная переменная должна достаточно тесно коррелировать с результативной переменной;

3) факторные переменные не должны сильно коррелировать друг с другом или находиться в строгой функциональной зависимости.

Из книги Большая Советская Энциклопедия (ЛИ) автора БСЭ

Из книги Пикап. Самоучитель по соблазнению автора Богачев Филипп Олегович

Из книги Ответы на экзаменационные билеты по эконометрике автора Яковлева Ангелина Витальевна

Из книги автора

Из книги автора

Из книги автора

9. Общая модель парной (однофакторной) регрессии Общая модель парной регрессии характеризует связь между двумя переменными, которая проявляется как некоторая закономерность лишь в среднем в целом по совокупности наблюдений.Регрессионным анализом называется

Из книги автора

10. Нормальная линейная модель парной (однофакторной) регрессии Общий вид нормальной (традиционной или классической) линейной модели парной (однофакторной) регрессии (Classical Normal Regression Model):yi=?0+?1xi+?i,где yi– результативные переменные, xi – факторные переменные, ?0, ?1 – параметры

Из книги автора

14. Оценка коэффициентов модели парной регрессии с помощью выборочного коэффициента регрессии Помимо метода наименьших квадратов, с помощью которого в большинстве случаев определяются неизвестные параметры модели регрессии, в случае линейной модели парной регрессии

Из книги автора

27. Классический метод наименьших квадратов для модели множественной регрессии. Метод Крамера В общем виде линейную модель множественной регрессии можно записать следующим образом:yi=?0+?1x1i+…+?mxmi+?i, где yi – значение i-ой результативной переменной,x1i…xmi – значения факторных

Из книги автора

28. Линейная модель множественной регрессии стандартизированного масштаба Помимо классического метода наименьших квадратов для определения неизвестных параметров линейной модели множественной регрессии?0…?m используется метод оценки данных параметров через

Из книги автора

31. Частные коэффициенты корреляции для модели множественной регрессии с тремя и более факторными переменными Частные коэффициенты корреляции для модели множественной регрессии с тремя и более факторными переменными позволяют определить степень зависимости между

Из книги автора

32. Построение частных коэффициентов корреляции для модели множественной регрессии через показатель остаточной дисперсии и коэффициент множественной детерминации Помимо рекуррентных формул, которые используются для построения частных коэффициентов корреляции для

Из книги автора

33. Коэффициент множественной корреляции. Коэффициент множественной детерминации Если частные коэффициенты корреляции модели множественной регрессии оказались значимыми, т. е. между результативной переменной и факторными модельными переменными действительно

Из книги автора

35. Проверка гипотезы о значимости коэффициентов регрессии и модели множественной регрессии в целом Проверка значимости коэффициентов регрессии означает проверку основной гипотезы об их значимом отличии от нуля.Основная гипотеза состоит в предположении о незначимости

Из книги автора

46. Проверка гипотезы о значимости нелинейной модели регрессии. Проверка гипотезы о линейной зависимости между переменными модели регрессии На нелинейные модели регрессии, которые являются внутренне линейными, т. е. сводимыми к линейному виду, распространяются все

Из книги автора

65. Обобщённая модель регрессии. Обобщённый метод наименьших квадратов. Теорема Айткена МНК-оценки неизвестных коэффициентов модели регрессии, чьи случайные ошибки подвержены явлениям гетероскедастичности или автокорреляции, не будут удовлетворять теореме

4.1. Матричная форма регрессионной модели

Экономическое явление определяется большим числом одновременно и совокупно действующих факторов. Модель множественной регрессии запишется так:

Модель линейной множественной регрессии можно записать в матричной форме, имея в виду, что коэффициенты α и β заменены их оценками.

Матрица X T X – неособенная и её ранг равен её размеру, то есть (р +1).

4.2. Отбор факторов для моделей множественной регрессии

Факторы, включаемые в модель, должны существенным образом объяснить вариацию результативной переменной.

Существует ряд способов отбора факторов, наибольшее распространение из которых имеют метод короткой регрессии и метод длинной регрессии.

При использовании метода короткой регрессии в начале в модель включают только наиболее важные факторы с экономически содержательной точки зрения.

С этим набором факторов строится модель и для неё определяются показатели качества ESS , R 2 , F , t a , t bj . Затем в модель добавляется следующий фактор и вновь строится модель. Проводится анализ, улучшилась или ухудшилась модель по совокупности критериев. При этом возможно появление парето – оптимальных альтернатив.

Метод длинной регрессии предполагает первоначальное включение в модель всех подозрительных на существенность факторов. Затем какой-либо фактор исключают из модели и анализируют изменение её качества. Если качество улучшится, фактор удаляют и наоборот. При отборе факторов следует обращать внимание на наличие интеркорреляции и мультиколлинеарности.

Сильная корреляция между двумя факторами (интеркорреляция) не позволяет выявить изолированное влияние каждого из них на результативную переменную, то есть затрудняется интерпретация параметров регрессии и они утрачивают истинный экономический смысл. Оценки значений этих параметров становятся ненадёжными и будут иметь большие стандартные ошибки. При изменении объёма наблюдений они могут сильно изменяться, причём не только по величине, но даже и по знаку.

Мультиколлинеарность – явление, когда сильной линейной зависимостью связаны более двух переменных; она приводит к тем же негативным последствиям, о которых только что было сказано. Поэтому, при отборе факторов следует избегать наличия интеркорреляции и, тем более, мультиколлинеарности.

Для обнаружения интеркорреляции и мультиколлинеарности можно использовать анализ матрицы парных коэффициентов корреляции [r (п) ], матрицы межфакторной корреляции [r (11) ] и матрицы частных коэффициентов корреляции [r (ч) ].

Для исключения одного из двух сильно коррелирующих между собой факторов можно руководствоваться таким соображением: из модели бывает целесообразно убрать не тот фактор, который слабее связан с y , а тот, который сильнее связан с другими факторами. Это приемлемо, если связь с y для обоих факторов приблизительно одинакова. При этом возможно наличие парето – оптимальных альтернатив и тогда следует рассмотреть иные аргументы в пользу того или иного фактора.


Матрица [r (11) ] – получается путём вычёркивания первого столбца и первой строки из матрицы [r (п) ].

Матрица [r (11) ] – квадратная и неособенная, ее элементы вычисляются так:

Представляется интересным исследовать определитель det [r (11) ].

Если есть сильная мультиколлинеарность, то почти все элементы этой матрицы близки к единице и det → 0. Если все факторы практически независимы, то в главной диагонали будут стоять величины, близкие к единице, а прочие элементы будут близки к нулю, тогда det→1.

Таким образом, численное значение det [r (11) ] позволяет установить наличие или отсутствие мультиколлинеарности. Мультиколлинеарность может иметь место вследствие того, что какой-либо фактор является линейной (или близкой к ней) комбинацией других факторов.

Для выявления этого обстоятельства можно построить регрессии каждой объясняющей переменной на все остальные. Далее вычисляются соответствующие коэффициенты детерминации

и рассчитывается статистическая значимость каждой такой регрессии по F –статистике:

Критическое значение F определяется по таблице для назначенного уровня значимости γ (вероятности отвергнуть верную гипотезу Н 0 о незначимости R 2), и числа степеней свободы df 1 = p –1, df 2 = n –1.

Оценку значимости мультиколлинеарности можно также произвести путём проверки гипотезы об её отсутствии: Н 0: det [r (11) ] =1. Доказано, что величина: приближённо имеет распределение Пирсона: Если вычисленное значение χ 2 превышает табличное значение для назначенного γ и df = n (n –1)/2, то гипотеза Н 0 отклоняется и мультиколлинеарность считается установленной.

Парные коэффициенты корреляции не всегда объективно показывают действительную связь между факторами. Например, факторы могут по существу явления не быть связаны между собой, но смещаться в одну сторону под влиянием некоторого стороннего фактора, не включенного в модель. Довольно часто таким фактором выступает время. Поэтому включение (если это возможно) в модель переменной t иногда снижает степень интеркорреляции и мультиколлинеарности. Более адекватными показателями межфакторной корреляции являются частные коэффициенты корреляции. Они отражают тесноту статистической связи между двумя переменными при элиминировании влияния других факторов.

Здесь b 1 будет являться несмещенной оценкой параметра β 1 , а b 2 будет несмещенной оценкой нуля (при выполнении условий Гаусса-Маркова).

Утрата эффективности в связи с включением x 2 в случае, когда она не должна быть включена, зависит от корреляции между x 1 и x 2 .

Сравним (см. табл. 4.1).

На любой экономический показатель чаще всего оказывает влияние не один, а несколько факторов. Например, спрос на некоторое благо определяется не только ценой данного блага, но и ценами на замещающие и дополняющие блага, доходом потребителей и многими другими факторами. В этом случае вместо парной регрессии рассматривается множественная регрессия

Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функции издержек производства, в макроэкономических расчетах и в ряде других вопросов экономики. В настоящее время множественная регрессия - один из наиболее распространенных методов в эконометрике. Основной целью множественной регрессии является построение модели с большим числом факторов, а также определение влияния каждого фактора в отдельности и совокупного их воздействия на моделируемый показатель.

Множественный регрессионный анализ является развитием парного регрессионного анализа в случаях, когда зависимая переменная связана более чем с одной независимой переменной. Большая часть анализа является непосредственным расширением парной регрессионной модели, но здесь также появляются и некоторые новые проблемы, из которых следует выделить две. Первая проблема касается исследования влияния конкретной независимой переменной на зависимую переменную, а также разграничения её воздействия и воздействий других независимых переменных. Второй важной проблемой является спецификация модели, которая состоит в том, что необходимо ответить на вопрос, какие факторы следует включить в регрессию (1), а какие - исключить из неё. В дальнейшем изложение общих вопросов множественного регрессионного анализа будем вести, разграничивая эти проблемы. Поэтому вначале будем полагать, что спецификация модели правильна.

Самой употребляемой и наиболее простой из моделей множественной регрессии является линейная модель множественной регрессии:

y=α"+β 1 "x 1 + β 2 "x 2+…+ β p "x p +ε (2)

По математическому смыслу коэффициенты β" j в уравнении (2) равны частным производным результативного признака у по соответствующим факторам:

Параметр а" называется свободным членом и определяет значение у в случае, когда все объясняющие переменные равны нулю. Однако, как и в случае парной регрессии, факторы по своему экономическому содержанию часто не могут принимать нулевых значений, и значение свободного члена не имеет экономического смысла. При этом, в отличие от парной регрессии, значение каждого регрессионного коэффициента β" j равно среднему изменению у при увеличении x j на одну единицу лишь при условии, что все остальные факторы остались неизменными. Величина Î представляет собой случайную ошибку регрессионной зависимости.

Попутно отметим, что наиболее просто можно определять оценки параметров β" j , изменяя только один фактор x j , оставляя при этом значения других факторов неизменными. Тогда задача оценки параметров сводилась бы к последова­тельности задач парного регрессионного анализа по каждому фактору. Однако такой подход, широко используемый в естественнонаучных исследованиях, (физических, химических, биологических), в экономике является неприемлемым. Экономист, в отличие от экспериментатора - естественника, лишен возможности регулировать отдельные факторы, поскольку не удаётся обеспечить равенство всех прочих условий для оценки влияния одного исследуемого фактора.

Получение оценок параметров α ׳ , b 1 ’ , b 2 ’ , …, b p уравнения регрессии (2) - одна из важнейших задач множественного регрессионного анализа. Самым распространенным методом решения этой задачи является метод наименьших квадратов (МНК). Его суть состоит в минимизации суммы квадратов отклонений наблюдаемых значений зависимой переменной у от её значений получаемых по уравнению регрессии. Поскольку параметры а " , b 1 ’ , b 2 ’ , …, b p являются неизвестными константами, вместо теоретического уравнения регрессии (2), оценивается так называемоеэмпирическое уравнение регрессии, которое можно представить в виде:

Здесь a, b 1 , b 2 ,.. b p - оценки теоретических значений α", β 1 ", β 2 " ",…, β р ", или эмпирические коэффициенты регрессии, е -- оценка отклонения ε. Тогда расчетное выражение имеет вид:

Пусть имеется п наблюдений объясняющих переменных и соответствующих им значений результативного признака:

, (5)

Для однозначного определения значений параметров уравнения (4) объем выборки п должен быть не меньше количества параметров, т.е. п≥р+1 . В противном случае значения параметров не могут быть определены однозначно. Если п=р+1 , оценки параметров рассчитываются единственным образом без МНК простой подстановкой значений (5) в выражение (4). Получается система (р+1) уравнений с таким же количеством неизвестных, которая решается любым способом, применяемым к системам линейных алгебраических уравнений (СЛАУ). Однако с точки зрения статистического подхода такое решение задачи является ненадежным, поскольку измеренные значения переменных (5) содержат различные виды погрешностей. Поэтому для получения надежных оценок параметров уравнения (4) объём выборки должен значительно превышать количество определяемых по нему параметров. Практически, как было сказано ранее, объём выборки должен превышать количество параметров при x j в уравнении (4) в 6-7 раз.

Для проведения анализа в рамках линейной модели множественной регрессии необходимо выполнение ряда предпосылок МНК. В основном это те же предпосылки, что и для парной регрессии, однако здесь нужно добавить предположения, специфичные для множественной регрессии:

5°. Спецификация модели имеет вид (2).

6°. Отсутствие мультиколлинеарности: между объясняющими переменными отсутствует строгая линейная зависимость, что играет важную роль в отборе факторов при решении проблемы спецификации модели.

7°. Ошибки ε i , , имеют нормальное распределение (ε i ~ N(0, σ)) . Выполнимость этого условия нужна для проверки статистических гипотез и построения интервальных оценок.

При выполнимости всех этих предпосылок имеет место многомерный аналог теоремы Гаусса - Маркова: оценки a,b 1 , b 2 ,... b p , полученные по МНК, являются наиболее эффективными (в смысле наименьшей дисперсии) в классе линейных несмещенных оценок.

Цель : необходимо научиться определять параметры уравнения множественной линейной регрессии, используя ме­тод наименьших квадратов (МНК), рассчитывать коэффициент множественной корреляции.

Ключевые слова : линейная модель множественной регрессии, матрица парных коэффициентов корреляции, коэффициент множественной детерминации, индекс корреляции.

План лекции:

1. Классическая нормальная линейная модель множественной регрессии.

2. Оценка параметров линейной модели множественной регрессии.

3. Множественная и частная корреляция.

1.Классическая нормальная линейная модель множественной регрессии.

Экономические явления, как правило, определяются большим числом одновременно действующих факторов. В качестве примера такой связи можно рассматривать зависимость доходности финансовых активов от следующих факторов: темпов прироста ВВП, уровня процентных ставок, уровня инфляции и уровня цен на нефть.

В связи с этим возникает задача исследования зависимости одной зависимой переменной у от нескольких объясняющих факторных переменных х 1 , х 2 ,…, х n , оказывающих на нее влияние. Эта задача решается с помощью множественного регрессионного анализа .

Как и в парной зависимости, используются разные виды уравнений множественной регрессии: линейные и нелинейные.

Ввиду четкой интерпретации параметров наиболее широко используются линейная и степенная функции.

В линейной множественной регрессии параметры при количественной объясняющей переменной интерпретируется как среднее изменение результирующей переменной при единичном изменении самой объясняющей переменной и неизменных значениях остальных независимых переменных.

Пример. Предположим, что зависимость расходов на продукты питания по совокупности семей характеризуется следующим уравнением:

где у – расходы семьи за месяц на продукты питания, тыс.тг.

х 1 – среднемесячный доход на одного члена семьи, тыс.тг.

х 2 – размер семьи, человек.

Анализ данного уравнения позволяет сделать выводы – с ростом дохода на одного члена семьи на 1 тыс.тг. расходы на питание возрастут в среднем на 350 тг. при том же размере семьи. Иными словами, 35% дополнительных семейных расходов тратится на питание. Увеличение размера семьи при тех же доходах предполагает дополнительный рост расходов на питание на 730 тг.

В степенной функции коэффициенты b j являются коэффициентами эластичности. Они показывают, на сколько процентов в среднем изменяется результат с изменением соответствующего фактора на 1% при неизменности действия других факторов.

Пример. Предположим, что при исследовании спроса на мясо получено уравнение

,

где у – количество спроса на мясо,


х 1 – цена,

х 2 – доход.

Следовательно, рост цен на 1% при том же доходе вызывает снижение спроса в среднем на 2,63%. Увеличение дохода на 1% обуславливает при неизменных ценах рост спроса на 1,11%.

где b 0 , b 1 ,…,b k – параметры модели, а ε – случайный член, называется классической нормальной линейной регрессионной моделью , если выполняются следующие условия (называемые условиями Гаусса-Маркова):

1. Математическое ожидание случайного члена в любом наблюдении должно быть равно нулю, т.е. .

2. Дисперсия случайного члена должна быть постоянной для всех наблюдений, т.е. .

3. Случайные члены должны быть статистически независимы (некоррелированы) между собой, .

4. - есть нормально распределенная случайная величина.

2.Оценка параметров линейной модели множественной регрессии.

Параметры уравнения множественной регрессии оцениваются методом наименьших квадратов. При его применении строится система нормальных уравнений, решение которой позволяет получить оценки параметров регрессии.

Так, для уравнения система нормальных уравнений составит:

Ее решение может быть осуществлено методом Крамера:

,

где ∆ - определитель системы,

Частные определители.

,

а получаются путем замены соответствующего столбца определителя системы столбцом свободных членов.

Рассмотрим линейную модель зависимости результативного признака у от двух факторных признаков и . Эта модель имеет вид:

Для нахождения параметров и решается система нормальных уравнений:

3.Множественная и частная корреляция.

Многофакторная система требует множество показателей тесноты связей, имеющих разный смысл и применение. Основой измерения связей факторными признаками является матрица парных коэффициентов корреляции, которые определяются по формуле:

На основе парных коэффициентов корреляции вычисляется наиболее общий показатель тесноты связи всех входящих в уравнение регрессии факторов с результирующим признаком – коэффициент множественной детерминации как частное от деления определителя матрицы на опрделитель матрицы ∆: , где

;

.

Этим способом можно определить коэффициент детерминации, не вычисляя расчетных значений результативного признака для всех единиц совокупности, если совокупность состоит из сотен и тысяч единиц.