본문 바로가기
통계

[식스시그마] 데이터 분석 기초 - 회귀분석

by 두리파파월드 2023. 7. 13.
반응형

1. 회귀분석

: 회귀분석이란, 문제를 개선하고자 할 때 변수들 간의 상호 관련성을 데이터로부터 어떤 수학적 방정식을 추정하고, 필요한 예측을 하거나 관심 있는 부분을 통계적으로 추론하는 것

 

- 회귀분석의 사용 목적

1) 치명인자를 찾기 위해

2) "Y" 값을 추정하고 예상하기 위해

3) 어떤"X"인자 값에서 "Y"값이 최적화되는지를 결정하기 위해

 

- 회귀분석의 절차

회귀분석의 절차

- 회귀분석의 종류

1) 단순 선형 회귀분석 : 함수관계가 직선 관계인 경우, 독립변수가 한 개이고 종속변수가 한 개 일 때

2) 다중 선형 회귀분석 : 함수관계가 직선 관계인 경우, 독립변수가 두 개 이상이고 종속변수가 한 개일 때

3) 비선형 회귀분석 : 함수 관계가 곡선(비선형) 관계인 경우

 

2. 회귀모형 도출

: 회귀분석에서의 Data의 총변동은 회귀선에 의해 설명되는 변동과 회귀선으로 설명되지 않는 오차에 의한 변동으로 구분됨

 

- 결정계수(R2)

: 회귀식의 변동이 총변동의 어느 정도를 설명하는지를 나타내는 척도, 단순히 인자(독립변수) 수만 늘려도 설명력이 증가하여 설명력이 부풀어지는 문제점이 있음

 

- 수정된 결정계수(R2adj)

; R2의 문제점을 개선한 결정 계수로 다중선형 및 비선형 회귀식의 설명력은 수정된 결정 계수(R2adj)로 판단되어야 한다

인자 수에 의해 부풀어진 설명력을 자유도로 나누어 조정함

 

- 적합성 결여(lack-of-fit)

: 독립 변수와 반응치의 함수관계를 추정한 회귀 모형을 사용하는데 적합한지를 판단하기 위한 목적으로 사용함 

1) Pure Error(순수오차) : 군내변동 개념

2) Lack of Fit(적합결여) : 1 표본 t 검정에서의 표본 평균과 검정하고자 하는 목표의 차이 개념임, 군간 변동 개념

3) 적합성 결여의 판단 : 적합성 결여 검정은 회귀식의 추정값이 평균과의 차이(결여)가 없어야 회귀식의 잘 추정되었다고 판단함, 적합성 결여의 P값이 유의 수준 0.05보다 커야 회귀식이 적합하며 유의수준 0.05보다 작은 경우는 추정된 회귀식이 적합하지 않다는 것을 의미

 

- 분산팽창인수(VIF)

: 다중회귀 분석에서 Fitting 된 인자 간 다중 공선성을 진단하는 계략적인 척도

1) 판단 : VIF ≒ 1 매우 바람직 , VIF > 5 인자들 간에 공선성이 의심됨 , VIF > 10 인자들간에 심각한 공선성 문제 있음

→ 다중 공선성(multicollinearity)이란, 다중 회귀분석에서 독립변수(잠재인자)들 간에 강한 상관관계가 존재하는 현상으로, 다중 공선성이 존재하면 잘못된 치명인자를 선정할 수 있다. 

→ 해결법으로는 상관관계가 높은 독립변수 중 하나 혹은 일부를 제거하거나 변수를 변형시키거나 새로운 관측치를 이용하거나 자료를 수집하는 현장의 상황을 보아 상관관계의 이유를 파악하여 해결한다.

 

반응형