여러가지 변수에 대한 영향을 한꺼번에 알아 볼 수 있는 산점도와 상관분석에 대해서 알아보도록 하겠습니다.
자동차 연비에 대한 간단한 산점도를 그려봤었습니다. 데이터 입력 및 간단한 산점도는 기존 블로그를 먼저 확인해 주세요.
여러 변수에 대해서 2변량 산점도를 한번에 볼 수 있는 그래프 입니다.
![]() |
네 가지 변수를 하나의 변수로 먼저 저장해 둡니다. 27행.
pair()함수를 이용하여 여러 변수의 상관관계를 한번에 볼 수 있도록 그려줍니다.
disp(배기량), wt(중량), accler(가속계수), mpg(연비) 변수에 대해서 각각의 관계를 한 번에 쉽게 볼 수 있습니다. 예를 들어 노란색으로 칠해진 그래프를 x축(wt, 중량), y축(disp, 배기량)의 산점도입니다. 여러 변수에 대해서 상관관계를 쉽게 볼 수 있는 함수입니다.
그럼 이 중에서 연비과 중량에 대해서 회귀분석을 해보도록 하겠습니다.
회귀분석의 기본 코드는 lm(y변수~x변수, data=) 입니다. 중량을 x변수, 연비를 y변수로 하여 분석한 결과가 위와 같습니다. 이걸 종합해 보면
y(연비) = 46.60 - (0.007759*wt) 이라는 회귀분석식을 도출해 낼 수 있으며, 결정계수(R 스퀘어)는 0.709라는 결과가 나왔습니다.
상기와 같이 34행으로 산점도를 그리고, 그 위에 직선 회귀식 직선을 추가할 수 있습니다. abline()함수는 직선을 추가 해라는 의미이고, lm(mpg~wt)는 위에서 본 것처럼 회귀 직선 (lm=liner model)을 의미하고, col은 색상, lwd는 굵기, lty는 스타일(점선, 실선 등)을 정의합니다. 그 결과는 아래와 같습니다.
지금까지 여러 변수의 산점도를 한꺼번에 그리는 방법과 선형 회귀분석을 실시하고 산점도에 직선 회귀선을 추가하는 방법까지 알아보았습니다.



