이번에는 가장 기본적인 그래프인 히스토그램을 R언어를 통해서 그려보도록 하겠습니다. 기본적으로는 제가 개인적으로 가지고 있는 데이터를 사용하고 있습니다. 아무 데이터나 사용해도 크게 상관은 없습니다. 제 데이터로 동일하게 해보고 싶은 신 분은 아래 링크에서 다운로드 받으시고 하시면 됩니다.
데이터를 R로 불러오는 것은 지난 블로그를 참조해 주세요.
첫번째로, R에서 기본적으로 제공하는 히스토그램을 간단히 그려보겠습니다.
hist(변수이름)해주면 아주 간단하게 히스토그램을 그릴 수 있습니다. 제 예제 파일을 기준으로 하면, hist(Length) 만 입력해 주시면 됩니다.
히스토그램 함수의 인자를 알아보도록 하겠습니다. 하기 인자외에도 몇 가지 더 있지만, 중요한 인자들만 알아보도록 하겠습니다.히스토그램은 기본적으로 빈도수 또는 확률 밀도로 나타낼 수 있습니다. 기본값은 빈도수로 그려져 있는 것을 볼 수 있습니다. 중요 인자를 변경해서 그려보도록 하겠습니다.
빈도를 확률 밀도로 변경, 색상은 다크 블루, 경계선은 없도록, 제목은 "Length", Label 출력, 계급 구간은 5개로 줄여보도록 하겠습니다.
코드는 아래와 같습니다.
11~12행은 히스토그램 그리는 코드인 걸 이제 아시겠죠? 13행을 설명드리도록 하겠습니다. 우선 Length_norm이라는 변수를 만든 것이고요. 그 변수는 Length 변수의 평균과 표준편차값의 정규분포를 따르는 난수 10000개 생성하라는 의미입니다. mean은 평균, sd는 표준편차 함수인 걸 아시겠죠?
14행은 생성된 Length_norm 변수를 선으로 그리하는 의미입니다. col은 색상, lwd는 선의 굵기, lty는 선의 스타일(점선, 실선 등)을 나타냅니다.
빨간색 선은 난수표로 생성된 데이터의 확률 밀도이고, 파란색 선은 Length변수를 사용하여 확률밀도를 그린 것입니다. 해당 자료는 데이터가 많기때문에 그 선간의 차이가 별로 없는 걸 볼 수 있습니다.
기본적인 히스토 그램과 정규분포 곡선을 그리는 방법을 알아보았습니다.




