통계학 살짝 기초

상관계수

행정구역별 사업장수, 폐수방류량, 유기물질 부하량
region noOfBusiness sewage organicLoad
Seoul 3571 60536 367
Busan 2294 111929 651
Daegu 2412 163481 382
Incheon 3155 100576 1652
Gwangju 1066 30149 75
Daegjeon 997 49011 188
Ulsan 1013 379652 1261
Gyeonggi 14357 871996 5349
Gangwon 2102 81208 688
Chungbuk 2647 189913 956
Chungnam 2969 670549 1939
Jeonbuk 2524 206472 1199
Jeonnam 2439 288838 1063
Gyeongbuk 4083 447582 1702
Gyeongnam 4436 125417 1423
Jeju 559 7142 73

region: 시/도, noOfBusiness: 사업장 수(개), sewage: 폐수 방류량(㎥/일),
organicLoad: 유기물질 부하량(kg/일)
※출처: 환경부 수질관리과, 국립환경과학원. 2015.
산업폐수의 발생과 처리 2015 (2013년 12월말 기준) : 환경오염 배출업소 조사결과. 환경부.

2013년에 산업폐수 발생에 대해 환경부에서 조사한 결과가 위의 표와 같다고 합니다.
상식적으로 생각해보면 사업장 수가 많을 수록 폐수 방류량도 늘어나고, 오염물질의 양도 늘어날 것 같은데,
실제로 위의 표에 적힌 값이 얼마나 상관관계가 있는지 확인해봅시다.

위의 사업장 수, 폐수 방류량, 유기물 부하량처럼
수치로 이루어진 두 변량 사이에 직선적인 관계가 있는지를 나타내는 통계값으로는
상관계수가 많이 쓰입니다.

상관계수는 -1에서 1 사이의 실수 값으로
절대값이 0에 가까울수록 직선적인 관계가 약하고,
절대값이 1에 가까울수록 직선적인 관계가 강합니다.

두 변량의 산점도 그래프를 그리고, 단순선형회귀분석으로 직선의 방정식을 구하면
상관계수는 이 직선의 기울기가 되는데, 산점도나 회귀분석을 모르면 이 문장은 건너뛰어도 전체 내용 이해에는 별 지장이 없을 겁니다.

직선적인 관계가 아니라면 두 변량 사이에 관계가 있더라도 상관계수로 확인되지 않을 수 있으니 주의해야 합니다.

상관계수에는 Pearson, Spearman, Cronbach의 여러 종류가 있다고 하는데, 여기서는 가장 기본적인 Pearson의 상관계수만 다루겠습니다. Pearson의 상관계수를 구하는 수식은 아래와 같습니다.

Pearson의 상관계수 수식
N: 자료의 개수, μ: 평균, pi: i번째 자료의 확률, σ: 표준편차


Calc나 Excel에서 계산하는 방법

Calc나 Excel에서는
CORREL함수나 PEARSON함수를 이용해서
Pearson의 상관계수를 구할 수 있습니다.

사용법은 아래와 같습니다.

=CORREL(배열1,배열2)
=PEARSON(배열1,배열2)

배열1과 배열2를 각각의 변량으로 지정해야 하고,
짝지어지는 변량의 적는 순서가 일치해야 합니다.


R에서 계산하는 방법

R을 실행합니다.

사용자명@컴퓨터이름~$ R

현재 R이 실행되고 있는 위치를 확인합니다.

> getwd()

R이 실행되고 있는 위치에 csv 형식의 자료파일을 저장합니다.

자료파일을 R에서 불러옵니다.

> data=read.csv("파일이름")

data를 사용설정합니다.

> attach(data)

cor함수를 이용하여 상관계수를 구합니다.

> cor(noOfBusiness,organicLoad)
> cor(noOfBusiness,sewage)
> cor(sewage,organicLoad)

* csv 형식의 자료파일은 Calc, Excel, 문서편집기로 만들 수 있다. 여기에서 사용하는 자료파일은 여기를 클릭해서 다운로드 받을 수 있다.

댓글

댓글 본문
버전 관리
최동희
현재 버전
선택 버전
graphittie 자세히 보기