통계학 살짝 기초

최솟값, 최댓값, 평균, 중위수(중앙값)

출근 소요 시간
날짜 1 2 3 4 5 6 7 8 9 10
시간(분) 30 29 32 28 32 29 27 32 29 32
날짜 11 12 13 14 15 16 17 18 19 20
시간(분) 31 30 33 27 29 33 31 34 34 32

누군가 출근하는데 소요되는 시간을 20일동안 측정해보니 위 표와 같았다고 합니다.

출근하는데 걸린 시간의 최솟값은 27분, 최댓값은 34분이니
측정된 값을 보면 이 사람의 출근 소요시간은 27~34분입니다.
8시에 집에서 출발한다면 8시 27~34분에 도착하는 겁니다.

그런데 매번 이렇게 27~34라고 적거나 말하는 것은 귀찮기도 하고,
대개 27분쯤 걸리는데, 어쩌다 34분이 되는 것인지,
아니면 대개 34분쯤 걸리는데, 어쩌다 27분쯤 걸리는 것인지
파악하기도 어렵습니다.

보통 얼마정도 걸리는지를 얘기하는 방법으로 "평균"을 많이 사용합니다.
평균은 주어진 숫자를 모두 더한 다음 숫자의 갯수로 나누면 얻게 되는 값입니다.
(30+29+32+28+32+29+27+32+29+32+31+30+33+27+29+33+31+34+34+32)÷20=30.7
그러므로 이 사람은 보통 출근에 30.7분 정도 걸린다고 할 수 있습니다.

평균은 모든 값의 특성을 크기에 비례해서 반영하기에
특별이 크거나 작은 값이 있을 때에는
자료 대부분의 특성을 나타내지 못할 수도 있습니다.
이런 경우에 중위수(크기 순서대로 나열했을 때, 중간에 해당하는 값)를 밝혀주는 게 좋을 수 있습니다.

중위수는 자료의 개수(n)가 홀수이면 {(n+1)÷2}번째의 값,
짝수이면 (n÷2)번째와 (n÷2+1)번째 값의 평균으로 계산합니다.
위 자료에서는 10번째와 11번째의 값이 같으니
중위수는 31분이라고 할 수 있습니다.


Calc나 Excel에서 계산하는 방법

Calc나 Excel에서
MIN함수를 이용해서 최솟값을,
MAX함수로 최댓값을,
AVERAGE함수로 평균값을,
MEDIAN함수로 중위수를 구할 수 있습니다.

사용법은 아래와 같습니다.

자료의 갯수: =COUNT(30,29,32,28,32,29,27,32,29,32,31,30,33,27,29,33,31,34,34,32)
합계: =SUM(30,29,32,28,32,29,27,32,29,32,31,30,33,27,29,33,31,34,34,32)
최솟값: =MIN(30,29,32,28,32,29,27,32,29,32,31,30,33,27,29,33,31,34,34,32)
최댓값: =MAX(30,29,32,28,32,29,27,32,29,32,31,30,33,27,29,33,31,34,34,32)
평균: =AVERAGE(30,29,32,28,32,29,27,32,29,32,31,30,33,27,29,33,31,34,34,32)
중위수: =MEDIAN(30,29,32,28,32,29,27,32,29,32,31,30,33,27,29,33,31,34,34,32)

각각의 숫자 대신 셀주소를 적어도 됩니다.

자료의 갯수: =COUNT(B2:K2,B4:K4)
합계: =SUM(B2:K2,B4:K4)
최솟값: =MIN(B2:K2,B4:K4)
최댓값: =MAX(B2:K2,B4:K4)
평균: =AVERAGE(B2:K2,B4:K4)
중위수: =MEDIAN(B2:K2,B4:K4)

* Calchttps://ko.libreoffice.org/에서 무료로 다운받을 수 있는 LibreOffice의 한 프로그램이다.

R에서 계산하는 방법

저는 우분투 터미널 기준으로 설명하겠습니다만, 윈도우도 큰 차이는 없을 거라 생각합니다.

먼저 R을 실행해야 합니다.

사용자명@컴퓨터이름~$ R

문제 없이 R이 실행되면 자료를 입력합니다.

> data = c(30,29,32,28,32,29,27,32,29,32,31,30,33,27,29,33,31,34,34,32)

이제 입력된 자료를 이용해 각각의 값을 구하면 됩니다.

- 자료의 갯수 -
> length(data)
- 합계 -
> sum(data)
- 최솟값 -
> min(data)
- 최댓값 -
> max(data)
- 평균 -
> mean(data)
- 중위수 -
> median(data)

* Rhttps://cran.r-project.org/에서 무료로 다운받을 수 있는 통계 프로그래밍 언어의 하나이다. 설치 방법은 lovetoken님의 강의를 참고하면 될 것 같다.

댓글

댓글 본문
  1. 최동희
    which.max 함수에 대해 찾아보시는 게 좋을 것 같네요.
    대화보기
    • R초보
      좋은 정보 감사합니다.
      혹시 R에서 최댓값을 가지는 변수의 이름을 구하는 방법이 있을까요?
      저 경우엔 8,9를 출력하도록 말입니다.
    버전 관리
    최동희
    현재 버전
    선택 버전
    graphittie 자세히 보기