Computing

엑셀을 이용한 통계자료 분석 - 3. 통계량을 이용해서 자료를 정리

깡또아빠 2012. 12. 28. 17:27

통계라는 단어가 제목에 2번이나 들어가니까 정말 재미없겠다. 싶다. 쩝

어렵게 생각하지 말자. 어차피 Excel이 계산해준다!!

 

통계량에 의한 자료의 정리는 중심위치를 나타내는 평균, 중위수, 최빈수 등이 있으며 관측값의 흩어진 정도를 측정하는 분산, 표준편차, 범위 등이 있다.

 

하나씩 살펴보면서 아~하~~ 를 외쳐보자.

 

자료의 중심위치를 나타낸다라. 이게 뭘까? 자료를 대표한다고 이해하면 어떨까? 하나의 값이 그 데이터들을 대표한다고 하면 이해하기 쉬울 것 같다.

 

1. 평균 (mean)

중심위치의 측도로서 가장 많이 사용되고 있다.

모든 데이터들의 값을 합하여 데이터 개수로 나누면 된다. (산술평균)

* 극단값에 영향을 많이 받는다.

 

2. 중위수 (median)

데이터 전체를 크기 순서로 배열했을 때 중앙에 위치하는 값이다.

데이터의 총 개수가 홀수이면 중앙에 위치하는 데이터, 짝수이면 중앙에 위치하는 두 개의 데이터의 평균값이 된다.

* 극단값에 영향을 많이 받지 않는다.

 

3. 최빈수 (mode)

전체 데이터에서 가장 빈번하게 나오는 값을 말한다.

위치적 대표값으로서 양적자료, 질적자료에 두루 활용된다.

예를들면, 가장 많이 팔리는 제품, 핸드폰, 태블릿 등을 알 수 있다.

 

자~ 위 3가지에 대해 Excel을 활용해서 구해보도록 하자.

 

1

1

1

3

3

3

5

5

5

5

5

5

7

7

7

7

7

7

7

7

7

9

9

9

평균

중위수

최빈수

5.5

6

7

 

위의 값들이 나오는데는 다음과 같은 수식이 활용되었다.

평균 : average

중위수 : median

최빈수 : mode

 

참고로 위 그림과 같이 Excel에 수식을 나타내고 싶다면, 수식탭에서 수식표시를 클릭하면 된다.

 

 

 

자 계속해서 자료의 흩어진 정도를 나타내는 경우를 살펴보자.

대표적인 값을 가지고 자료의 전체적인 분포 상황을 알 수가 없다. 국영수를 100점 70점 100점 맞은 녀석의 평점은 90점, 국영수를 90점 90점 90점 맞은 녀석의 평점도 90점이다. 누가 골고루 잘하는지는 대표값만을 가지고는 알 수 없다. 즉 충분한 정보력이 되기 위해서는 흩어진 산포도 함께 살펴봐야 한다.

 

1. 분산 (variance), 표준편차 (standard deviation)

각 자료의 값에서 평균을 빼고 제곱시킨다. 이를 제곱합(sum of square)라고 한다.

이 제곱합을 자료의 총합으로 나누어 계산된 통계값 즉 통계량을 분산이라고 한다.

이를 제곱근 한게 표준편차이다.

 

예제

4

5

10

3

4

4

8

4

10

10

6

6

4

5

10

1

6

8

2

5

9

5

5

4

1

5

3

5

6

7

분산

8.45556

0.54444

7.43333

표준편차

2.90784

0.73786

2.72641

 

사람이 눈으로 데이터를 파악하는데는 한계가 있는법, 그래프로 살펴보자.

 

 

위 가로막대 그래프만 보아도 계열2가 가장 흩어짐이 적음을 알 수 있다. 그렇다고 위의 표를 가지고 흩어짐이 제일 적습니다. 라고 말할 수 없으므로 분산, 표준편차와 같은 통계량를 활용하는 것이다.

 

 

 

 

2. 범위 (range)

데이터의 최대값과 최소값의 차이를 범위라고 한다.

엑셀에서 범위를 구하는 단 한문장의 함수는 없다. 왜 없는지는 모르겠다.

R = max(데이터 값) - min(데이터 값) 을 이용해서 구한다.

 

예제

4

5

10

3

4

4

8

4

10

10

6

6

4

5

10

1

6

8

2

5

9

5

5

4

1

5

3

5

6

7

범위

9

2

7

 

 

 

 

3. 사분위수와 사분위 범위 (quartile range)

사분위수는 데이터를 크기 순서에 따라 늘어놓은 데이터에 4등분한 값을 말한다.

그 중 첫 번째를 제1사분위수, 세 번째를 제3사분위수라고 한다.

여기서 제2사분위수는 중위수에 해당되며, 제1사분위수와 제3사분위수의 차이를 사분위 범위라고 한다.

QR = Q3-Q1

사분위 범위는 극단적인 값에 영향을 덜 받는다.

 

3

 
 

5

 
 

7

 
 

9

 
 

14

 
 

15

 
 

17

 
 

19

 
최소값

3

 
제1사분위수

6.5

25번째 백분위수
제2사분위수

11.5

50번째 백분위수
제3사분위수

15.5

75번째 백분위수
최대값

19

 

 

 

 

 

4. 변동계수 (coefficiant of variation)

변동계수는 평균에 대한 상대적인 퍼짐의 정도를 백분율로 나타낸 것이다. 측정 단위가 다르거나 중심위치가 아주 상이하게 다른 2종류의 데이터를 비교하고자 할 때 사용한다.

CV = 제곱합 ÷ 평균 × 100

 

* 이는 엑셀에서 따로 함수를 사용하는 것이 아니라 직접 계산해야 한다.

 

그 밖에 표준오차가 있다. 표준오차는 일반적으로 추정량의 표준편차를 의미한다. 따라서 표준오차는 취급하는 문제에 따라 추정량이 변경되면 표준편차도 달라지게 된다. 자세한 것은 그때 그때 알아보자.

 

이상. 끝