통계라는 단어가 제목에 2번이나 들어가니까 정말 재미없겠다. 싶다. 쩝
어렵게 생각하지 말자. 어차피 Excel이 계산해준다!!
통계량에 의한 자료의 정리는 중심위치를 나타내는 평균, 중위수, 최빈수 등이 있으며 관측값의 흩어진 정도를 측정하는 분산, 표준편차, 범위 등이 있다.
하나씩 살펴보면서 아~하~~ 를 외쳐보자.
자료의 중심위치를 나타낸다라. 이게 뭘까? 자료를 대표한다고 이해하면 어떨까? 하나의 값이 그 데이터들을 대표한다고 하면 이해하기 쉬울 것 같다.
1. 평균 (mean)
중심위치의 측도로서 가장 많이 사용되고 있다.
모든 데이터들의 값을 합하여 데이터 개수로 나누면 된다. (산술평균)
* 극단값에 영향을 많이 받는다.
2. 중위수 (median)
데이터 전체를 크기 순서로 배열했을 때 중앙에 위치하는 값이다.
데이터의 총 개수가 홀수이면 중앙에 위치하는 데이터, 짝수이면 중앙에 위치하는 두 개의 데이터의 평균값이 된다.
* 극단값에 영향을 많이 받지 않는다.
3. 최빈수 (mode)
전체 데이터에서 가장 빈번하게 나오는 값을 말한다.
위치적 대표값으로서 양적자료, 질적자료에 두루 활용된다.
예를들면, 가장 많이 팔리는 제품, 핸드폰, 태블릿 등을 알 수 있다.
자~ 위 3가지에 대해 Excel을 활용해서 구해보도록 하자.
1 |
1 |
1 |
3 |
3 |
3 |
5 |
5 |
5 |
5 |
5 |
5 |
7 |
7 |
7 |
7 |
7 |
7 |
7 |
7 |
7 |
9 |
9 |
9 |
평균 |
중위수 |
최빈수 |
5.5 |
6 |
7 |
위의 값들이 나오는데는 다음과 같은 수식이 활용되었다.
평균 : average
중위수 : median
최빈수 : mode
참고로 위 그림과 같이 Excel에 수식을 나타내고 싶다면, 수식탭에서 수식표시를 클릭하면 된다.
자 계속해서 자료의 흩어진 정도를 나타내는 경우를 살펴보자.
대표적인 값을 가지고 자료의 전체적인 분포 상황을 알 수가 없다. 국영수를 100점 70점 100점 맞은 녀석의 평점은 90점, 국영수를 90점 90점 90점 맞은 녀석의 평점도 90점이다. 누가 골고루 잘하는지는 대표값만을 가지고는 알 수 없다. 즉 충분한 정보력이 되기 위해서는 흩어진 산포도 함께 살펴봐야 한다.
1. 분산 (variance), 표준편차 (standard deviation)
각 자료의 값에서 평균을 빼고 제곱시킨다. 이를 제곱합(sum of square)라고 한다.
이 제곱합을 자료의 총합으로 나누어 계산된 통계값 즉 통계량을 분산이라고 한다.
이를 제곱근 한게 표준편차이다.
예제 |
4 |
5 |
10 |
3 |
4 |
4 | |
8 |
4 |
10 | |
10 |
6 |
6 | |
4 |
5 |
10 | |
1 |
6 |
8 | |
2 |
5 |
9 | |
5 |
5 |
4 | |
1 |
5 |
3 | |
5 |
6 |
7 | |
분산 |
8.45556 |
0.54444 |
7.43333 |
표준편차 |
2.90784 |
0.73786 |
2.72641 |
사람이 눈으로 데이터를 파악하는데는 한계가 있는법, 그래프로 살펴보자.
위 가로막대 그래프만 보아도 계열2가 가장 흩어짐이 적음을 알 수 있다. 그렇다고 위의 표를 가지고 흩어짐이 제일 적습니다. 라고 말할 수 없으므로 분산, 표준편차와 같은 통계량를 활용하는 것이다.
2. 범위 (range)
데이터의 최대값과 최소값의 차이를 범위라고 한다.
엑셀에서 범위를 구하는 단 한문장의 함수는 없다. 왜 없는지는 모르겠다.
R = max(데이터 값) - min(데이터 값) 을 이용해서 구한다.
예제 |
4 |
5 |
10 |
3 |
4 |
4 | |
8 |
4 |
10 | |
10 |
6 |
6 | |
4 |
5 |
10 | |
1 |
6 |
8 | |
2 |
5 |
9 | |
5 |
5 |
4 | |
1 |
5 |
3 | |
5 |
6 |
7 | |
범위 |
9 |
2 |
7 |
3. 사분위수와 사분위 범위 (quartile range)
사분위수는 데이터를 크기 순서에 따라 늘어놓은 데이터에 4등분한 값을 말한다.
그 중 첫 번째를 제1사분위수, 세 번째를 제3사분위수라고 한다.
여기서 제2사분위수는 중위수에 해당되며, 제1사분위수와 제3사분위수의 차이를 사분위 범위라고 한다.
QR = Q3-Q1
사분위 범위는 극단적인 값에 영향을 덜 받는다.
3 |
||
5 |
||
7 |
||
9 |
||
14 |
||
15 |
||
17 |
||
19 |
||
최소값 |
3 |
|
제1사분위수 |
6.5 |
25번째 백분위수 |
제2사분위수 |
11.5 |
50번째 백분위수 |
제3사분위수 |
15.5 |
75번째 백분위수 |
최대값 |
19 |
4. 변동계수 (coefficiant of variation)
변동계수는 평균에 대한 상대적인 퍼짐의 정도를 백분율로 나타낸 것이다. 측정 단위가 다르거나 중심위치가 아주 상이하게 다른 2종류의 데이터를 비교하고자 할 때 사용한다.
CV = 제곱합 ÷ 평균 × 100
* 이는 엑셀에서 따로 함수를 사용하는 것이 아니라 직접 계산해야 한다.
그 밖에 표준오차가 있다. 표준오차는 일반적으로 추정량의 표준편차를 의미한다. 따라서 표준오차는 취급하는 문제에 따라 추정량이 변경되면 표준편차도 달라지게 된다. 자세한 것은 그때 그때 알아보자.
이상. 끝
'Computing' 카테고리의 다른 글
R 완전 초보가 다뤄보기 -1 (2) | 2012.12.31 |
---|---|
프로그램 R에 관하여 (1) | 2012.12.31 |
엑셀을 이용한 통계자료 분석 - 2. 함수 활용하기 (0) | 2012.12.28 |
엑셀을 이용한 통계자료 분석 - 1. 분석기능 추가하기 (0) | 2012.12.28 |
Magican (0) | 2012.12.13 |