Computing

R 완전 초보가 다뤄보기 -2

깡또아빠 2013. 1. 2. 13:06

새해가 밝았다. 31살이구나. 허... 

30살 될때에는 큰 뭔가가 짠~~ 하고 그랬는데, 지금은 별다른 감흥이 없다;;; 

(어여 재취업을 해야 할터인데.. 하는 근심뿐이다;;)


이럴 때 일수록 밥을 든든히 먹어줘야돼~ 하면서 밥을 큰 공기로 2그릇을 후딱 해치우고서

다시 프로그래밍을 공부해본다. 아자아자~




많은 경우에 Data를 따로 저장해 놓고 사용할 경우에만 이를 불러와서 편집 및 수정을 하게 된다.


R에서 데이터를 블러오는 명령어로는 read 가 있으며 2가지 종류를 불러올 수 있다.

csv(엑셀), txt(메모장)이 있다.





mac을 사용하면서 사용자로 지정되어 있는 폴더 아래에 "newdata"란 문서를 생성해보았다.

파일을 열어보면 다음과 같다.




위 그림과 같이 3by3 행렬의 Data이다.


위 Data를 R 프로그램으로 불러오기 위해서 다음과 같이 명령한다.

(사용자 명은 임의로 가려놨음을 이해 바란다)


2번의 명령어 중 끝에 header 에 대해 False, True에 따라 행의 처음 시작을 어떻게 해야 할지가 달라진다.

저장되어 있는 자료의 첫 번째 행이 변수 이름으로 사용하기 위해서는 True, 아니면 False를 사용하면 된다. 즉 첫 번째 행이 변수 이름이 아니라 자료값일 경우 header=F로 하면 되는 것이다.


위 경우에는 read.csv를 사용하여 엑셀파일 data를 불러왔지만 확장자가 txt인 파일을 불러 올경우 read.table로 사용하면 되고, 그 이외에는 동일하다.


불러오는 거 말고 저장하기 위해서는 write.csv 또는 write.table 함수를 사용하면 된다.



17 by 2 행렬을 newdata2.csv 파일로 생성하는 내용이다.

잘 만들어 졌는지 확인해보자.



잘 생성되어 있음을 확인할 수 있다.


대게 주소를 지정하지 않는 이상은 각 R프로그램이 지정해놓은 루트 폴더에 저장된다.

mac에서는 도큐멘트 폴더안에 있다.


자 이제는 패키지를 이용한 경우를 살펴보자.

R은 오픈소스로 구동되는 프로그램인만큼 여러 개발자(연구, 통계학자 등)들에 의해 최신 기법을 공유하고 공짜로 활용해볼 수 있다.


그러나 표준화되어 있지 않으므로, 여러개의 패키지를 깔 경우 충돌이 있을 것이라고 생각된다.

이러한 부분은 각 사용자가 주의해야 할 점이 아닌가 싶다.



Package Installer 를 이용해서 설치해보자.

패키지의 경우 각 해당 국가의 server를 이용하면 된다.


현재 Korea 서버는 2곳이 있다. 각자 알아서 선택해보자.

Korea serve1을 선택 후에 lattice 패키지를 깔아보려고 한다.

으흠.. Package마다 어떤 function이 있는지 정리해 볼 엄두가 안 날 정도로 가득하다.


lattice의 경우 dotplot 등 몇가지를 제공하는 것으로 보인다. 

몇 가지 대표적인 패키지에 무엇이 있는지도 한번 정리해볼 만한 작업이 아닌가 싶다. (추후 진행)


자 설치를 해보고 났으니 한번 써먹어봐야지?

내가 지금 보고 있는 책의 예제를 사용해서 활용해본다.



dice란 변수에 값을 입력하고, library로 lattice을 불러왔다. 

그리고 dotplot 함수를 사용하여 산점도를 그려본다.

헉... x축의 "빈도" 와 y축의 "주사위는 어디로 간것인가? 

또한 예제를 마구 쳐넣었더니, 주사위 숫자에 7, 8, 9가 들어가있군;;;

한글은 지원이 안되는 것인가? (mac이라 그런것인가?) 


중요하지 않다. PASS, (귀찮아서 Pass)


자. 내일은 Data를 만들어서 간단한 기초통계량을 산출해보도록 한다.


이상. 끝