빅 데이터와 시각화의 시대

구슬이 서말이라도 꿰어야 보배라는 말처럼,

잘 모아두기만 했던 데이터들을 요리조리 뜯어보고

보기 쉬운 형태로 그려주는 작업들이 주목을 받고 있습니다.

(데이터 시각화라고도 하죠.)

‘빅 데이터’를 수많은 구슬이라고 하고,

‘시각화된 정보’를 완성된 목걸이에 비유하자면,

데이터를 어떤 시각에서 바라보고 어떤 정보를 이끌어내느냐,

한마디로 ‘데이터 분석’은 바로 구슬들을 꿰어내는 실이라고 할 수 있습니다.

능력자가 열한 명이어도 꿰어야 축구임을 보여준 유로2012의 네덜란드 팀

– 이 수식을 코드로 옮기라고요?

헌데, 프로그래밍을 배운 이유로

‘컴퓨터가 계산을 대신 해주기 때문에’라고 답할 만큼

수학을 거부하는 프로그래머라면,

복잡한 통계 수식을 코드로 옮기는 일만큼 고된 작업도 없을 겁니다.

또, 데이터란 놈이 IT 세계 뿐만 아니라

사람들의 생활을 분석(사회과학이라고도 하죠)하면서도 수없이 쌓이는데,

이를 분석하는 일은 수학이 싫어 인문계를 택했을지도 모르는

인문학도가 맡게 되기도 하죠.

수식을 읽으려다가 이미 멘붕

이런 상황에서 보통은 SPSS나 SAS 등의 통계 분석 프로그램들이

해결책으로 제시되지만, 사용법을 익히는 과정 자체가 또하나의 장벽이 되기도 합니다.

(또 어마어마하게 비싸기도 하죠.)

그래서 여기에 R이라는 언어가 출현했습니다.

– R (먹는 알은 아니고…)

R은 오픈 소스 언어입니다.

이 말은, 내게 필요한 기능을 지구 반대편의 누군가가 이미 만들어두었을지도 모른다는 뜻이기도 합니다.

물론, 구글신께 간절히 물어보는 과정을 거쳐야 하긴 하겠지만요.

아무튼, 누군가 만들어둔 기능이 여러 사람들에게 활용되고,

피드백을 받아 기능이 개선되고 오류가 수정되는 등…

오픈 소스의 장점은 다양합니다.

2011년 데이터 분석 대회에서 사용된 소프트웨어별 사용자수

– R Cookbook

그러나 외국 사람이 만든 언어이다보니,

어지간한 기능 하나 알아보려고 구글신께 빌어봐도

대답을 영어로 해주시니 난감할 따름… ㅠㅠ

(검색 결과도 오~~지게 많고요. )

인터넷만 뒤지면 된다는 말이 별 의미 없어지는 순간이죠.

그냥 누군가 나서서 다들 많이 쓰는 기능을 책으로 잘 정리해준다면 정말 좋을 겁니다.

그래서 R Cookbook이 등장했습니다.

R Cookbook은 ‘무엇을 어떻게’ 하는지가 설명되어 있습니다.

간단하게는 CSV 파일이나 데이터베이스를 읽고 쓰는 방법, 기본적인 확률을 계산하는 방법부터, 고급 확률 계산까지 그리고 분석한 데이터를 그래픽으로 표현하는 방법도 설명하고 있습니다.

R로 그린 그래프
R로 이런 것’도’ 그릴 수 있어요. (출처 – http://addictedtor.free.fr/graphiques/)

– 번역은 인문학자, 감수는 KRUG  대표님

번역으로는 이제원 님께서 수고해주셨습니다.

인문학도로 4년을 보낸 뒤 소셜컴퓨팅 랩에서 석사과정을 밟으려 하자

가장 먼저 R(과 파이썬)을 배워야 했다고 옮긴이의 글에서 밝히고 계십니다.

아울러, 한국 R 사용자 모임의 대표이자

현재 NexR에서 R을 이용한 빅데이터 분석을 담당하고 계신 유충현 님께서

감수를 맡아, 깨알 같은 주석으로 큰 도움을 주셨습니다.

두 분께 진심으로 감사드립니다. ^^

정오표