근래에 들어, 2015-2016년도에 빅데이터라는 단어가 자주 인터넷, 뉴스, 기사 등에 나타나곤 했습니다.
저도 빅데이터에 관심을 가진지는 그렇게 오래되지 않았는데요. 빅데이터란 무엇일까요??
원래 빅데이터 분야는 없다가 생긴 분야가 아닙니다. 원래 있었지만 우리나라에서는 이제야 두각을 나타낸 것이라고 할까요?
하지만 잠깐 두각을 나타내고, 알파고 사태에 묻혀 갑자기 이제는 머신러닝 등을 외치고 있습니다. 거두절미하고,
옛날에 우리가 펜티엄 컴퓨터를 쓸 때 부족함이 없어 보였지만, 지금은 조선시대 컴퓨터라고 합니다.
그만큼 요즘은 훨씬 더 빠르고, 고성능인 IT기기들을 사용하니까요. 그만큼 많은 분야에서 발전된 결과라고 할 수 있습니다.
비슷하게, 100GB가 꽤 큰 규모였다면, 요새는 TB도 흔하게 볼 수 있습니다. 그만큼 데이터도 빠르고 다양한 구조로 생성되고 있습니다.
또, IT가 발전함에 따라서 상대적으로 저장매체(하드디스크 등)의 가격이 매우 낮아졌습니다. 그렇기에 기업들도 비용 걱정은 안하고 살 수 있겠죠. 하지만 방대한 데이터들을 관리하는 것에 또 다른 비용이 들어가게 됩니다.
그렇다면 빅데이터는 어떻게 화두가 되었을까요?
2000년대 들어서 기업은 '상품중심'에서 벗어나 '고객중심', '소비자중심'으로 바라보기 시작하였고, 이에 따라서 수많은 고객들의 구매패턴, 구매시간, 구매한 상품 등 엄청나게 다양한 데이터들을 저장하고 분석하여야 했습니다.
그렇기에 데이터는 1개월만 쌓여도 엄청난 양이 되겠죠. 당연하게도 이전에는 이러한 데이터들에 관심이 없었습니다.
그렇기에 작은 데이터를 가지고 질 좋은 분석을 해내는게 목표, 즉 샘플링을 통해서 최대한 모수의 특성을 찾아내는 일이 중요했었다고 합니다. 하지만 요즘은, 그 수많은 데이터를 모아서, 저장하고, 샘플링하지 않고 전수를 분석하여 일정한 패턴을 찾아내는 것이 중요해졌습니다. 구지 엄청나게 많은 sample이 있는데 작은 샘플을 통해 모수를 찾지 않아도 직접 방대한 표본집단 전체를 분석하는게 가능하다면, 거의 모집단과 가깝게 되니까요.
그러나 IT가 많이 발전하였어도 아직도 그 엄청난 데이터를 한 번에 분석해내기에는 어려움이 있습니다. 그만큼 고사양 컴퓨터가 있어야 하니 비용도 만만치 않을 것으로 생각됩니다. 이러한 분석을 위해서 보통 SPSS, SAS(상업용 프로그램), R(오픈소스 프로그램)등을 사용합니다. 하지만 제가 듣기로는 SPSS나 SAS는 라이센스 문제로 회사에 많이 깔려있지 않다고 본 기억이 있습니다.
그렇기에 저는 SPSS를 사용해보았지만, 분석할 때는 R,Python을 이용해서 해보겠습니다.
SPSS는 메뉴얼이 다 있기때문에 버튼만 누르면 되는데, R은 통계 프로그래밍에 가깝습니다.
즉 내가 대부분 설정해주어야 하는 번거로움이 있지만, 반대로 R을 잘 다룰줄 알게 되면(물론 저는 아니지만)
내가 원하는 세밀한 분석도 가능하다는 장점이 있습니다.
잠시 삼천포로 빠졌는데, 이런 빅데이터를 이용한 사례들도 많습니다. 정부3.0이나 서울시 심야버스사업 등이 있죠.
1. 정부3.0중에 보건쪽에서 사용된 사례도 있었습니다. 전에 일어났던 어떤 병들을 쭉 조사해서 (패널 데이터? 라고 볼 수 있겠죠) 이번 해의 위험지역은 어디일까? 등 여러 방면으로 분석을 해서 예방율을 많이 끌어 올린 사례가 있었습니다.
2. 서울시 심야버스사업은 CDR(Call Datail Record)데이터를 기반으로 하였습니다.
심야 시간(지하철과 버스가 끊기는 시간) 누가 누구와 통화를 했는지, 문자를 주고받았는지,
어디에서 발신했는지, 어디에서 수신했는지, 기지국은 어딘지 등을 분석하여서 최적의 경로를 결정해
심야버스를 시행해서 큰 인기를 끌고, 뉴스에도 나오기도 했었습니다.
이런 식으로 데이터를 어떻게 활용하느냐에 따라서 여러 방면에서 적용할 수 있다는 점이 좋습니다.
하지만 이렇게 분석하기 위해서는 어떤 것을 분석할 것인가, 어떻게 분석할 것인가 등 방법론 적인 문제들이 중요하겠죠?
그렇다면 빅데이터는 어떤 것으로 구분이 될까요?
빅데이터는 크게 정형, 비정형, 반정형 데이터로 구분됩니다. 정형 데이터는 텍스트 같은 것을 의미하고 비정형은 동영상, 음성 등을 나타냅니다. 하지만 데이터(Raw data)는 정보(Information)이 아닙니다. 데이터를 가공하여 정보로서 만들었을 때 비로소 의미가 있다고 할 수 있습니다.
즉 그 데이터가 어떠한 사실이나 현상을 나타낼 수 있을 때, 비로소 정보가 되는 것입니다.
빅데이터의 특성은 무엇일까요?
빅데이터의 특성은 흔히들 말하는 3V (Velocity, Volume, Variety)입니다. 속도, 양, 다양성이죠. 데이터는 빠르게 생성되고 있으며 그 양이 방대하고, 다양한 출처에서 얻을 수 있습니다. 그게 바로 특성이 되는 것입니다. 그러나 Volume은 논란의 대상이 되고 있는데 어느 정도가 큰 양인가?를 규정할 수 없기 때문입니다.
이것은 상대적인 거라고 생각합니다. 지금은 4TB가 크다면, 미래에는 그렇지 않을 확률이 크기 때문이죠. 컨설팅 분야에서는 Value를 추가해 4V라고 한다고 합니다. 양이 많더라도 가치가 없는 데이터는 의미가 없기 때문입니다.
그렇다면 빅데이터를 분석하는 사람을 뭐라고 할까요? 데이터 사이언티스트입니다.
어떤 서적에서는, 기술은 다른 기술에 의해 대체되지만 분석은 추가될 뿐이라고 말하기도 했습니다.
따라서 데이터 사이언티스트는 엄청나게 놀라운 수리적 능력을 가지고 있어야 하는 것이 아니라,
팀 내에서 타인과 잘 화합할 수 있고, 상황에 맞게 적합한 분석을 할 수 있으며
그 분석을 해당 기업의 도메인에 대해 잘 이해하여 비즈니스적으로 생각할 수 있는 사람이라고 저는 정의합니다.
저 또한 경영학부 학생으로서, 통계학과나 컴퓨터 공학과가 아닌데 나는 데이터 분석을 한다 한들 +가 아니라 -가 되지 않을까? 라고 생각해서 교수님과 상담도 해봤는데요,
현실에서는 통계학과가 분석하는 일에 많이 뽑힌다고는 합니다. 하지만 분석을 잘할 뿐 그게 비즈니스 적으로 잘 연결되진 않는다고 얘기해주셨는데요,
경영학부라면 비즈니스적 마인드를 가지고 분석에 임할 수 있으므로, 불리하다고 생각하지 말고 그게 어떻게 보면 타인과 다른 +요인으로 생각하라고 하셨습니다.
+ 추가적으로 Gartner와 John Rause가 말하는 데이터 사이언티스트의 역량은 무엇일까요?
Gartner는
1. 데이터관리(데이터에 대한 이해)
2.분석 모델링(분석론에 대한 지식)
3. 비즈니스 분석(비즈니스 요소에 초점)
4. 소프츠스킬(커뮤니케이션, 협력, 리더십, 창의력, 규율, 열정)
이 4가지를 역량으로 규정하였고,
John Rause는
1. 수학과 공학능력(데이터의 분석 및 이를 위한 솔루션 작동을 위해서)
2.인문학적 소양(비판적 시각, 글쓰기 능력 및 대화능력)
3. 호기심 및 행복(통찰력 발휘, 일에 대한 만족과 보람)
위 3가지를 역량을 규정하였다고 합니다.
이렇게 오늘은 빅데이터란 무엇인가에 대해 써봤는데요! 이게 생각보다 포스팅 하나 하는데 시간이 꽤나 걸리네요.
검토는 하지 않는 성격이지만 최대한 삼천포로 많이 빠지지 않으려고 노력했습니다. 첫 걸음을 이제야 뗐네요!
읽는 분들에게 도움이 됬으면 좋겠고, 도움이 되셨다면 짧은 댓글도 고맙습니다.
더 추가할 부분이나 이의가 있다면 댓글로 남겨주시면 읽어보겠습니다!
포스팅은 여기서 마치도록 하겠습니다.
'## 오래된 게시글 (미관리) ## > R' 카테고리의 다른 글
6. R 행렬구조 (0) | 2018.11.20 |
---|---|
5. R 연산 연습 (0) | 2018.11.20 |
4. R Programming 기초 (0) | 2018.11.20 |
3. 분석 마스터 플랜 (0) | 2018.11.20 |
2. 분석 수행 전 단계 (0) | 2018.11.20 |