(책) 빅데이터 승리의 과학
Page content
(책) 빅데이터 승리의 과학
Technology 팀
- 오바마 2012년 선거 당시 2008년 당시의 SNS를 활용하는 수준을 넘어서 통합적인 선거 지원을 위해 빅데이터 기술 활용.
- 선거 특성에 맞는 AWS 를 이용해서 인프라를 구축하고, R 언어를 활용. 하둡은 실시간성이 부족하여 제한적으로 사용.
- 디지털 팀의 CDS(Chief Digital Strategist)는 31살 Joe Rosparse, CTO는 하퍼 리드(33)등을 고용.
벤처기업 엔지니어 출신. 혁신을 좋아하고, 기존 틀과 문화에 얽매이지 않고 오직 해결책에만 관심을 둠. 리드는 50명에 이르는 Technology 팀 멤버를 구성. Twitter, Google, Facebook, Craiglist, Quora, orbits, IBM, MS 등에서 일하는 인력들이 합류. - “외뿔고래(Narwhal)“라고 불린 IT 통합 프로젝트 . 하나의 애플리케이션이나 서비스가 아니라 아키텍쳐였으며 전체를 아우르는 API의 집합
- 서로 다른 형태의 DB를 통합하여 하나처럼 작동하는 시스템 구축. RestFul API를 이용해서 구축
- 모든 애플리케이션이 오직 외뿔고래 API를 통해서만 DB에 접근할 수 있게 함. 외뿔고래 API를 이용해서 각각의 앱들을 모두 분리시킴으로써 각각의 앱들을 개별적으로 확장할 수 있게 하고, 앱들 간의 데이터를 공유하게 함.
이전 선거 실패에 대한 반성
2000년에 이어 2004년 선거까지 연거푸 패배의 쓴 잔을 마신 민주당 케리 후보 캠프에서 활동했던 사람들과 진보진영의 시민사회단체 활동가 20여 명이 2004년 대선이 끝난 후 2박3일간의 모임을 가졌다. 그 자리에서 그들은 민주당과 진보진영의 문제점과 개선방안에 대해서 치열하게 토론을 갖고, 그 동안 민주당과 시민사회단체들이 너무 선언적인 활동에만 치우치고 자기들끼리만 연대하여 활동하였으며 선거운동은 대부분 상층 정치전략가들에 의해서 좌우되었다고 반성하였다. 그들은 민주당이 선거에서 승리하기 위해서는 대중 속으로 더 파고들어야 하고 더 효율적이고 실질적인 조직활동을 해야 한다고 결론 내렸다.
Hadoop system
하둡 = HDFS(분산 데이터 저장) + MapReduce(분산 데이터 처리)
MapReduce
- 파일들이 각기 어디에 위치하고 있는지 기록학 파악하는 지도(맵)를 간소화(reduce)하여 보다 신속하게 파일들의 색인을 구축하고 검색을 용이하게 해주는 색인 체계
Hadoop
- 최소 3군데에 동일 데이터를 저장하여 H/W 오류 시에도 동작할 수 있게 함.
- 데이터를 소프트웨어가 있는 서버로 옮기는 것보다 데이터가 있는 서버로 소프트웨어를 보내 처리하고 그 결과만 원래 소프트웨어가 있던 서버로 보내서 통합
- 확장성이 커서 한번에 다룰 수 있는 파일의 양이 매우 많다. 기가/테라 바이트 크기의 파일 처리도 가능. 하나의 클러스터에 수천 개의 노드(컴퓨터)를 둘 수 있고, 하나의 인스턴스(작업)에 수천만 개의 파일을 지원
- 이식성 및 호환성이 뛰어남
단점
- Hadoop과 MapReduce는 파일을 대규모로 저장하고 처리하는 데에는 큰 장점을 갖지만, 실시간 분석에는 단점이 있다. 배치 처리를 기본으로 함으로 처리 지연 발생
- 특수한 목적의 데이터 분석을 위해서 비정형적인 Ad-hoc query를 만들고 처리하려면 개발자들의 노력이 많이 필요함.
- 구글도 몇 년 전부터 Hadoop은 데이터의 저장과 처리에 주로 사용하고, 데이터의 query와 분석을 위해서는 Dremell이라는 플랫폼을 갭라하여 함께 사용하는 중
오바마 캠프는 HP Vertica라는 SQL 기반의 대용량병렬 처리(Massively Parallel Processing) database platform 선택
행동 심리학
- Craig Fox 교수를 중심으로 행동과학가 컨소시엄(Consortium of Behavioral Scientists) - Nudge, 설득의 심리학 등의 작가.
- 왜곡된 루머에 대처하는 가장 좋은 전략은 자신에 대한 공격을 부정하는 것이 아니라 그것을 이길 수 있는 다른 긍정적 표현을 강하게 하는 것. “아바마와 무슬림” -> “나는 무슬람이 아니다”(X) “오바마는 기독교도다”(O)
한 사람이 어떤 일을 하기 위해서 간단한 계획을 세운다면 그런 계획이 없었을 때보다 그 일을 실제로 하게 될 가능성이 높아진다