Computer/BigData16 ZooKeeper 란? 빅데이터 기술들을 접하다 보면 ZooKeeper에 대하여 꼭 나오게 된다. 이번 포스팅에서는 ZooKeeper에 대해서 정리해 본다. 1. ZooKeeper 개요 ZooKeeper는 분산 시스템을 위한 코디네이터이다. "분산 시스템"이란 복수의 컴퓨터가 네트워크를 통해 통신하며 하나의 목적을 위해 서로 간에 상호작용하는 것이다. 다수의 컴퓨터가 마치 하나인 것처럼 동작하는 시스템인 것이다. 분산 시스템을 구성할때 고려해야 할 사항들은 네트워크의 신뢰성, 지연, 대역폭, 안전성, 토폴로지에 대한 고려, 전송 비용, 네트워크 유형 등 고려해야 할 사항이 많다. 분산 서버들 간의 정보 공유, 동기화 분산 서버들의 상태 확인등이 필요하다. 분산 컴퓨팅에서 코디네이션의 예는 그룹 멤버십(Group Membersh.. 2016. 8. 28. 맵리듀스 튜닝에 대하여 하둡의 맵리듀스는 여러 튜닝 포인트가 존재한다. 하지만 기본적인 것은 네트워크로 전송되는 데이터를 감소 시키고, 디스크의 I/O를 최소화 시키는 것이다. 우선 맵리듀스가 동작하는 원리를 알아보자. 다음의 그림은 https://developer.yahoo.com/hadoop/tutorial/module4.html 에서 맵리듀스의 아키텍처를 설명한 그림이다. 기본적으로 맵 프로세스는 하나의 스필릿을 처리한다. 로컬에 있는 스플릿 하나가 하나의 맵 프로세스를 생성하게 되고, RecordReader 가 이 Split 에서 레코드를 읽어서 Key, Value 로 맵 프로세스에 전달하게 되는 것이다. 맵에서는 이 Key, Value를 가지고 또다른 Key, Value 조합으로 출력하게 되고, 파티셔너에 의해서 리듀.. 2016. 7. 24. [웹분석] 주요 지표들 웹 데이터 분석의 트랜드는 웹 사이트의 히트수 -> 페이지 뷰 -> 방문 수 -> 전환율 로 변화하고 있다. 측정 지표란 웹사이트상의 트렌드나 이벤트를 묘사하는 통계학상의 양적 측면을 의미하고, KPI는 목표를 어느 정도 달성하고 있는지를 알 수 있게 해주는 측정지표다. 1. 방문 방문은 누군가가 웹 사이트를 방문했고, 떠나기 전에 얼마간의 시간을 보냈다는 걸 의미한다. 기술적으로 방문자 경험은 세션이라고 부른다. 세션은 보통 방문이라고 불린다. 세션들은 보통 웹 사이트에 있는 누군가의 요청 모음이다. 1) 누군가 웹 사이트의 첫 번째 페이지나 아이템을 요청, 웹 데이터 분석 도구는 사용자에 대한 세션을 시작 2) 방문자에게서 오는 모든 추가적인 요청은 개별 세션 ID에 덧붙여짐 3) 방문자가 사이트를 .. 2016. 7. 18. [MapReduce] 문자열 소팅 하둡은 기본적으로 병합 소팅 프레임워크이다. 문자열 소팅은 맵퍼와 리듀서를 별도로 구현하지 않아도 수팅이 가능하다. 맵퍼와 리듀서의 기본 클래스를 아이덴터티 맵퍼, 리듀서라고 하는데 아이덴터티 맵퍼와 리듀서로 문자열 소팅이 가능하다. 즉 다음의 메인 코드만으로도 텍스트 소팅이 가능하다. public class stringsort {public static void main(String[] args) { Configuration conf=new Configuration(); try { Job job=Job.getInstance(); job.setJarByClass(stringsort.class); job.setMapperClass(Mapper.class); job.setReducerClass(Reducer.. 2016. 7. 5. [MapReduce] 미항공기지연 분석 미국 규격 협회에서 2009년에 미국 항공편 운항 통계 데이터를 공개하였다. 다음의 사이트에서 관련 데이터를 볼 수 있다. http://stat-computing.org/dataexpo/2009/ 여기에는 1987년도부터 2008년도 까지 미국의 모든 상업 항공편에 대한 도착과 출발에 대한 정보를 다운로드 할 수 있다. 다음의 스크립트로 다운로드->압축해제->hdfs 저장하도록 한다. (hdfs 상에서는 /air_data 폴더가 생성되어 있어야 한다.)#!/bin/bashfor i in `seq 1987 2008`;do wget 'http://stat-computing.org/dataexpo/2009/'$i'.csv.bz2' bunzip2 $i'.csv.bz2' hdfs dfs -copyFromLocal.. 2016. 7. 2. [MapReduce] TopN 프로그램 WordCount 의 결과를 가지고 빈도수가 높은 단어를 추출할 수 있다. 상위 N개의 단어를 보여준다. WordCount 결과는 단어와 빈도를 하나의 라인으로 가지고 있는 파일이다. 우선 순위 큐를 만들고, 매퍼에서 라인을 하나씩 읽으면서 단어와 빈도를 추출한다. 우선순위 큐의 아이템 갯수가 N보다 적거나 우선 순위 큐의 가장 빈도가 낮은 아이템의 빈도보다 읽혀진 단어의 빈도가 크면 우선순위 큐에 집어 넣고 queue size가 넘치지 않게 조정한다. 다음은 우선순위 큐에 넣을 아이템을 정의하는 클래스이다. 단어와 빈도를 저장하고 설정, 조회할 수 있다. public class ItemFreq { private String item; private Long freq; public ItemFreq() {.. 2016. 6. 25. 이전 1 2 3 다음