Computer/BigData16 Hadoop SSH 설정 Hadoop 은 SSH 프로토콜을 이용해서 하둡 클러스터간에 통신을 수행한다. 따라서 SSH 동작시 비밀번호를 입력하지 않도록 공개키를 전체 서버에 복사해야 한다. 1. 공개키 생성 ssh-keygen -t rsa 2. 공개키를 클러스터 노드에 복사scp ~/.ssh/id_rsa.pub 계정@호스트명:전송디렉토리(hadoop@node1:/home/hadoop) 3. 해당 노드에서 authorized_keys 에 등록(또는 변경)cat id_rsa.pub >> ~/.ssh/authorized_keys(mv id_rsa.pub ~/.ssh/authorized_keys) 2013. 6. 29. [Hadoop] Mapper/Reducer Configuration 1. Mapper/Reducer의 설정 1) Mapper/Reducer의 Task Timeout 설정 mapred.task.timeout 600000 mapred-site.xml 에 설정하며 값은 milisecond 임 "The number of milliseconds before a task will be terminated if it neither reads an input, writes an output, nor updates its status string" 2) 맵 출력 임시 파일에 압축 적용하기 mapred.compress.map.output true mapred.map.output.compression.codec org.apache.hadoop.io.compress.SnappyCodec 또는.. 2013. 5. 14. [Hadoop] WordCount 에 Combiner 를 적용 Combiner는 Map 프로그램에서 나온 출력에 대해서 리듀스로 보내기 위한 셔플링/소팅이 발생하기 전에 리듀서를 적용하는 것으로 Mini-Reducer 라고 하기도 한다. Combiner는 Map-Reduce 에서 필수적으로 필요한 것은 아니지만 Combiner를 적용하면 성능 개선이 가능하다. 리듀서로 출력을 보내기 전에 맵 출력단에서 리듀서 프로그램을 적용하여 리듀서로 가는 데이터의 크기를 줄이는게 가능하다. http://alnova2.tistory.com/776 의 WordCount의 Main 함수에 다음과 같이 Combiner를 지정해 보자. public static void main(String[] args) throws Exception { Configuration conf = new Co.. 2013. 4. 6. [Hadoop] WordCount Hadoop의 HelloWorld 프로그램 격인 WordCount 를 살펴보자. WordCount 프로그램은 Hadoop File System 상에 있는 Text 파일을 라인 단위로 읽어서 하나의 레코드로 Map 메소드에 전달하고 해당 라인의 단어를 쪼개서 각 단어를 Key 로 그리고 Key에 대한 Value를 1로 출력하게 한다. 다시 말해서 입력 가 맵 프로그램을 통해서 출력 이 되는 것이다. 이 출력값은 리듀서에 이 되며 Value는 같은 Key (다시 말해 같은 Word)에 대한 1 값들의 리스트이다. 이 값은 Map 프로그램 출력 Key 값에 대해서 Value의 리스트를 전달하는 것이다. 리듀서는 이 에 대해서 Value list를 iteration 하면서 값을 하나씩 증가 시키면 된다. 다음은.. 2013. 4. 6. 이전 1 2 3 다음