본문 바로가기

Computer/BigData16

ubuntu 에서 snappy 설치하기 wget https://github.com/google/snappy/tarball/mastertar xzvf mastercd google-snappy-32d6d7dsudo apt-get install build-essentialsudo apt-get install pkgconfsudo apt-get install libtoolsudo apt-get install automake./autogen.sh./configuremakesudo make install 2016. 6. 4.

Hyper-V로 구성한 Hadoop에 WordCount 돌리기 이번 포스팅에서는 이전 포트팅에서 구성한 하둡 클러스터에 wikipedia 덤프를 받아서 WordCount를 해보도록 하겠다. (이전 포스트) 1) hadoop 2.0 (YARN) 개요 & Hyper-V를 이용한 실험환경 구성 #1 2) hadoop 2.0 (YARN) 개요 & Hyper-V를 이용한 실험환경 구성 #2 1. Wikipedia Dump 다운로드이전 포스팅에서 각 노드는 20GB HDD를 VM에 연결하였는데, WikiPedia 덤프를 다운로드하기에는 적은 용량이다. 따라서 Hyper-V 관리자에서 yarn_nn VM의 설정을 클릭하고 IDE 탭에서 하드 드라이브를 선택하고 100GB 정도의 새로운 HDD를 생성해서 연결해 준다. 그러면 yarn_nn에는 /dev/sdb 에 100GB HDD.. 2016. 6. 1.

hadoop 2.0 (YARN) 개요 & Hyper-V를 이용한 실험환경 구성 #2 이번 포스팅에서는 지난 포스팅에 이어 개별 노드들을 구성하고, YARN 실험을 위한 클러스터를 구성해 보자. 네트워크 구성은 다음과 같다. 1. 기본 프로그램 설치 다음의 프로그램들을 설치한다.(기본 프로그램 설치)sudo apt-get update sudo apt-get upgradesudo rebootsudo apt-get install openjdk-8-jdksudo apt-get install build-essentialsudo apt-get install htop (snappy library 설치)wget https://github.com/google/snappy/tarball/mastersudo apt-get install pkgconfsudo apt-get install libtoolsudo.. 2016. 5. 31.

Big Data 기술과 Datawarehouse (DW) 매우 핫한 키워드는 아니지만 여전히 마케팅적으로 중요한 단어가 바로 "빅데이터"일 것이다. 데이터 분석은 사실상 새로운 것은 아니다. 이전에도 기업에서 경영층의 의사결정을 돕기 위해서 기업의 재무 데이터, 마케팅 데이터, 결제, 판매기록등의 데이터를 하나로 모아서 분석하는 시스템과 관련 기술들은 존재해왔었다. 데이터를 수집하고 모델링하고 저장하는 대표적인 시스템은 Data Warehouse (DW)로 칭하였고 이 데이터를 분석하여 경영층의 의사 결정에 활용하는 것을 Business Intelligence(BI)라고 부른다. 데이터를 분석하는 도구로 잘 알려진 것이 바로 큐브 형태의 다차원 데이터 분석을 제공하는 OLAP(Online Analytical Processing)이다. 최근에는 Hadoop 과 .. 2015. 10. 18.

Hadoop MapReduce에서 외부 jar 파일 사용하기 Hadoop 의 mapreduce process에서 외부 jar 파일을 이용하기 위해서는 필요한 CLASSPATH 를 HADOOP_CLASSPATH 로 지정해 주면 된다. (hadoop-.1.1.2 버전) 또는 hadoop jar 명령시 -libjars 에 설정해주면 된다. 다음 링크 확인 http://blog.cloudera.com/blog/2011/01/how-to-include-third-party-libraries-in-your-map-reduce-job/ 2013. 7. 13.

HDFS 이용하기 1. Java 에서 HDFS 이용하기 1) 다음을 import 해야 한다. import org.apache.hadoop.fs.Path import org.apache.hadoop.fs.FileSystem import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FSDataOutputStream; 2) FileSystem 객체가 기본적으로 파일 처리를 위한 객체로 다음과 같이 참조를 얻는다. FileSystem hdfs=FileSystem.get(Configuration객체); - Configuration객체는 Configuration conf=new Configuration(); 으로 생성하거나 MapReduce에서는 conte.. 2013. 7. 9.

이전 1 2 3 다음

티스토리툴바