본문 바로가기
Data Engineering/Hadoop Eco.

[Hadoop] Docker 기반 Hadoop 실행 환경 설치/구축

by so-easy 2021. 8. 17.

bde(big-data-europe)라는 아주 유명한 곳에서 관리하는 Docker Image와 dockek compose 파일을 통해 매우 간단하게 Hadoop 실행환경을 구축할 수 있다.

오늘 다뤄볼 내용은 Docker 지식이 없어도 충분히 할 수 있다. ( MapRecude 실습을 하는 다음 글에서는 조금 필요함)

 

https://github.com/big-data-europe/docker-hadoop-spark-workbench

 

GitHub - big-data-europe/docker-hadoop-spark-workbench: [EXPERIMENTAL] This repo includes deployment instructions for running HD

[EXPERIMENTAL] This repo includes deployment instructions for running HDFS/Spark inside docker containers. Also includes spark-notebook and HDFS FileBrowser. - GitHub - big-data-europe/docker-hadoo...

github.com

 

사전 설치 필요

  1. Docker Desktop
  2. git

설치 관련 글은 다른 블로그에 많기 때문에 생략한다.

Repository 클론

일단 Hadoop, Hive , Spark까지 다 띄울 수 있는 레포지토리로 선정했다.

(하지만 이번 포스팅에서는 Hadoop까지만 띄운다)

git clone https://github.com/big-data-europe/docker-hadoop-spark-workbench.git

Container 띄우기

README에 적힌대로 이렇게 2개 하면 datanode와 namenode가 뜬다.

# 1. namenode
docker-compose -f docker-compose-hive.yml up -d namenode

# 2. datanode
docker-compose -f docker-compose-hive.yml up -d datanode

namenode와 datanode 컨테이너가 잘 떴는지 확인해본다.

docker ps

실행

일단 namenode에 접속한다.

hadoop 명령어가 잘 날아가는걸 확인할 수 있다.

# 컨테이너 접속
docker exec -it namenode /bin/bash

# hadoop 명령어 잘 되나 확인
hadoop fs -ls /

 

 

 

다음 글에서는 Hadoop의 시작인 MapReduce, 그 중에서도 정석이라고 할 수 있는 WordCount를 해보자.

 

[Hadoop] MapReduce 프로그래밍 실습 예제 - Word Count

지난 글에서 Docker기반으로 아주 빠르고 간단하게 Hadoop 실습 환경을 구축해봤다. 이번 글에서는 Hadoop의 핵심인 MapReduce 공식 튜토리얼을 따라 해 보면서, MapReduce 시작의 정석인 WordCount 프로그램

so-easy-coding.tistory.com

 

 

 

 

댓글