bde(big-data-europe)라는 아주 유명한 곳에서 관리하는 Docker Image와 dockek compose 파일을 통해 매우 간단하게 Hadoop 실행환경을 구축할 수 있다.
오늘 다뤄볼 내용은 Docker 지식이 없어도 충분히 할 수 있다. ( MapRecude 실습을 하는 다음 글에서는 조금 필요함)
https://github.com/big-data-europe/docker-hadoop-spark-workbench
사전 설치 필요
- Docker Desktop
- git
설치 관련 글은 다른 블로그에 많기 때문에 생략한다.
Repository 클론
일단 Hadoop, Hive , Spark까지 다 띄울 수 있는 레포지토리로 선정했다.
(하지만 이번 포스팅에서는 Hadoop까지만 띄운다)
git clone https://github.com/big-data-europe/docker-hadoop-spark-workbench.git
Container 띄우기
README에 적힌대로 이렇게 2개 하면 datanode와 namenode가 뜬다.
# 1. namenode
docker-compose -f docker-compose-hive.yml up -d namenode
# 2. datanode
docker-compose -f docker-compose-hive.yml up -d datanode
namenode와 datanode 컨테이너가 잘 떴는지 확인해본다.
docker ps
실행
일단 namenode에 접속한다.
hadoop 명령어가 잘 날아가는걸 확인할 수 있다.
# 컨테이너 접속
docker exec -it namenode /bin/bash
# hadoop 명령어 잘 되나 확인
hadoop fs -ls /
다음 글에서는 Hadoop의 시작인 MapReduce, 그 중에서도 정석이라고 할 수 있는 WordCount를 해보자.
'Data Engineering > Hadoop Eco.' 카테고리의 다른 글
[Kafka] Apache Kafka 설치 및 실행 (Mac) (0) | 2021.08.13 |
---|---|
[Linux] Patch 파일 적용 방법 (+Apache Oozie 설치 시 Hadoop 3 이슈) (0) | 2021.08.11 |
[Hadoop] MapReduce 프로그래밍 실습 예제 - Word Count (0) | 2021.08.04 |
CentOS OpenJDK 1.8(Java) 설치 (수동, 오프라인) (1) | 2021.07.06 |
댓글