본문 바로가기

Data Engineering5

[Hadoop] Docker 기반 Hadoop 실행 환경 설치/구축 bde(big-data-europe)라는 아주 유명한 곳에서 관리하는 Docker Image와 dockek compose 파일을 통해 매우 간단하게 Hadoop 실행환경을 구축할 수 있다. 오늘 다뤄볼 내용은 Docker 지식이 없어도 충분히 할 수 있다. ( MapRecude 실습을 하는 다음 글에서는 조금 필요함) https://github.com/big-data-europe/docker-hadoop-spark-workbench GitHub - big-data-europe/docker-hadoop-spark-workbench: [EXPERIMENTAL] This repo includes deployment instructions for running HD [EXPERIMENTAL] This repo .. 2021. 8. 17.
[Kafka] Apache Kafka 설치 및 실행 (Mac) 카프카... 공부는 어렵지만 설치는 진짜 쉽다. 1. 다운로드 아래 링크에서 kafka_2.12-2.7.0.tgz 를 다운받는다. 나는 안정적인 2.7 버전을 설치했다. https://kafka.apache.org/downloads Apache Kafka Apache Kafka: A Distributed Streaming Platform. kafka.apache.org 2. 압축 풀기 tar -zxvf kafka_2.12-2.7.0.tgz 3. 주키퍼 실행 Kafka의 Broker를 실행시키기 위해서는 Zookeeper가 반드시 필요하다. 주키퍼의 역할 카프카의 메타데이터를 저장 2.7버전까지는 주키퍼가 필수로 필요함 상용 운용 환경에서는 반드시 주키퍼를 3대 이상 묶어 구축 # 실행, -daemon 옵.. 2021. 8. 13.
[Linux] Patch 파일 적용 방법 (+Apache Oozie 설치 시 Hadoop 3 이슈) Patch 파일이 뭔지, 어떻게 적용하는지 알아보자. 현대인은 시간이 없기 때문에 일단 본론만 먼저 말한다. 1. Patch 파일이란? 패치(patch) 파일은 두 파일의 차이점을 출력해 주는 프로그램인 diff에 의해 생성된 파일을 의미한다. 소스파일들을 고치고 나서, 고친 부분이 어디인지만 차이점을 뽑아내 준다. 고친 부분에 대한 정보만을 보여주기 때문에, 소스코드 전체를 하나하나 보지 않고도 어떤 부분을 고쳤는지 파악하기 쉽다. 2. Patch 적용 patch [-p숫자] [패치를 적용할 타겟 파일명] < [패치파일이름.patch] 여기서 중요한 건 -p 옵션이다. p뒤에는 숫자를 붙이는데, 'patch파일에 적힌 경로에서 path를 몇 개 벗기고 적용할 건지?'이다. ( 남들이 patch 파일을 .. 2021. 8. 11.
[Hadoop] MapReduce 프로그래밍 실습 예제 - Word Count 지난 글에서 Docker기반으로 아주 빠르고 간단하게 Hadoop 실습 환경을 구축해봤다. 이번 글에서는 Hadoop의 핵심인 MapReduce 공식 튜토리얼을 따라 해 보면서, MapReduce 시작의 정석인 WordCount 프로그램을 작성해보고 직접 실행시켜보자. WordCount 프로그램이란? 왜 WordCount인가? 말 그대로, 영단어의 갯수를 세는 프로그램이다. 텍스트 파일에서 각 단어가 몇 개인지를 count 해준다. 예를 들어 아래와 같은 텍스트가 Input으로 들어가면, Deer Bear River Car Car River Deer Car Bear Output으로 이렇게 각 단어의 개수를 센 결과를 출력해주는 프로그램이다. Bear2 Car3 Deer2 River2 그렇다면, 왜 Wor.. 2021. 8. 4.