[Data Engineering] Hadoop 생태계 정리

Hadoop Echo System

하둡에서 데이터를 분석 유지 저장 관리 할 때 필요한 모든 것들

작업 구분별 주요 기술

구분	주요 기술
데이터 수집	플럼(Flume), 스쿱(Sqoop)
데이터 저장,활용	Hbas
데이터 처리	하이브(Hive),피그(Pig),마후트(Mahout)
데이터 관리	우지(Oozie), H카탈로그(HCatalog), 주키퍼(Zookeeper)

작업 흐름도 1) HDFS(하둡 저장 시스템) 2) MapReduce(데이터를 key value로 변경) 3) Hbase(변경된 데이터를 데이터베이스로 저장) 4) Pig, Hive, Mahout, Oozie(데이터를 분석)

하둡 사용자 인터페이스(Hue, Zeppelin)

하둡 휴(Hue, Hadoop User Experience)
하둡과 하둡 에코시스템의 지원을 위한 웹 인터페이스를 제공하는 오픈 소스
Hive 쿼리를 실행하는 인터페이스를 제공하고, 시각화를 위한 도구를 제공
job의 스케줄링을 위한 인터페이스와 job, HDFS, 등 하둡을 모니터링하기 위한 인터페이스도 제공

Zeppelin
Zeppelin은 한국의 NFLab이라는 회사에서 개발하여 Apache top level 프로젝트로 최근 승인
오픈소스 솔루션으로, Notebook 이라고 하는 웹 기반 Workspace에 Spark, Tajo, Hive, ElasticSearch 등 다양한 솔루션의 API, Query 등을 실행하고 결과를 웹에 나타내는 솔루션

Pig 와 Hive Project

Pig : [Yahoo] 많은 사람들이 사용할 수 있도록 MapReduce 프로그램을 만들어 주는 고수준 언어를 만들겠다는 목적으로 만들어짐
HIVE : [Facebook] SQL(유사) 구문에서 MapReduce를 자동생성하겠다는 목적으로 만들어짐

YARN(Yet Another Resource Negotiator)

YARN은 Hadoop v1에 있던 Job Tracker의 병목현상을 제거하기 위해 Hadoop v2에 도입
가장 효율적인 방법으로 계산 리소스를 할당하고 사용자 애플리케이션을 스케줄링하는 시스템
YARN은 빅데이터 처리에 사용되는 대규모 분산 운영체제 라고도 할 수 있다.
다양한 데이터 처리 엔진을 통해 HDFS (Hadoop 분산 파일 시스템)에 저장된 데이터를 실행하고 처리

YARN 주요 컴포넌트

Resource Manager : 자원을 시스템의 응용프로그램(Application)에 할당이 가능하다.
Nodes Manager : CPU, 메모리 같은 자원의 할당된 것을 일하고 Resource Manager에 보고한다.
Application Manager : Resource Manager와 Nodes Manager 간의 인터페이스 역할을 한다.

[Data Engineering] Hadoop 생태계 정리

Hadoop Echo System

하둡 사용자 인터페이스(Hue, Zeppelin)

Pig 와 Hive Project

YARN(Yet Another Resource Negotiator)

Further Reading

[Data Engineering] Hadoop 개념 정리

[Data Engineering] Spark 개요 및 구조

[Data Engineering] Spark RDD 정리