하둡 공부 1일차

2024년 11월 21일

이번에는 무엇을 공부해 볼까 하다가 하둡을 선택했다.

사실 하둡의 역사와 어떤 구조를 가지고 있는지, 어떻게 데이터를 분산 저장하고 통신하는지 이론적으로 알고 있었다.

하지만 하둡 저장소를 사용할 만큼 대용량의 데이터가 없었고, 어디서부터 시작해야 할지 막막했다.

열심히 찾아본 결과 유데미에서 케인 아저씨가 강의하는 하둡 강의를 찾게 되었다.

오늘은 하둡의 전체적인 생태계, MapReduce, Pig에 대해 공부하고 실습했다.

하둡 에코 시스템은 HDFS와 YARN을 토대로 여러 컴포넌트들이 존재한다.

우리가 흔히 알고 있는 Spark도 이에 포함된다.

하둡이 나온 지 얼마 되지 않았을 때는 데이터를 분석하기 위해 MapReduce를 사용했었다.

이번 실습을 통해 파이썬 MRJob 라이브러리를 사용하여 간단한 코드를 작성해 봤는데, 왜 사용하지 않는지 알 거 같다.

Pig는 우리에게 익숙한 SQL 쿼리문과 되게 비슷하다.

말 그대로 비슷할 뿐이지 똑같지는 않다.

내 느낌상 Pig는 SQL과 다르게 데이터 처리 순서를 더 명시적으로 선언하는 거 같았다.

Pig 코드를 실행하면 내부에서 MapReduce로 변환하여 실행된다.

하지만 MapReduce 대신 Tez를 사용할 수 있고, Tez는 데이터 흐름을 DAG로 표현한다.

케인 아저씨 말씀대로라면 Tez가 MapReduce보다 체감상 10배는 빠르다고 한다.

그래서 요즘 Pig + Tez가 Spark와 경쟁한다는데...

사실 기술은 계속 변하니까...

참고로 하둡 실습은 HDP를 설치해서 VirtualBox와 함께 사용했다.

내일은 하둡과 관련하여 Spark, Hive 등을 살펴볼 예정이다.

하둡 공부 3일차 (0)	2024.11.25
하둡 공부 2일차 (1)	2024.11.22
GCP VM Instance 저스펙으로 Airflow 서버 구축하고 안정적으로 크롤링하기 (0)	2024.11.14
홈 서버 구축기인데 LG U+를 곁들인.. (1)	2024.11.01
lazy load되는 컨텐츠 안정성있게 크롤링하기 (0)	2024.10.25

다음 글이 없습니다.

이전 글이 없습니다.

티스토리툴바