• 티스토리 홈
  • 프로필사진
    31514
  • 방명록
  • 공지사항
  • 태그
  • 블로그 관리
  • 글 작성
31514
  • 프로필사진
    31514
    • 분류 전체보기 (105)
      • Book (66)
        • Learning SQL (9)
        • SQL 레벨업 (8)
        • 견고한 데이터 엔지니어링 (5)
        • 운영체제 (2)
        • 스파크 완벽 가이드 (9)
        • 파이썬 코딩의 기술 (29)
        • 분산 컴퓨팅 (4)
      • 개발 (23)
      • 기타 (10)
        • 출퇴근 공부 간단 정리 (7)
      • ELK (6)
  • 방문자 수
    • 전체:
    • 오늘:
    • 어제:
  • 최근 댓글
      등록된 댓글이 없습니다.
    • 최근 공지
      • 31514의 이전 블로그는 여기로!
      등록된 공지가 없습니다.
    # Home
    # 공지사항
    #
    # 태그
    # 검색결과
    # 방명록
    • 하둡 공부 1일차
      2024년 11월 21일
      • 31514
      • 작성자
      • 2024.11.21.:31

      이번에는 무엇을 공부해 볼까 하다가 하둡을 선택했다.

      사실 하둡의 역사와 어떤 구조를 가지고 있는지, 어떻게 데이터를 분산 저장하고 통신하는지 이론적으로 알고 있었다.

      하지만 하둡 저장소를 사용할 만큼 대용량의 데이터가 없었고, 어디서부터 시작해야 할지 막막했다.

       

      열심히 찾아본 결과 유데미에서 케인 아저씨가 강의하는 하둡 강의를 찾게 되었다.

       

      오늘은 하둡의 전체적인 생태계, MapReduce, Pig에 대해 공부하고 실습했다.

      하둡 에코 시스템은 HDFS와 YARN을 토대로 여러 컴포넌트들이 존재한다.

      우리가 흔히 알고 있는 Spark도 이에 포함된다.

       

      하둡이 나온 지 얼마 되지 않았을 때는 데이터를 분석하기 위해 MapReduce를 사용했었다.

      이번 실습을 통해 파이썬 MRJob 라이브러리를 사용하여 간단한 코드를 작성해 봤는데, 왜 사용하지 않는지 알 거 같다.

       

      Pig는 우리에게 익숙한 SQL 쿼리문과 되게 비슷하다.

      말 그대로 비슷할 뿐이지 똑같지는 않다.

      내 느낌상 Pig는 SQL과 다르게 데이터 처리 순서를 더 명시적으로 선언하는 거 같았다.

      Pig 코드를 실행하면 내부에서 MapReduce로 변환하여 실행된다.

      하지만 MapReduce 대신 Tez를 사용할 수 있고, Tez는 데이터 흐름을 DAG로 표현한다.

      케인 아저씨 말씀대로라면 Tez가 MapReduce보다 체감상 10배는 빠르다고 한다.

       

      그래서 요즘 Pig + Tez가 Spark와 경쟁한다는데...

      사실 기술은 계속 변하니까...

       

      참고로 하둡 실습은 HDP를 설치해서 VirtualBox와 함께 사용했다.

      내일은 하둡과 관련하여 Spark, Hive 등을 살펴볼 예정이다.

      '개발' 카테고리의 다른 글

      하둡 공부 3일차  (0) 2024.11.25
      하둡 공부 2일차  (1) 2024.11.22
      GCP VM Instance 저스펙으로 Airflow 서버 구축하고 안정적으로 크롤링하기  (0) 2024.11.14
      홈 서버 구축기인데 LG U+를 곁들인..  (1) 2024.11.01
      lazy load되는 컨텐츠 안정성있게 크롤링하기  (0) 2024.10.25
      다음글
      다음 글이 없습니다.
      이전글
      이전 글이 없습니다.
      댓글
    조회된 결과가 없습니다.
    스킨 업데이트 안내
    현재 이용하고 계신 스킨의 버전보다 더 높은 최신 버전이 감지 되었습니다. 최신버전 스킨 파일을 다운로드 받을 수 있는 페이지로 이동하시겠습니까?
    ("아니오" 를 선택할 시 30일 동안 최신 버전이 감지되어도 모달 창이 표시되지 않습니다.)
    목차
    표시할 목차가 없습니다.
      • 안녕하세요
      • 감사해요
      • 잘있어요

      티스토리툴바