- 하둡 공부 4일차31514오늘은 하둡 에코시스템에 포함되어 있지는 않지만, 대용량 데이터를 다룰 때 유용한 몇 가지 쿼리 엔진에 대해 학습했다.쿼리 엔진 Drill, Phoenix, Presto를 소개하고자 한다.DrillDrill은 다양한 데이터 소스에 대해 SQL 쿼리를 실행할 수 있는 분산형 스키마리스 SQL 엔진이다.Drill은 아래와 같이 다양한 데이터 소스를 지원한다.파일 시스템 : CSV, JSON, Parquet, ORC, Avro 등NoSQL 데이터베이스 : MongoDB, HBase, Cassandra 등클라우드 스토리지 : Amazon S3, Google Cloud Storage 등관계형 데이터베이스 : MySQL, PostgreSQL, Oracle 등이처럼 Drill은 다양한 데이터 소스로부터 편리한 SQL..
- 2024-11-26 11:56:39
- 하둡 공부 3일차31514오늘은 하둡과 관련하여 비관계형 데이터베이스(NoSQL)에 대해 학습했고, 어떤 상황에서 어떤 저장소를 선택할지에 대해 알아봤다. HBaseHBase는 HDFS 위에서 작동하고 API를 통해 CRUD 연산을 할 수 있는 비관계형 데이터베이스이다.Master-Slave 구조를 가지고 있어서 Master가 모든 Slave 노드를 추적하며, Zookeeper를 통해 Master 노드를 추적한다.HBase는 키의 범위를 기준으로 데이터를 분산한다. HBase에는 Cell과 Column Family라는 개념이 있다.Row Keyuser:nameuser:emailstats:visits1Alicealice@email.com342Bobbob@email.com12Cell은 Row Key, Column(Column Fam..
- 2024-11-25 15:54:02
- 하둡 공부 2일차31514오늘은 저번 글에서 말했듯이, Spark와 Hive에 대해 공부했다.내 블로그를 보면 알 수 있듯이 Spark는 이미 다른 책을 통해 학습해둔 상태여서 이번 강의를 통해 복습을 할 수 있었다.굳이 새롭게 알게 된 사실을 말하자면 Spark에서 Python을 사용하는 것보다 Scala를 사용하는 것이 더 빠르다는데, 나중에 직접 경험해볼 수 있으면 좋을 거 같다.추가로 Spark는 디스크보다 인메모리 기반으로 데이터를 처리하기 때문에 처리 속도가 매우 빠르다.다른 글에 Spark에 대해 잘 정리되어 있으니, 이쯤에서 Hive 이야기로 넘어가보자. Hive도 SQL을 HiveQL이라는 이름으로 지원한다.실행 엔진도 MapReduce 뿐만 아니라 Tez, Spark 등 원하는 것을 선택하여 실행할 수 있다.그..
- 2024-11-22 14:32:40
- 하둡 공부 1일차31514이번에는 무엇을 공부해 볼까 하다가 하둡을 선택했다.사실 하둡의 역사와 어떤 구조를 가지고 있는지, 어떻게 데이터를 분산 저장하고 통신하는지 이론적으로 알고 있었다.하지만 하둡 저장소를 사용할 만큼 대용량의 데이터가 없었고, 어디서부터 시작해야 할지 막막했다. 열심히 찾아본 결과 유데미에서 케인 아저씨가 강의하는 하둡 강의를 찾게 되었다. 오늘은 하둡의 전체적인 생태계, MapReduce, Pig에 대해 공부하고 실습했다.하둡 에코 시스템은 HDFS와 YARN을 토대로 여러 컴포넌트들이 존재한다.우리가 흔히 알고 있는 Spark도 이에 포함된다. 하둡이 나온 지 얼마 되지 않았을 때는 데이터를 분석하기 위해 MapReduce를 사용했었다.이번 실습을 통해 파이썬 MRJob 라이브러리를 사용하여 간단한 코..
- 2024-11-21 17:31:01
- 하둡 기초 개념31514대용량 분산 서비스가 필요한 이유대용량 데이터를 손실 없이 보관하기 위해SQL과 같이 구조적 데이터 뿐 아니라, 비구조화/반구조화 데이터를 처리하기 위해순차적 처리보다는 병렬 처리가 더 빠르니까대용량 분산 서비스의 필요 조건분산 파일 시스템과 분산 컴퓨팅 시스템몇 대의 노드(서버)가 고장나도 신뢰성을 유지할 수 있는 Fault Tolerance용이한 확장하둡 1.0HDFS(분산 파일 시스템)과 MapReduce(분산 컴퓨팅 시스템)으로 구성하지만 MapReduce가 너무 저수준이라 사용자들이 어려움 호소MapReduce 위에 고수준의 프레임워크 Pig, Hive, Presto 등 출현하둡 2.0MapReduce 대신 YARNYARN은 고수준 프레임워크를 사용하는 사용자들을 위해 조금 더 범용적인 자원 관..
- 2024-09-30 12:46:41
스킨 업데이트 안내
현재 이용하고 계신 스킨의 버전보다 더 높은 최신 버전이 감지 되었습니다. 최신버전 스킨 파일을 다운로드 받을 수 있는 페이지로 이동하시겠습니까?
("아니오" 를 선택할 시 30일 동안 최신 버전이 감지되어도 모달 창이 표시되지 않습니다.)