하둡 기초 개념
31514:
대용량 분산 서비스가 필요한 이유대용량 데이터를 손실 없이 보관하기 위해SQL과 같이 구조적 데이터 뿐 아니라, 비구조화/반구조화 데이터를 처리하기 위해순차적 처리보다는 병렬 처리가 더 빠르니까대용량 분산 서비스의 필요 조건분산 파일 시스템과 분산 컴퓨팅 시스템몇 대의 노드(서버)가 고장나도 신뢰성을 유지할 수 있는 Fault Tolerance용이한 확장하둡 1.0HDFS(분산 파일 시스템)과 MapReduce(분산 컴퓨팅 시스템)으로 구성하지만 MapReduce가 너무 저수준이라 사용자들이 어려움 호소MapReduce 위에 고수준의 프레임워크 Pig, Hive, Presto 등 출현하둡 2.0MapReduce 대신 YARNYARN은 고수준 프레임워크를 사용하는 사용자들을 위해 조금 더 범용적인 자원 관..