- [스파크 완벽 가이드] 스파크 간단히 살펴보기2024년 10월 14일
- 31514
- 작성자
- 2024.10.14.:29
스파크의 기본 아키텍처
클러스터는 여러 컴퓨터의 자원을 모아 하나의 컴퓨터처럼 사용할 수 있게 만든다.
클러스터는 클러스터 매니저에서 관리하는데, 그 예로 Standalone, YARN, Mesos, Kubernetes 등이 있다.
사용자가 클러스터 매니저에게 스파크 애플리케이션 제출
클러스터 매니저는 필요한 자원 할당
할당 받은 자원으로 작업 처리
스파크 애플리케이션
스파크 애플리케이션은 위와 같이 드라이버와 다수의 익스큐터로 구성된다.
드라이버 - 클러스터 노드 중 하나에서 실행되며 main() 함수 실행
익스큐터 - 드라이버가 할당한 작업 수행 및 보고
DataFrame
DataFrame은 테이블의 데이터를 로우와 컬럼으로 단순하게 표현했고, Spark 뿐 아니라 Python이나 R에도 존재한다.
하지만 Spark의 경우 다수의 서버에 분산 저장되어 있고, Python이나 R은 한 대의 컴퓨터에 저장되어 있다.
파티션
스파크는 모든 익스큐터가 병렬로 작업을 수행할 수 있도록 파티션이라 불리는 단위로 데이터를 분할한다.
파티션은 클러스트의 물리적 머신에 존재하는 로우의 집합을 말한다.
트랜스포메이션
스파크의 데이터 구조는 불변성을 지니기 때문에 트랜스포메이션으로 변경 방법을 스파크에게 알려준다.
<트랜스포메이션의 2가지 유형>
- 좁은 의존성 - 입력 파티션이 하나의 출력 파티션에만 영향을 미침
- 넓은 의존성 - 하나의 입력 파티션이 여러 출력 파티션에 영향을 미침
액션
실제 연산을 수행하는 명령으로, 트랜스포메이션으로부터 결과를 계산하도록 지시하는 명령이다.
'Book > 스파크 완벽 가이드' 카테고리의 다른 글
[스파크 완벽 가이드] 15장 - 스파크 애플리케이션의 생애주기 (0) 2024.10.21 [스파크 완벽 가이드] 18장 - 모니터링 (0) 2024.10.17 [스파크 완벽 가이드] 17장 - 스파크 배포 환경 (0) 2024.10.16 [스파크 완벽 가이드] 9장 - 데이터소스 (0) 2024.10.15 [스파크 완벽 가이드] Spark 성능 튜닝 가이드 (1) 2024.10.14 다음글이전글이전 글이 없습니다.댓글
스킨 업데이트 안내
현재 이용하고 계신 스킨의 버전보다 더 높은 최신 버전이 감지 되었습니다. 최신버전 스킨 파일을 다운로드 받을 수 있는 페이지로 이동하시겠습니까?
("아니오" 를 선택할 시 30일 동안 최신 버전이 감지되어도 모달 창이 표시되지 않습니다.)