Book/견고한 데이터 엔지니어링
1장 - 데이터 엔지니어링 상세
31514
2024. 10. 31. 15:06
데이터 엔지니어링이란?
데이터 엔지니어링은 원시 데이터를 가져와 분석 및 머신러닝과 같은 다운스트림 사용 사례를 지원하는, 고품질의 일관된 정보를 생성하는 시스템과 프로세스의 개발, 구현 및 유지 관리이다.
데이터 엔지니어링은 보안, 데이터 관리, 데이터 운영, 데이터 아키텍처, 오케스트레이션, 소프트웨어 엔지니어링의 교차점이다.
데이터 엔지니어는 원천 시스템에서 데이터를 가져오는 것부터 시작해 분석 또는 머신러닝과 같은 사용 사례에 데이터를 제공하는 것으로 끝나는 데이터 엔지니어링 수명 주기를 관리한다.
데이터 엔지니어링 수명 주기
데이터 엔지니어링 수명 주기는 전체 수명 주기에 걸쳐 중요한 아이디어인 드러나지 않는 요소라는 기술 역량을 포함한다.
이러한 기술 역량을 사용하려면, 데이터 도구들을 평가하는 방법과 이 도구들이 어떻게 조합되는지를 이해해야 한다.
원천 시스템에서 어떻게 데이터가 생성되는지, 데이터를 처리하고 선별한 후에 분석가와 데이터 과학자가 이를 어떻게 소비하고 가치를 창출할지 파악하는 것도 중요하다.
수많은 복잡한 가변적 요소를 처리하고 비용, 민첩성, 확장성, 단순성, 재사용성, 상호 운용성의 축에 따라 지속해서 최적화를 수행해야 한다.
변화하지 않는 것을 이해할 수 있도록 기본에 충실하되, 분야가 어느 방향으로 전개될지를 파악할 수 있도록 개발에 관심을 기울이자.