데이터 품질(Data Quality)

Databricks에서 데이터 품질에 대해 설명한 글을 읽다가, 데이터 품질을 보장하기 위해 IDA(INSTITUTE FOR DEFENSE ANALYSES)에서 정의한 프레임워크에 대해 알게 되었습니다. 영문으로 되어 있는 문서를 번역해서 정리해보도록 하겠습니다.

 

제목 - 지휘와 통제를 위한 데이터 큐레이션의 일곱 가지 요소

들어가면서

중요하고 복잡한 많은 C2 활동(지휘 & 통제)은 시간에 따라 변동하며, 다양한 수준의 품질(완결성, 정확성 등)을 지니고, 출처가 불분명한 이질적인 데이터 소스(구조화 & 비구조화)의 사용을 요구한다. 현재 이러한 이질적인 데이터를 처리하는 작업은 수작업이 많이 필요하고 비용이 많이 드는데, 이는 주로 데이터의 품질 문제와 신속한 처리 능력 부족 때문이다.

데이터 큐레이션은 자동화된 데이터 발견, 고급 검색 기능, 전반적인 데이터 품질 개선, 데이터 재사용 증대를 가능하게 한다. 그리고 데이터 큐레이션의 "7C"로 설명하도록 하겠다.

 

데이터 큐레이션 프로세스의 이점은 다음과 같다.

  • 문제 해결 시간 단축
  • 데이터 품질 향상
  • 소요 시간 및 수작업 노력 감소
  • 복잡한 문제 해결

소개

군사 작전에서의 C2 활동(지휘 & 통제) 실패, 재난 대응, 테러 공격에 대한 대응, 이러한 실패는 일반적으로 데이터에 대한 접근 부족 또는 데이터를 필요로 하는 이해관계자들에게 전달하는 과정이 불안정하여 잘못된 것으로 나타났다. 적절한 품질의 데이터는 C2 활동의 효과적인 수행에 매우 중요하다. 하지만 데이터를 제공하는 것은 다음과 같은 원인으로 인해 점점 더 어려워 지고 있다.

  • 네트워크 센서와 무인 시스템 증가
  • 소셜 미디어
  • 온라인 저장소
  • 다양한 통신 방식

위의 모든 요인들로 인해 촉박한 시간 환경을 갖는 운영 환경에서 과부하라는 문제로 이어질 수 있다.

 

데이터 처리 자동화는 증가하는 데이터 양의 압박을 극복하고 데이터 과부하 문제의 심각성을 줄이는 열쇠 중 하나이다. 데이터 큐레이션은 데이터 수명 주기 동안 컴퓨터 기반 분석에 사용할 데이터를 준비하고 관리하는 방법과 관행을 의미한다. 데이터 처리를 자동화할 수 있는 부분을 발견하고, 고급 검색, 데이터 품질 향상, 데이터 재사용성을 증가시킨다. 또한 국방부 데이터 공유 목표 달성뿐만 아니라 민첩하고 분산된 명령 및 제어에 필요한 광범위한 정보를 사용할 수 있게 하는 중요한 메커니즘이 될 수 있다.

 

C2 sensemaking 관련 기능 및 프로세스(추론, 계획, 의사결정, 협업 등)은 시간에 따라 달라지고, 품질 수준(완전성, 정확성 등)이 다양하며, 출처가 모호한 서로 다른 데이터 소스(구조화된 데이터, 비구조화된 데이터)를 사용해야 한다. 현재 이러한 데이터를 처리하는 것은 수작업으로 진행되고 비용이 많이 들며, 시간이 많이 소모된다. 그 이유는 대부분 데이터의 품질신속하지 못한 데이터 처리 능력 때문이다.

 

데이터 큐레이션은 예상치 못한 질문에 신속하게 답변할 수 있도록 데이터를 미리 준비하고, 자동 처리를 용이하게 하는 형태로 데이터를 유지함으로써 C2 sensemaking을 보다 잘 지원할 수 있다. 원본 데이터 소스는 메타데이터로 보강되어 주어진 목적에 대한 데이터의 유용성을 이해하고 판단하는 부담을 줄여준다.

 

최근에는 다음과 같은 이유로 데이터 큐레이션 방법의 유용성과 효과가 증가하고 있다.

  • 다양한 도메인에서의 메타데이터 표준화
  • 텍스트 분석 및 자연어 처리 소프트웨어의 가용성
  • 도메인별 데이터 저장소의 네트워크 가용성
  • 시각화 및 검색 기능 향상
  • 빅데이터 계산 방법(?)

큐레이션할 데이터 유형

데이터 큐레이션은 구조화된 데이터, 반구조화된 데이터, 비구조화된 데이터에 모두 적용할 수 있다.

비구조화된 데이터는 일반적으로 기술 보고서, 뉴스 기사 등에서 볼 수 있는 텍스트, 사진, 동영상이 포함된다.

구조화된 데이터는 행(row)과 열(column)로 구성된 고정된 스키마를 따르는 데이터를 말하며, 우리가 흔히 알고 있는 RDBMS에서 다루는 데이터가 그 예이다.

반구조화된 데이터는 고정 스키마는 없지만, 데이터 내에 구조적 정보가 들어가 있는 형태를 말하며, JSON과 XML, YAML 등이 그 예이다.

 

구조화된 데이터는 역사적으로 컴퓨터 기반 분석에 더 적합했다. 자연어 처리 및 텍스트 분석을 통해 비구조화 및 반구조화 데이터를 처리하는 기술이 점점 더 상업화되고 있으며, 텍스트 데이터 분석이 실용화되고 있다. 머신 러닝, 빅데이터 계산 방법, 시각화와 같은 다른 기술들은 비구조화 및 반구조화 데이터 분석의 발전을 가능하게 하고 있다.

 

일반적으로 원본 데이터와 연관시킬 수 있는 구조나 메타데이터가 많을수록 분석을 수행하기가 더 쉬워진다. 데이터 큐레이션의 목적은 데이터, 특히 반구조화 및 비구조화 데이터에 추가적인 구조를 제공하여 수작업을 줄이고 자동화된 분석이 가능하도록 하는 것이다. 현재 개발 단계에서는 데이터 큐레이션이 완전히 자동화 가능한 절차가 아닙니다. 문제의 일부는 자동화할 수 있지만, 다른 일부는 여전히 사람이 직접 개입해야 한다. 그러나 수동 및 자동화된 데이터 큐레이션 모두 전체 작업을 크게 줄여 분석의 적시성을 높이고 과부하 문제를 줄이는 데 도움이 될 수 있다. 데이터 큐레이션과 데이터 품질 사이에는 명확한 관계가 있으며, 데이터 품질 지표를 사용하여 효과를 측정할 수 있다. 예를 들어, 데이터 출처를 메타데이터로 설명하고 데이터를 얼마나 신뢰할지 결정하는 데 도움이 될 수 있다.

 

C2 활동(지휘 & 통제)에 데이터 큐레이션 기술을 적용하려면 특정 문제를 해결하기 위해 개발된 방법과 과학적 및 상업적 분야에서 개발된 방법을 통합해야 한다. 메타데이터 형식의 표준화와 용어 및 그 의미는 자동화 또는 수동 작업과 관계없이 큐레이션의 성공적인 적용에 있어 중요한 측면이다. 공통된 용어와 개념을 채택하면 큐레이션의 7단계 각각에 메타데이터를 통합하는 데 도움이 되며, 이는 이전 단계의 결과를 이해하는 데 기초가 된다.

 

데이터 큐레이션 문제는 "7C" 모델을 사용하여 설명할 수 있다.

 

데이터 큐레이션의 7C

데이터 큐레이션 프로세스는 데이터 품질을 향상시키고 데이터 공유, 처리 및 사용을 용이하게 하는 일련의 단계이다. 이 프로세스는 데이터 큐레이션의 "7C"를 통해 설명할 수 있다.

  1. 수집(Collect) - 데이터 소스에 연결하고 입력을 받아들인다.
  2. 특성화(Characterize) - 사용 가능한 메타데이터를 추가한다.
  3. 정리(Clean) - 데이터 품질 문제를 식별하고 수정한다.
  4. 맥락화(Contextualize) - 맥락 및 출처 정보를 제공한다.
  5. 분류(Categorize) - 문제를 도메인에 맞게 분류한다.
  6. 상관관계(Correlate) - 다양한 데이터 간의 상관관계를 분석한다.
  7. 목록화(Catalog) - 검색 및 분석을 위한 API를 사용하여 데이터와 메타데이터를 저장하고 접근 가능하게 한다.

수집 단계는 구조화된 데이터 저장소(RDBMS)나 텍스트 문서를 저장할 수 있는 NoSQL2에 데이터를 형식화하여 자동으로 저장하는 절차를 포함한다. 데이터는 확장 가능한 마크업 언어(XML) 또는 JSON과 같은 일반적인 표준 형식으로 저장해야 한다.

 

특성화 단계는 데이터가 수집될 때 적용되며, 생성 시간, 수집 방법, 센서 설명 및 설정, 정확도, 정밀도, 위치 등과 같은 메타데이터가 데이터와 함께 제공되고 기록된다. 적절한 특성화 데이터는 해당 도메인과 용도에 달라진다. 이러한 수준의 표준화 활동은 다양한 분야, 특히 의학 및 생물학 연구 분야에 걸쳐 나타나기 시작했다.

 

정리 단계는 기본적인 데이터 품질 도구를 데이터에 적용하여 데이터의 문제를 식별하고 해결한다. 데이터에서 발생 가능한 문제 중 일부는 다음과 같다.

  • 데이터에 오류가 있는 경우
  • 데이터가 손상된 경우
  • 데이터가 불완전한 경우
  • 데이터가 중복된 경우
  • 불필요한 데이터가 있는 경우

데이터베이스 커뮤니티에 많은 데이터 정리 기술들이 잘 알려져 있으며, 종종 ETL 프로세스로 구현된다. 데이터를 정리하는 방법은 오타 수정부터 인공지능 기술을 사용하여 누락된 관계를 추론하거나 대체 표준 표현으로 변환하는 것까지 복잡성이 증가할 수 있다. 시간이 지남에 따라 데이터 문제를 해결하는 데 드는 비용이 증가하기 때문에 데이터 큐레이션 과정에서 가능한 빨리 데이터를 정리하는 것이 바람직하다. 이러한 방법들은 비정형 데이터에도 확장되고 있다.

 

맥락화 단계는 맥락이나 특정 문제뿐만 아니라 데이터의 용도에 따라 달라진다. 이러한 측면은 인증 및 기타 출처 정보와 같은 추가 메타데이터가 필요한지 알려준다. 예를 들어, 정보기관 애플리케이션은 일상적인 물류 요청보다 더 높은 수준의 출처 정보가 필요할 수 있다. 도메인은 데이터의 가장 적합한 메타데이터의 특정 형식이나 표현을 지시할 수도 있다.

 

분류 단계는 데이터에서 주요 관심 속성을 더욱 명확하게 식별한다. 자연어 처리, 텍스트 분석, 머신 러닝을 반구조화 및 비구조화 데이터에 적용하여 주요 관심 속성을 식별하고 추출할 수 있다. 이미지 분석은 이미지나 비디오 파일의 주요 특징을 식별하는 데 사용할 수 있다. 추출된 특정 속성은 문제 영역에 따라 달라진다. 예를 들어, 감성 분석은 블로그 데이터에서 신제품이나 제안된 정책 이니셔티브에 대한 의견을 추출하는 데 사용할 수 있다.

 

상관관계 단계는 저장된 데이터의 이질적인 집합 전반에 걸쳐 데이터와 개념을 일치시키고 식별하기 위해 적용될 수 있다. 예를 들어, 대상 인식 절차를 위해 데이터의 시간적 또는 지리적 정렬을 들 수 있다. 데이터베이스 기술의 다른 예로는 데이터 통합 및 엔티티 확인 범주에 속하며 상당히 복잡할 수 있다. 예를 들어, 특정 개인에 속하는 모든 의료 기록을 수집하는 것은 의료 분야에서 잘 알려진 문제이다. 그래프 데이터베이스 또는 트리플 스토어는 이를 위한 효율적인 도구로 간주된다. 여러 대규모 데이터 세트를 비교할 때 상관관계를 결정하는 것은 계산 집약적일 수 있다. 빅데이터 분석에 사용되는 것과 같은 병렬 또는 분산 처리 기술이 이 단계에서 유용할 수 있다.

 

카탈로그 단계는 데이터와 메타데이터를 수명 주기 동안 저장하고 보존하며, 데이터 저장소에 게시하거나 지정된 소비자에게 푸시하거나 신속한 검색을 위한 인덱싱과 같은 배포를 준비한다. 데이터의 검색, 추출 및 기본 분석을 위해 API를 제공할 수 있으며, 일반적으로 웹 서비스로 구현된다. 이 단계에서 특정 도메인의 요구에 맞춘 데이터 저장소를 사용하여 데이터와 메타데이터를 저장하고 보존하는 경우가 많다. 맞춤형 검색 엔진도 종종 저장소와 연결된다.

 

과제

현재 대부분의 데이터 큐레이션은 여전히 수작업에 크게 의존하고 있다. 그 결과, 많은 전술 상황에서는 이 과정이 너무 느려서 제때 효과를 내지 못할 수 있다. 전투원이 전술 상황을 파악하려 할 때, 처리해야 하는 디지털 텍스트 정보가 너무 많아 행동으로 옮기기 전에 제때 분석을 마치기 어렵다. 게다가 데이터는 우선순위가 매겨져 있지 않고, 출처(provenance)가 태그되지 않았으며, 요약 정보도 제공되지 않기 때문에 전투원은 정보를 걸러내는 데 도움을 받지 못하고 빠르게 데이터 과부하(data overload) 상태에 빠질 수 있다.

 

이를 해결하려면 자연어 처리(NLP)와 텍스트 분석 기법, 그리고 이미지·비디오 데이터를 분석하기 위한 기법들을 목적에 맞게 수정·확장해 적용해야 한다. 특히 실시간 정보 처리는 자동화가 필수적이다. 무인항공기(UAV)와 같은 센서에서 들어오는 비디오 및 다른 데이터 집약적 소스들은 데이터의 유효 수명 내에 처리할 수 없을 만큼 많은 데이터를 만들어낸다. 그러나 현재의 이미지 처리, 이미지 이해, 장면 분석 기술은 이러한 요구를 충족하기에는 여전히 부족하다.

 

결론

자동화된 디지털 데이터 큐레이션의 개념은 기본 데이터에 메타데이터를 추가해 데이터의 분석 활용도를 높이고 데이터 공유를 촉진하는 7단계 과정으로 설명할 수 있다.

 

현재 국방부(DoD), 미국 연방 정부, 그리고 과학 연구 커뮤니티 대부분에서 데이터 큐레이션은 여전히 수작업 중심으로 이루어지고 있다. 하지만 디지털 데이터의 양과 빅데이터를 활용하는 애플리케이션의 수가 급증하는 상황에서 이 방식은 지속 가능하지 않다.
원하는 메타데이터를 만들기 위해 사람이 직접 개입해야 하는 프로세스에서 발생하는 병목현상을 해결하려면 추가적인 자동화가 필요하다.

 

데이터 큐레이션이 지휘·통제(Command & Control, C2)에 얼마나 효과적인지는 여전히 연구 중이다. 효과 자체는 분명하지만, 큐레이션 단계를 제때 완료할 수 있도록 자동화하는 것은 여전히 주요 과제로 남아 있다. 따라서 실제 C2 환경에서 데이터 큐레이션 단계를 더 명확히 정의하고 자동화하기 위한 추가 연구가 필요하다.