이번 시간에 눈여겨볼 곳은 ADSP 2과목, 데이터 분석기획입니다.
분석기획에서 자주 등장하는 개념인 데이터 거버넌스에 대하여
한번 살펴보겠습니다.
서론
개인적으로 행정학을 복수전공한 관점에서, '거버넌스'라는 개념이 손쉽게 사용되긴 어려운 개념이라고 생각됩니다. 거시적으로도, 미시적으로도 개념을 재정립할 수 있고 정책적인 내용을 서술하는 지면에서 반드시 등장해야 하는 개념이면서 국제빈곤 개발이나 지역사회 개발 분야에서도 폭넓게 쓰이는 용어였기 때문입니다.
거시적인 측면에서는 주권을 갖고있는 '거의 모든 것' 이라고 할 수 있겠습니다. 정부는 당연히 포함되고 공공기관, 각종 행정부서, 지방자치단체 등은 물론, public 서비스를 주는 모든 곳이어야 해서 비영리단체나 시민들도 대부분 포함된다고 봅니다.
시야의 폭을 좁힌다면, 단순히 '정부'라고 볼 수도 있습니다. 세종특별시나 여의도에 있는 몇몇 공간들 말이죠. 일반 시민들이 접하거나, 교류가 일어나기에는 거리가 먼 초-상위 기관으로 볼 수 있겠습니다(미시적 측면)
국제 개발의 측면에서는 사적인 private한 서비스를 제공하는 측과 대립하는 측면에서 거버넌스를 사용했습니다. 주로 좋은 느낌은 아니었는데요. 구호를 위한 비영리단체와 대립하고, 정치적으로 고착화되어 혁신이 필요하다고 자주 언급되는 주체입니다. (정경 유착, 군부 독재와 관련되서 사용되기도 했습니다) 요컨데, 행정력을 동원할 수 있고 공적인 느낌을 띄어야 거버넌스에 가깝다 할 수 있습니다. 사업을 시작해도 다른 누군가의 통제를 받고, 자체적인 판단에 따라 사업을 진행할 수 없다면 그곳이 거버넌스였습니다. 다른 기관을 통합시킬 수 있고, 그 스스로도 통합되는 공간이었죠.
지역사회 개발의 측면에서는 더더욱 어렵습니다. 지역의 관리자 자체에서는 거버넌스를 수도권에 있는 상위 기관이라고 보지만, 일반 시민 입장에서는 지자체만으로도 거버넌스라고 서술하기도 했습니다. 물론 지역 개발사업을 진행할 때 반드시 함께 해야할 주체로 표현되기도 합니다.
일종의 System 이라고 표현하는 맥락도 있었습니다. 거버넌스를 일종의 체계나 톱니바퀴 처럼 본 것이죠. 규모가 큰 사업을 진행하거나 감시, 감리가 필요한 사업들을 진행할 때 그 주체는 자기 마음대로 일을 결정할 수 없습니다. 댐 사업처럼 말이죠. 이렇게 큰 토목 건설이나 시민들에게 피해& 환경에 영향을 줄 수 있는 사업은 사람이 아닌 체계의 통제를 따르거나 Document의 지시에 따라야 합니다. 이러한 점에서 불완전한 것은 서류가 아니라 사람이라고 보는 관점입니다.
체계와 규정에는 욕구가 없기 때문이죠.
통계학에서는 이 System을 거버넌스라고 보는 관점을 일부분 차용한 것 같습니다.
개발 분야에서도 추상적인 용어이기에 일단 예시를 통해서 이해하는 것이 가장 바람직한 방법이겠습니다.
예시 문제
다음 중 데이터 거버넌스의 체계의 순서를 바르게 나열한 것은 무엇인가?
① 데이터 관리 체계 → 데이터 표준화 → 데이터 저장소 관리 → 표준화 활동
② 데이터 표준화 → 데이터 관리 체계 → 데이터 저장소 관리 → 표준화 활동
③ 데이터 저장소 관리 → 데이터 표준화 → 표준화 활동 → 데이터 관리 체계
④ 표준화 활동 → 데이터 저장소 관리 → 데이터 관리 체계 → 데이터 표준화
표 관 저 표
데이터 거버넌스는 data (표준화, 관리체계, 저장소 관리, 표준화 활동)의 순서로 진행됩니다
먼저 데이터 거버넌스(이하 데·거)의 구성요소부터 살펴보겠습니다.
데거는 원칙, 조직, 프로세스로 이루어집니다. 세 부분이 모두 독립적으로 운용되는 것이 아니라 유기적이고 상호 보완적인 개념입니다.
원칙(principle)은 데이터를 유지관리하기 위한 지침과 가이드를 말합니다.
여기에는 보안, 품질기준, 변경관리도 포함됩니다.
조직(organization)은 데이터를 관리할 조직의 역할을 의미합니다. 역할에는 역시 책임이 따르죠.
여기에는 데이터 관리자, DB 관리자, 데이터 Architect가 포함됩니다.
프로세스(process)는 일종의 데이터 관리를 위한 활동과 체계입니다.
작업 절차, 모니터링 활동, 측정 활동 등이 포함되어 있습니다.
그리고 매우 빈도높은 개념인 데거의 체계 개념입니다.
위 순서대로 진행되는데요.
표준화라는 용어가 두 번이나 들어가서 사실, 충분히 헷갈릴 수 있다고 생각됩니다.
그렇다면 첫번째인 데이터 표준화와 네번째인 데이터 표준화 활동은 무엇이 다른 것일까요?
분석의 대상이 되는 데이터 그 자체에 대해 다룰 때는 "데이터 표준화"를 의미하고
그 이후에 거버넌스의 외부적인 부분에서 조직의 안정성이나, 점검과 관련된 활동은 "표준화 활동"안에 포함됩니다!
좀더 세부적으로 들어가면 표준화, 거시적인 활동은 표준화 활동이라고 보면 되겠네요.
먼저 데이터 표준화는 Meta data 구축, Data dictionary 구축, Data life cycle management 등으로 구성됩니다.
빅데이터를 분석하는 방법에는 정말 그 주체마다 방식도 다르고, 데이터 세트의 크기나 유형마다
조금씩 다 다른것을 볼 수 있습니다.
아래는 참조사항으로 아마존에서 제시하고 있는 빅데이터의 분석입니다.
빅 데이터 분석은 다음과 같은 5단계로 큰 데이터 세트를 분석합니다.
|
※ 출처 : aws.amazon.com
데이터 사전 안에서는 데이터 표준 용어를 사용하여, 사전 간의 상호 검증이 가능하도록 해야 합니다.
명명 규칙은 필요시 한글 /영어 등으로 작성되어 매핑 상태를 유지해야 합니다.
데이터 관리체계는 데이터의 정합성과 활용의 효율성을 위해서 표준 데이터를 포함한 meta data와 데이터 딕셔너리의 관리 원칙을 수립합니다.
이 원칙에 따라서 항목별로 상세한 프로세스를 만들고 관리와 운영을 위한 담당자, 역할, 책임을 준비합니다.
빅데이터는 Data life cycle management를 수립하지 않으면 비용문제에 직면하게 될 수 있습니다.
개별 저장소 관리는 일종의 Repository 관리입니다.
메타 데이터와 표준 데이터를 관리하기 위한 전사 차원의 repository를 구성합니다. 이 곳은 데이터 관리체계 지원을 위한 work flow 및 관리용 Application을 지원하고, 관리 대상 시스템과의 인터페이스를 통한 통제가 이루어져야 합니다. 데이터 구조 변경에 따른 사전 영향 평가도 수행되어야 합니다.
마지막으로 표준화 활동입니다. 데거 체계를 구축한 후 표준 준수 여부를 주기적으로 점검하고, 모니터링을 실시하는 과정입니다. 거버넌스 조직 내 안정성을 위한 지속적인 변화 관리와 교육이 진행되어야 합니다.
지속적인 데이터 표준화 개선활동을 통해 실용성을 높여야 합니다.
빅데이터 거버넌스라는 개념도 있습니다.
빅데이터 거버넌스는 데이터 거버넌스 체계에 대해 빅데이터의 효율적 관리, 다양한 데이터의 관리체계, 데이터 최적화, 정보보호, 카테고리별 관리책임자 지정을 포함하는 것으로, 비슷한 체계입니다.
ERD 부분은 운영중인 DB와 일치하기 위해 철저한 변경관리가 필요합니다.
또 다른 예시문제
다음 중 데이터 표준 용어 설정, 명명 규칙 수립, 메타데이터 구축, 데이터 사전 구축 등의 업무로 구성된 데이터 거버넌스 체계 항목은 무엇인가?
① 데이터 표준화
② 데이터 관리 체계
③ 데이터 저장소 관리
④ 표준화 활동
위에서 언급하였듯이, 표준화와 표준화 활동을 혼동해선 안됩니다.
이번 문제는 데이터 표준화 입니다.
이부분까지 하여, 데이터 거버넌스 정리를 마치겠습니다.
다음 시간에는 또다른 ADSP 빈출 개념에 대해서 다루어 보겠습니다.
'필기정리 > 스터디노트' 카테고리의 다른 글
[ADSP] 2023년도 1회 (36회차) ADSP 시험 복기 및 후기 (0) | 2023.02.26 |
---|---|
[ADSP] 데이터 웨어하우스와 마트에 관하여 (0) | 2023.02.24 |
[ADSP] R프로그램 명령어와 형식에 관하여 (0) | 2023.02.22 |
[ADSP] 시계열 분석 - 정상성 가정에 대하여 (0) | 2023.02.20 |