본문 바로가기

자격증/정보처리기사 4과목

4-21강. 데이터 전환-데이터 정제

과목4. 데이터베이스 구축, 21강. 데이터 전환-데이터 정제

 

[ 목차 ]

1. 데이터 품질 관리(정합성 여부를 확인하는 작업)

2. 원천 데이터 품질 분석

3. 정합성 항목

4. 목적 데이터 품질 분석

5. 오류 데이터 측정

6. 오류 원인 파익 및 정제 여부 결정

7. 단계별 데이터 정제 방안 : 정제 시점에 따라 전환 테스트 전, 중, 후 3단계로 구분하여 수행

8. 데이터 정제요청서 작성

9. 데이터 정제 보고서 작성

 

1. 데이터 품질 관리(정합성 여부를 확인하는 작업)

1) 기관이나 조직 내외부의 정보시스템 및 db 사용자의 기대를 만족시키기 위해 지속적으로 수행하는 데이터 관리 및 개선 활동

 

2. 원천 데이터 품질 분석

1) 원천 데이터의 품질이 보장되지 않으면 전환 후의 데이터도 정확하지 않으며 전환 후의 데이터 정합성 검증시 오류가 발생할 때 그 원인을 찾기 어려움

2) 원천 데이터의 품질을 검증함으로써 전환의 정확성을 보장할 수 있으며 이전에 미처 발견하지 못한 데이터의 오류를 찾아낼 수 있음

3) 정합성 : 모순 없이 일관되게 일치하는 정도

 

3. 정합성 항목

1) 필수 항목, 데이터의 유형, 날짜, 금액, 법칙, 실제 존재 영업적, 코드값, 업무 규칙, 선후 관계, 잘못된 정보

 

4. 목적 데이터 품질 분석

1) 원천 데이터와 목적 데이터베이스의 속성 간 대응 관계는 1:1 보다 n:m 대응 관계가 더 많음

2) 따라서 양자 간의 대응 관계를 정확히 표현하기 위해 데이터 레이아웃을 정확하게 파악하고 품질 검증을 진행

3) 목적 db의 전환 데이터 검증을 위한 고려사항

  1] 업무에서 사용하는 보고서, 정보를 조사해 검증에 필요한 내용을 선정하고 현재의 원데이를 바탕으로 검증용 정보 도출

  2] 전환 데이터의 검증은 데이터전환 팀 인원뿐만 아니라 현업 인원도 함께 검증을 수행함으로써 검증의 정확성을 높이고 시간은 단축 가능

4) 전황 데이터와 대표적인 정합성 검증 항목

  1] 과목별 좌수(펀드의 가준 단위) 및 잔액

  2] 특정 기준으로 분류된 좌수 및 잔액

  3] 보고서 항목, 통계 수치

  4] 계좌 및 고객을 샘플링하여 해당 사항을 모두 검증

  5] 특수한 관계가 있는 고객을 추출하여 관련된 데이터가 정확한지 검증(전수 검증은 현실적으로 불가능)

 

5. 오류 데이터 측정

1) 정량적 측정 : 데이터 품질 기준에 따라 정상 데이터와 오류 데이터를 분리하고 수량을 정확히 측정하여 오류 관리 목록에 기재

  1] 정상 데이터의 건수를 정량적으로 측정 : 전환 대상 범위의 데이터를 업무 영역별, 테이블별로 세분화하여 정상 데이터의 수량을 정확히 측정하고 기록

  2] 오류 데이터의 유형, 건수를 정량적으로 측정 : 원천 데이터의 정합성 기준을 근거로 업무별 오류 위치와 유형을 파악하고 수량을 정확히 측정하고 기록

 

6. 오류 원인 파익 및 정제 여부 결정

1) 오류 목록의 내용을 확인하고 오류 해결 방안을 참조하여 원천 데이터의 정제를 요청할 것인지 전환 프로그램을 수정할 것인지 데이터 정제 여부를 결정

2) 발견된 데이터 오류를 분석하고 원인을 파악

  1] 오류 관리 목록에 기록된 오류 내용을 확인하고 오류의 상태와 심각도를 결정한 후 오류원인을 파악

  2] 파악된 원인을 기반으로 원천 데이터와 전환 프로그램의 정제 필요 여부를 결정

오류 관리 목록

1. 정제 아이디 : 오류를 해결한 아이디
2. 해결 방안 : 해결 불가능한 오류는 고객과 협의
3. 심각도 : 상-더이상 진행 불가, 중-전반에 영향, 하-상화에 맞지 않는 용도 및 배치로 영향 작음
4. 상태 등을 기록
  1] open : 오류 보고되었으나 분석되지 않은 상태
  2] assigned : 개발자에게 오류 할당
  3] fixed : 오류 수정
  4] closed : 재테스트에서 오류 발견되지 않은 경우로 만족스러우면 open으로 전환
  5] deferred : 오류 수정 연기
  6] classified : 오류 분류

7. 단계별 데이터 정제 방안

0) 정제 시점에 따라 전환 테스트 전, 중, 후 3단계로 구분하여 수행

1) 1단계 : 전환 테스트 전

2) 2단계 : 전환 테스트 시

3) 3단계 : 최종 전환

 

8. 데이터 정제요청서 작성

1) 오류 내역 중 원천 데이터의 정제가 필요한 부분과 전환 프로그램의 수정이 필요한 부분으로 나누어 작성

2) 정제가 필요한 원천 데이터와 전환 프로그램의 수정이 필요한 부분을 확인

3) 분석된 오류 내용을 근거로 정제 유형을 분류하고 현재 정제 상태를 기록

정제 유형
1) 완전성 : 업무적으로 반드시 있어야 하는 자료가 누락
2) 유효성 : 항목의 값이 유효하지 않음
3) 일치성 : 상호 관련이 있는 자료 항목이 서로 상이(남자인데 주민번호는 여성)
4) 유일성 : 유일해야 할 값이 중복

4) 정제 방법

  1] 원천 : 원천 데이터 수정 필요

  2] 전환 : 전환 프로그램 수정 필요

  3] 모두 : 모두 필요

5) 상태 : 진행 상태를 최종 변경자가 다음의 상태로 변경

  1] 요건 제기 : 정제 요건을 도출하여 데이터 정제 요건정의서 작성

  2] 1차 검토 : 도출된 정제 요건 검토 완료

  3] 1차 조치 : 1차 검토 반영 -> 조치 완료

  4] 1차 확인 : 조치 완료 -> 조치 내역 확인 완료

 

  5] 2차 검토 : 1차 확인 후 완전한 이슈 해결이 되지 않은 경우

  6] 2차 조치 : 2차 검토 반영 -> 조치 완료

  7] 2차 확인 : 2차 조치 완료 -> 조치 내력 확인 완료

 

  8] 3차 검토 : 2차 확인 후 완전한 이슈 해결이 되지 않은 경우

  9] 3차 조치 : 3차 검토 반영 -> 조치 완료

  10] 3차 확인 : 3차 조치 완료 -> 조치 내역 확인 완료

6) 데이터 정제와 전환 프로그램 수정을 위한 정제 요청서를 작성

  1] 데이터 정제 요청서는 전환 시 발생한 오류를 해결하기 위한 데이터 정제 요청 내용을 작성

  2] 해결 방안을 같이 작성하여 정제 검토 시 빠른 의사 결정을 내릴 수 있도록

 

9. 데이터 정제 보고서 작성

1) 정제요청서에 의해 정제된 원천 데이터를 확인하고 검증한 결과를 토대로 작성하여 수행 결과를 보고

2) 정제된 원천 데이터를 확인하여 정제 수행 결과를 확인

  1] 정제를 요청한 원천 데이터와 정제된 데이터 항목을 육안으로 일일이 비교

  2] 기존 오류가 재발생되었는지 확인하고 최동 목적 데이터베이스에 적재된 데이터를 확인

3) 데이터 정제보고서 작성

  1] 정제된 결과를 반영

4) 정제보고서 항목

  1] 정제 ID별로 정제 내역 기록

  2] 실제 정제 건수 기록

  3] 전환 결과 함께 기록

  4] 정제되지 않은 건은 이유와 개수 기록

  5] 향후 대응 방안 기록