본문 바로가기

자격증/정보처리기사 4과목

4-19강. 데이터 전환-데이터 전환 기술

과목4. 데이터베이스 구축, 19강. 데이터 전환 기술

 

[ 목차 ]

1. 데이터 전환

2. 데이터 전환 절차

3. 초기 데이터 구축

4. 초기 데이터 구축을 통한 기대효과

5. ETL

6. ETL 프로세스

7. 파일 처리 기술

8. 순차파일 sequential file (목차 없는 책)

9. 색인 순차 파일 ISAM indexed swquential file (목차 있는 책, 정적 인덱스)

10. VASM (동적 인덱스)

11. 직접파일 DAM

 

1. 데이터 전환

1) 데이터 이행(이관)으로도 불림

2) 새로운 정보 시스템을 개발, 기존의 시스템을 재구축한 경우 기존의 시스템에서 사용하던 데이터를 새로운 시스템으로 이행하기 위해 이전 시스템에서 데이터를 추출, 변환하여 새로운 시스템으로 적대하는 일련의 작업

3) 추출 extraction, 변환 transformation, 적재 loading

4) 전환 준비 > 전환 설계/개발 > 전환 테스트 > 실데이터 전환 > 최종 전환 및 검증

 

2. 데이터 전환 절차

1) 원천 데이터의 추출과 정제, 변환, 목표 시스템으로의 적재 및 검증 단계로 구성

2) 데이터 추출 및 가공, 적재 과정에서 일반적으로 ETL(추출, 전환, 적재) 도구들이 사용

3) 원천시스템 운영 과정에서 잘못된 데이터를 수정하거나 목표 시스템을 위한 새로운 데이터 표준에 맞지 않는 데이터를 변환하거나 데이터 변환 과정에서 잘못 변경된 데이터들을 식별하여 수정하는 과정을 의미

 

3. 초기 데이터 구축

1) 단시일에 대량의 데이터를 전환함에 있어 발생할 수 있는 위험을 최소화

2) 신속하고 안정적인 이행 작업을 수행하기 위해 우너천시스템에서 특정 데이터들을 사전에 추출, 변환해서 적재할 수 있도록 데이터베이스 혹은 데이터파일로 구축해 두는 것

3) 기존 운영 시스템에 대한 이해를 바탕으로 구축 범위를 명확하게 식벼해야 함

4) 초기 데이터 구축 시 발생할 수 잇있는 예상문제점을 도출하여 사전에 대응방법을 마련

5) 절차 : 구축 전략 수립 > 구축 대상 파악 > 구축 범위 확정 > 세부 고려사항 도출

 

4. 초기 데이터 구축을 통한 기대효과

1) 업무 중단 최소화, 안정성 확보 방안 마련

2) 정합성 검증 방안과 오류 데이터에 대한 정비 방안 마련

3) 데이터의 품질 검증(전후비교) 방안 마련

4) 암호화된 개인정보에 대한 처리 방안 마련

 

5. ETL

1) 조직 내외부의 복수의 데이터 소스들로부터 분석을 위한 저장소로 데이터를 이동시키는 프로세스

2) 다양한 소스시스템으로부터 필요한 데이터를 추출하여 변환작업을 거쳐 타겟시스템으로 전송 및 로딩하는 모든 과정

 

6. ETL 프로세스

1) 특수한 엔진에서 진행되며 종종 변환 중인 데이터가 준비 테이블에서 임시로 보유되었다가 대상에 로드

2) 필터링, 정렬, 집계, 데이터 조인, 데이터 정리, 중복 제거 및 데이터 유효성 검사 등의 작업이 포함

3) 종종 시간 절약을 위해 3가지 단계가 동시 실행하기도 함

4) 예를 들어 데이터의 전체 추출이 완료될 때까지 기다리지 않고 데이터가 추출되는 동안 이미 수신된 데이터가 변환되면서 로드 준비가 진행되고 준비된 데이터에 대해 로드 프로세스가 시작

5) E : JDBC, ODBC 기술 이용, flat file생성, CDC 등

6) T : 재구성, 정제, 변환, 데이터필드 검사, rule 적용, 데이터 통합 및 정재가 과도히 요구되는 경우 ETL 작업 8%가 T에서 진행

7) L : DBMS 고유기능/utility(append, delete/insert, update)이용

flat file : 단순한 레코드의 집합으로 계층적 또는 네트워크 구조를 갖지 않고 단순히 같은 형식의 레코드들의 모임으로 이루어진 파일로. 데이터 전환과 교환을 위해 사용

CDC 변경데이터캡쳐 : 실시간으로 데이터를 통합하기 위해 변경된 데이터를 캡쳐해 다양한 운영, 분석 시스템에 실시간으로 전달하는 기술로, 마지막으로 추출한 이후 변경된 데이터를 골라내는 기술

7. 파일 처리 기술

1) 많은 양의 자료를 각종 매체에 저장하는 기법

2) 파일을 하드 디스크에 저장할 때 기억공간을 효율적으로 사용하고 필요한 자료의 탐색을 쉽게하기 위해 파일을 효과적으로 처리하는 기술

3) 순차파일, 색인 순차 파일, VSAM, 직접파일

 

8. 순차파일 sequential file (목차 없는 책)

1) 입력되는 데이터들을 논리적인 순서에 따라 물리적 연속 공간에 순차적으로 기록하는 방식

2) 급여 관리 등과 같이 변동사항이 크지 않고 기간별로 일괄 처리를 주로 하는 경우에 적합

3) 주로 순차 접근이 가능한 자기 테이프에서 사용

4) 장점

  1] 기록 밀도가 높아 기억공간을 효율적으로 사용(기억 낭비가 없음)

  2] 매체 변환이 쉬워 어떠한 매체에도 적용 가능

  3] 레코드를 기록할 때 사용한 키 순서대로 레코드를 처리하는 경우 다른 편성법보다 처리 속도가 빠름

5) 단점

  1] 파일에 새로운 레코드를 삽입, 삭제하는 경우 파일 전체를 복사해야 하기에 많은 시간이 소요

  2] 데이터 검색 시 처음부터 순차적으로 검색하기 때문에 검색 효율이 낮음

  3] 색인순차파일에 비해 삽입, 삭제, 검색이 어려움

 

9. 색인 순차 파일 ISAM indexed swquential file (목차 있는 책, 정적 인덱스)

1) 인덱스를 통한 랜덤 처리와 데이터의 순차 처리를 병행할 수 있는 파일

2) 삽입, 삭제, 갱신, 검색이 용이

3) 삽입 시 기본 영역에 추가 공간이 없을 경우 오버플로우 영역에 저장 

4) 파일 사용 중 삽입, 삭제가 빈번해져서 오버플로우 레코드가 많아지면 파일을 재편성해야 함

5) 순차 처리와 랜덤 처리가 모두 가능하도록 레코드들의 키 값 순으로 정렬시켜 기록하고 레코드의 키 항목만을 모은 색인을 구성하여 편성하는 방식

6) 색인을 이용한 순차적 접근 방법을 제공하기에 isam이라고도 지칭

7) 레코드 참조 시 색인을 탐색한 후 색인이 가르키는 포인터를 사용하여 직접 참조

8) 자기 디스크에 많이 사용되며 자기테이프에서 사용 불가

9) 장점

  1] 순차 처리와 랜덤 처리가 모두 가능해 목적에 따라 융통성 있게 사용

  2] 효율적 검색이 가능하고 레코드의 삽십, 삭제, 갱신이 용이

10) 단점

  1] 색인 구역과 오버플로 구역을 구성하기 위한 추가 기억공간 필요

  2] 파일이 정렬되어 있어야 하기에 추가, 삭제가 많으면 효율이 떨어짐

  3] 색인을 이용한 액세르를 하기 때문에 액세스 시간이 랜덤 편성 파일(=직접파일)보다 느림

 

10. VASM (동적 인덱스)

1) 동적 인덱스 방법을 이용한 색인 순차 파일

2) 기본 구역과 오버플로우 구역을 구분하지 않음

3) 기본 구역 내에 예비 공간을 두어 추가로 삽입될 경우 이용

4) 레코드를 삭제하면 그 공간을 재사용 가능(정적 인덱스는 사용 불가능)

5) 인덱스 파일 또는 데이터 파일을 블록으로 구성하고 블록은 추가적인 삽입 레코드를 감안하여 빈 공간을 준비해 둔 인덱스 방법(정적 인덱스는 파일, 레코드가 삽입되어도 인덱스의 구조가 변하지 않음)

6) 데이터 레코드가 저장되는 부분인 제어 구간, 몇 개의 제어 구간을 모아 놓은 제어 구역, 제어 구역에 대한 인덱스를 저장한 순차 세트, 순차 세트의 상위 인덱스인 인덱스 세트로 구성

데이터 레코드 -> 제어 구간 - > 제어 구역 - > 순차 세트 - > 인덱스 세트

7) 제어 구간에 가변 길이 레코드를 쉽게 수용 가능

 

11. 직접파일 DAM

1) 해싱 함수를 계산해서 물리적 주소를 직접 접근(대화형 처리 가능)

2) 순서에 관계 없이 저장

3) 레코드 주소의 변환과정의 시간 소요

4) 기억공간 효율 저하

5) 파일을 구성하는 레코드를 특정 순서 없이 임의의 물리적 저장공간에 기록 (=랜덤파일)

6) 특정 기준으로 키가 할당되며 해시 함수를 이용해 키에 대한 보조기억장치의 물리적 상대 레코드 주소를 계산한 후 해당하는 주소에 레코드를 저장

7) 레코드는 해시 함수에 의해 계산된 물리적 주소를 통해 접근

8) 임의 접근이 가능한 자기 디스크자기 드럼을 사용

9) 장점

  1] 직접 접근 기억장치 DASD의 물리적 주소를 통해 파일의 각 레코드에 직접 접근하거나 기록할 수 있으며 접근, 기록의 순서에는 제약이 없음

  2] 접근 시간이 빠르고 레코드의 삽입, 삭제, 갱신이 용이

  3] 평균 접근 시간 내에 모든 레코드 검색이 가능(레크도의 위치는 상관 없음)

10) 단점

  1] 레코드의 주소 변환 과정이 필요하며, 이 과정의 소요 시간이 발생

  2] 기억공간의 효율 저하

  3] 기억장치의 물리적 구조에 대한 지식이 필요하고 프로그래밍 작업이 복잡

  4] 충돌이 발생할 것을 대비해 기억공간의 확보가 필요