Database/Database 기초

회복과 병행 제어

Debin 2021. 11. 8.
반응형

2022. 12. 13. 23:30 수정 및 복습 시작

 

데이터베이스 관리 시스템은 데이터베이스가 항상 정확하고 일관된 상태를 유지할 수 있도록 다양한 기능을 제공하는데,

그 중심에는 트랜잭션이 있다.

트랜잭션을 관리함으로써 데이터베이스의 회복과 병행 제어가 가능해져, 결과적으로 데이터베이스가 일관된 상태를 유지할 수 있다.

트랜잭션

  • 트랜잭션은 하나의 작업을 수행하는 데 필요한 데이터베이스의 연산들을 모아놓은 것으로, 데이터베이스에서 논리적인 작업의 단위가 된다.
  • 트랜잭션은 데이터베이스에 장애가 발생했을 때 데이터를 복구하는 작업의 단위도 된다.
  • 데이터베이스의 무결성과 일관성을 보장하기 위해 작업 수행에 필요한 연산들을 하나의 트랜잭션으로 제대로 정의하고 관리해야 한다.

트랜잭션의 특징

트랜잭션의 특성으로는 원자성, 일관성, 격리성, 지속성이 있다.

  • 원자성
    • 트랜잭션의 연산들이 모두 정상적으로 실행되거나 하나도 실행되지 않아야 하는 all-or-nothing 방식을 의미
    • 만약 트랜잭션 수행 도중 장애가 발생한다면 지금까지 실행한 연산 처리를 모두 취소하고, 데이터베이스를 트랜잭션 작업 전상태로 되돌려야 함.
    • 원자성의 보장을 위해 장애 발생 시 회복 기능이 필요.
  • 일관성
    • 트랜잭션이 성공적으로 수행된 후에도 데이터베이스가 일관된 상태를 유지해야 함을 의미
  • 격리성
    • 고립성이라고도 하며 수행 중인 트랜잭션이 완료될 때까지 다른 트랜잭션들이 중간 연산 결과에 접근할 수 없음을 의미.
    • 격리성의 보장을 위해서는 여러 트랜잭션이 동시에 수행되더라도 마치 순서대로 하나씩 수행되는 것처럼 정확하고 일관된 결과를 얻을 수 있도록 제어하는 기능이 필요.
  • 지속성
    • 트랜잭션이 성공적으로 완료된 후 데이터베이스에 반영한 수행 결과는 영구적이어야 함을 의미.
    • 지속성의 보장을 위해서는 장애 발생 시 회복 기능이 필요.

원자성은 회복 기능, 일관성은 병행 제어 기능, 격리성은 병행 제어 기능, 지속성은 회복 기능과 매치된다.

 

트랜잭션 수행과 관련하여 주로 사용되는 연산에는 작업 완료를 의미하는 Commit 연산과 작업 취소를 의미하는 Rollback 연산이 있다.

 

  • Commit 연산: 트랜잭션의 수행이 성공적으로 완료되었음을 알려주며,
    Commit 연산이 실행되면 트랜잭션의 수행 결과가 데이터베이스에 반영되고 일관된 상태를 지속적으로 유지하게 됨.
  • Rollback 연산: 트랜잭션의 수행을 실패했음을 선언하는 연산.
    Rollback 연산이 실행되면 트랜잭션이 지금까지 실행한 연산의 결과가 취소되고 데이터베이스가 트랜잭션 수행 전의 일관된 상태로 되돌아감.

트랜잭션의 다섯 가지 상태

  • 활동 상태: 트랜잭션이 수행되기 시작하여 현재 수행 중인 상태
  • 부분 완료 상태: 트랜잭션의 마지막 연산이 실행을 끝낸 직후의 상태
  • 완료 상태: 트랜잭션이 성공적으로 완료되어 commit 연산을 실행한 상태이며 트랜잭션이 수행한 최종 결과를 데이터베이스에 반영하고, 데이터베이스가 새로운 일관된 상태가 되면서 트랜잭션이 종료됨.
  • 실패 상태: 장애가 발생하여 트랜잭션의 수행이 중단된 상태
  • 철회 상태: 트랜잭션의 수행 실패로 rollback 연산을 실행한 상태다.
    지금까지 실행한 트랜잭션의 연산을 모두 취소하고 트랜잭션이 수행되기 전의 데이터베이스 상태로 되돌리면서 트랜잭션이 종료되며, 철회 상태로 종료된 트랜잭션은 상황에 따라 다시 수행되거나 폐기된다.

장애와 회복

  • 시스템이 제대로 동작하지 않는 상태를 장애라고 한다.
  • 장애가 발생하는 원인은 매우 다양하다. 데이터베이스 시스템에서는 발생할 수 있는 장애는 3가지 유형으로 분류한다.
트랜잭션 장애 의미  트랜잭션 수행 중 오류가 발생하여 정상적으로 수행을 계속할 수 없는 상태
원인 트랜잭션의 논리적 오류, 잘못된 데이터 입력, 시스템 자원의 과다 사용 요구, 처리 대상 데이터의 부재 등
시스템 장애 의미 하드웨어의 결함으로 정상적으로 수행을 계속할 수 없는 상태
원인 하드웨어 이상으로 메인 메모리에 저장된 정보가 손실되거나 교착 상태가 발생한 경우 등
미디어 장애 의미 디스크 장치의 결함으로 디스크에 저장된 데이터베이스의 일부 혹은 전체가 손상된 상태
원인 디스크 헤드의 손상이나 고장 등

 

데이터베이스는 기본적으로 저장 장치에 저장된다. 저장 장치의 종류를 알아보겠다.

 

휘발성 저장 장치
(소멸성)
의미  장애가 발생하면 저장된 데이터가 손실됨.
메인 메모리 등
비휘발성 저장 장치
(비소멸성)
의미 장애가 발생해도 저장된 데이터가 손실되지 않음.
단 디스크 헤더 손상 같은 저장 장치 자체에 이상이 발생하면 데이터가 손실될 수 있음.
디스크, 자기 테이프, CD/DVD 등
안정 저장 장치
의미

비휘발성 저장 장치를 이용해 데이터 복사본 여러 개를 만드는 방법으로,
어떤 장애가 발생해도 데이터가 손실되지 않고 데이터를 영구적으로 저장할 수 있음

 

일반적으로 데이터베이스는 비휘발성 저장 장치인 디스크에 상주한다.

트랜잭션이 데이터베이스의 데이터를 처리하기 위해서는 데이터를 디스크에서 메인 메모리로 가져와 처리한 다음

그 결과를 디스크로 보내는 작업이 필요하다.

디스크와 메인 메모리 간의 데이터 이동은 대개 블록 단위로 수행한다.

디스크에 있는 블록을 디스크 블록이라 하고 메인 메모리에 있는 블록은 버퍼 블록이라 한다.

디스크와 메인 메모리 간의 데이터 이동은 다음 두 연산으로 수행된다.

 

  • input(x): 디스크 블록에 저장되어 있는 데이터 X를 메인 메모리 버퍼 블록으로 이동시키는 연산
  • output(x): 메인 메모리 버퍼 블록에 있는 데이터 X를 디스크 블록으로 이동시키는 연산

 

사용자의 요구에 따라 응용 프로그램에서 트랜잭션의 수행을 지시하면

메인 메모리 버퍼 블록에 있는 데이터를 프로그램의 변수로 가져오고,

데이터 처리 결과를 저장한 변수 값을 메인 메모리 버퍼 블록으로 옮기는 작업이 추가로 필요하다.

메인 메모리의 버퍼 블록과 프로그램 변수 간의 데이터 이동은 다음 두 연산으로 수행된다.

 

  • read(x) - 메인 메모리 버퍼 블록에 저장되어 있는 데이터 X를 프로그램의 변수로 읽어오는 연산
  • write(x) - 프로그램의 변수 값을 메인 메모리 버퍼 블록에 있는 데이터 x에 기록하는 연산

응용 프로그램이 실행한 트랜잭션의 수행을 위해 필요한 데이터 이동 연산

회복 기법

  • 회복은 데이터베이스에 장애가 발생했을 때 장애가 발생하기 전의 모순이 없고 일관된 상태로 복구시키는 것으로,
  • 데이터베이스 관리 시스템에 있는 회복 관리자가 담당한다.
  • 트랜잭션의 특성을 보장하고, 데이터베이스를 일관된 상태로 유지하기 위해 필수적인 기능이다.
  • 데이터베이스 회복의 핵심 원리는 데이터 중복이다.
  • 데이터를 별도에 장소에 미리 복사해두고, 장애로 문제가 발생했을 때 복사본을 이용해 원래의 상태로 복원하는 것이다.
  • 덤프 또는 로그 방법을 사용해 데이터를 복사해두었다가 회복시킬 때 복사본을 사용한다.

덤프

  • 데이터베이스 전체를 다른 저장 장치에 주기적으로 복사하는 방법

로그

  • 데이터베이스에서 변경 연산이 실행될 때마다 데이터를 변경하기 이전 값과 변경한 이후의 값을 별도의 파일에 기록하는 방법

 

장애가 발생했을 때, 덤프나 로그 방법으로 중복 저장한 데이터를 이용해 데이터베이스를 복구하는 가장 기본적인 방법은 redo나 undo 연산을 실행하는 것이다.

 

  • redo (재실행): 가장 최근에 데이터베이스 복사본은 가져온 후 로그를 이용해 복사본이 만들어진 이후에 실행된 모든 변경 연산을 재실행하여 장애가 발생하기 직전의 데이터베이스 상태로 복구 (전반적으로 손상된 경우에 주로 사용)
  • undo (취소): 로그를 이용해 지금까지 실행된 모든 변경 연산을 취소하여 데이터베이스를 원래의 상태로 복구 (변경 중이었거나 이미 변경된 내용만 신뢰성을 잃은 경우에 주로 사용) 

로그 파일은 데이터를 변경하기 이전의 값과 변경한 이후의 값을 기록한 파일이다. 레코드 단위로 트랜잭션 수행과 함께 기록된다.

 

로그 레코드의 종류

 

데이터베이스 회복 기법은 아래와 같다.

 

  • 로그 회복 기법 (즉시 갱신 회복 기법, 지연 갱신 회복 기법)
  • 검사 시점 회복 기법
  • 미디어 회복 기법

즉시 갱신 회복 기법

  • 트랜잭션 수행 중에 데이터 변경 연산의 결과를 데이터베이스에 즉시 반영.
  • 장애 발생에 대비하기 위해 데이터 변경에 대한 내용을 로그 파일에 기록 (데이터 변경 연산이 실행되면, 로그 파일에 로그 레코드를 먼저 기록한 다음 데이터베이스에 변경 연산을 반영)
  • 장애 발생 시점에 따라 redo 나 undo 연산을 실행해 데이터베이스를 복구
  • 트랜잭션이 완료되기 전 장애가 발생한 경우는 undo 연산을 실시. (start 로그 레코드 존재, commit 로그 레코드는 없다.)
  • 트랜잭션이 완료된 후 장애가 발생한 경우는 redo 연산을 실시. (start 로그 레코드 존재, commit 로그 레코드도 존재.)

지연 갱신 회복 기법

  • 트랜잭션 수행 중에 데이터 변경 연산의 결과를 로그에만 기록해두고, 트랜잭션이 부분 완료된 후에 기록된 내용을 이용해 데이터베이스에 한 번에 반영.
  • 트랜잭션 수행 중에 장애가 발생할 경우 로그에 기록된 내용을 버리기만 하면 데이터베이스가 원래 상태를 그대로 유지하게 됨 (undo 연산은 필요 없고 redo 만 사용. 로그 레코드에는 변경 이후 값만 기록하면 됨. new value 형식)
  • 트랜잭션이 완료되기 전 장애가 발생한 경우는 로그 내용을 무시하고 버린다. (start 로그 레코드 존재, commit 로그 레코드는 없다.)
  • 트랜잭션이 완료된 후 장애가 발생한 경우는 redo 연산을 실시. (start 로그 레코드 존재, commit 로그 레코드도 존재.)

검사 시점 회복 기법

  • 로그 기록을 이용하되, 일정 시간 간격으로 검사 시점을 만듬
    • 검사 시점이 되면 모든 로그 레코드를 로그 파일에 기록하고,
      데이터 변경 내용을 데이터베이스에 반영한 후 검사 시점을 표시하는 checkpoin L 로그 레코드를 로그 파일에 기록.
    • check L 에서 K은 현재 실행되고 있는 트랜잭션의 리스트다.
  • 장애 발생 시 가장 최근 검사 시점 이후의 트랜잭션에만 회복 작업 수행
    • 가장 최근의 checkpoin L 로그 레코드 이후 기록에 대해서만 회복 작업 수행. 
    • 회복 작업은 즉시 갱신 회복 기법이나 자연 갱신 회복 기법을 이용해 수행
  • 로그 전체를 대상으로 회복 기법을 적용할 때 발생할 수 있는 비효율성의 문제를 해결
    • 검사 시점으로 작업 범위가 정해 지므로 불필요한 회복 작업이 없어 시간이 단축됨
  •  

미디어 회복 기법

  • 디스크에 발생할 수 있는 장애에 대한 회복 기법
  • 덤프 (복사본)을 이용: 전체 데이터베이스의 내용을 일정 주기마다 다른 안전한 저장 장치에 복사
  •  디스크 장애가 발생하면 가장 최근에 복사해둔 덤프를 이용해 장애 발생 이전의 데이터베이스 상태로 복구하고 필요에 따라 redo 연산을 수행

병행 수행과 병행 제어

  • 병행 수행: 여러 사용자가 데이터베이스를 동시 공유할 수 있도록 여러 개의 트랜잭션을 동시에 수행하는 것을 의미하며
    여러 트랜잭션이 차례로 번갈아 수행되는 인터리빙 방식으로 진행된다.
  • 병행 제어: 병행 제어 또는 동시성 제어는 병행 수행 시 같은 데이터에 접근하여 연산을 실행해도 문제가 발생하지 않고
    정확한 수행 결과를 얻을 수 있도록 트랜잭션의 수행을 제어하는 것을 의미한다.

병행 수행의 문제

갱신 분실

  • 하나의 트랜잭션이 수행한 데이터 변경 연산의 결과를 다른 트랜잭션이 덮어 써 변경 연산이 무효화되는 것이다.
  • 여러 트랜잭션이 동시에 수행되더라도 갱신 분실 문제가 발생하지 않고 마치 트랜잭션을 순차적으로 수행한 것과 같은 결과 값을 얻을 수 있어야 한다.

모순성

  • 하나의 트랜잭션이 여러 개 데이터 변경 연산을 실행할 때 일관성 없는 상태의 데이터베이스에서 데이터를 가져와 연산함으로써 모순된 결과가 발생하는 것이다.
  • 여러 트랜잭션이 동시에 수행되더라도 모순성 문제가 발생하지 않고 마치 트랜잭션들을 순차적으로 수행한 것과 같은 결과 값을 얻을 수 있어야 한다.

연쇄 복귀

  • 트랜잭션이 완료되기 전 장애가 발생하여 rollback 연산을 수행하면, 장애 발생 전에 이 트랜잭션이 변경한 데이터를 가져가서 변경 연산을 실행한 다른 트랜잭션에도 rollback 연산을 연쇄적으로 실행해야 한다는 것이다.
  • 여러 트랜잭션이 동시에 수행되더라도 연쇄 복귀 문제가 발생하지 않고 마치 트랜잭션들을 순차적으로 수행한 것과 같은 결과 값을 얻을 수 있어야 한다.

트랜잭션 스케줄

트랜잭션 스케줄은 트랜잭션에 포함되어 있는 연산들을 수행하는 순서다.

트랜잭션 스케줄은 세 가지 유형으로 구분할 수 있는데, 직렬 스케줄, 비직렬 스케줄, 직렬 가능 스케줄이 있다.

순서대로 알아보겠다.

  • 직렬 스케줄
    • 의미 - 인터리빙 방식을 이용하지 않고 각 트랜잭션 별로 연산들을 순차적으로 실행시키는 것
    • 특징 - 직렬 스케줄에 따라 트랜잭션이 수행되면, 다른 트랜잭션의 방해를 받지 않고 독립적으로 수행되므로 항상 모순이 없는 정확한 결과를 얻게 됨.
    • 다양한 직렬 스케줄이 만들어질 수 있고, 직렬 스케줄마다 데이터베이스에 반영되는 최종 결과가 다를 수 있지만 직렬 스케줄의 결과는 모두 정확함.
    • 각 트랜잭션을 독립적으로 수행하기 때문에 병행 수행으로 볼 수는 없다.
  • 비직렬 스케줄
    • 의미 - 인터리빙 방식을 이용하여 트랜잭션을 병행 수행하는 것
    • 특징 - 트랜잭션이 번갈아 연산을 실행하기 때문에 하나의 트랜잭션이 완료되기 전에 다른 트랜잭션의 연산이 실행될 수 있다.
    • 비직렬 스케줄에 따라 병행 수행하면 갱신 분실, 모순성, 연쇄 복귀 등의 문제가 발생할 수 있어 결과의 정확성을 보장할 수 없음.
    • 다양한 비직렬 스케줄이 만들어질 수 있고 그 중에는 잘못된 결과를 생성하는 것도 있음.
  • 직렬 가능 스케줄
    • 의미 - 직렬 스케줄에 따라 수행한 것과 같이 정확한 결과를 생성하는 비직렬 스케줄이다. 비직렬 스케줄 중에서 수행 결과가 동일한 직렬 스케줄이 있는 것
    • 특징 - 인터리빙 방식으로 병행 수행하면서도 정확한 결과를 얻을 수 있다.
    • 직렬 가능 스케줄인지 판단하는 것은 간단한 작업이 아니므로 직렬 가능성을 보장하는 병행 제어 기법을 사용하는 것이 일반적임.

병행 제어 기법

병행 제어 기법의 의미는 병행 수행하면서도 직렬 가능성을 보장하기 위한 기법이다.

방법은 모든 트랜잭션이 준수하면 직렬 가능성이 보장되는 규약을 정의하고, 트랜잭션들이 이 규약을 따르도록 한다.

대표적인 병행 제어 기법으로는 로킹 기법이 있다.

로킹 기법

기본 로킹 규약

  • 기본 원리는 한 트랜잭션이 먼저 접근한 데이터에 대한 연산을 끝낼 때까지는 다른 트랜잭션이 그 데이터에 접근하지 못하도록 상호 배제한다.
  • 방법은 병행 수행되는 트랜잭션들이 같은 데이터에 동시에 접근하지 못하도록 lock 과 unlock 연산을 이용해 제어한다.
  • lock - 트랜잭션이 데이터에 대한 독점권을 요청하는 연산
  • unlock - 트랜잭션이 데이터에 대한 독점권을 반환하는 연산
    •  

로킹 단위

  • 전체 데이터베이스부터 릴레이션, 투플, 속성까지도 가능함
  • lock 연산을 실행하는 대상 데이터의 크기
    • 로킹 단위가 커질수록 병행성은 낮아지지만 제어가 쉬움
    • 로킹 단위가 작아질수록 제어가 어렵지만 병행성은 높아짐
  • 트랜잭션들이 같은 데이터에 동시에 read 연산을 실행하는 것을 허용
    • lock 연산을 두 가지 종류로 구분하여 사용
      • 공용 lock - 트랜잭션이 데이터에 대해 공용 lock 연산을 실행하면, 해당 데이터에 read 연산을 실행할 수 있지만 write 연산은 실행할 수 없다. 그리고 해당 데이터에 다른 트랜잭션도 공용 lock 연산을 동시에 실행할 수 있다. (데이터에 대한 사용권을 여러 트랜잭션이 함께 가질 수 있다.)
      • 전용 lock - 트랜잭션이 데이터에 전용 lock 연산을 실행하면 해당 데이터에 read 연산과 write 연산을 모두 실행할 수 있다. 그러나 해당 데이터에 따른 트랜잭션은 공용이든 전용이든 어떤 lock 연산도 실행할 수 없다. (전용 lock 연산을 실행한 트랜잭션만 해당 데이터에 대한 독점권을 가질 수 있다.)

lock 연산의 양립성

  공용 lock 전용 lock
공용 lock 가능 불가능
전용 lock 불가능 불가능

 

기본 로킹 규약의 문제를 해결하고 트랜잭션의 직렬 가능성을 보장하기 위해

lock와 unlock 연산의 수행 시점에 대해 새로운 규약을 추가한 것이 2단계 로킹 규약이다.

방법은 트랜잭션이 lock과 unlock 연산을 확장 단계와 축소 단계로 나누어 실행한다.

 

  • 트랜잭션이 처음 수행되면 확장 단계로 들어가 lock 연산만 실행 가능
  • unlock 연산을 실행하면 축소 단계로 들어가 unlock 연산만 실행 가능
  • 트랜잭션은 첫 번째 unlock 연산 실행 전에 필요한 모든 lock 연산을 실행해야 함

즉 확장 단계는 트랜잭션이 lock 연산만 실행할 수 있고, unlock 연산은 실행할 수 없는 단계이다.

축소 단계는 트랜잭션이 unlock 연산만 실행할 수 있고, lock 연산은 실행할 수 없는 단계다.

 

교착 상태는 트랜잭션들이 상대가 독점하고 있는 데이터에 unlock 연산이 실행되기를 서로 기다리면서 트랜잭션의 수행을 중단하고 있는 상태다. 교착 상태가 발생하지 않도록 예방하거나, 발생 시 빨리 탐지하여 필요한 조치를 취해야 한다.

 

이상으로 포스팅을 마칩니다. 감사합니다.

 

2022. 12. 14. 00:30 수정 및 복습 마무리

반응형

댓글