1. 데이터 마스킹의 개념
데이터 마스킹은 민감한 데이터를 변환, 수정 또는 가리는 기술적 방법으로, 휴대폰 번호, 은행 카드 번호 등의 개인 정보를 마스킹 규칙 및 정책에 따라 숨깁니다. 이 기술은 주로 신뢰할 수 없는 환경에서 민감한 데이터가 직접 사용되는 것을 방지하기 위해 사용됩니다.
데이터 마스킹 원칙: 데이터 마스킹은 원본 데이터의 특성, 비즈니스 규칙 및 데이터 관련성을 유지해야 하며, 이를 통해 후속 개발, 테스트 및 데이터 분석이 마스킹의 영향을 받지 않도록 해야 합니다. 마스킹 전후의 데이터 일관성과 유효성을 보장해야 합니다.
2. 데이터 마스킹 분류
데이터 마스킹은 정적 데이터 마스킹(SDM)과 동적 데이터 마스킹(DDM)으로 나눌 수 있다.
정적 데이터 마스킹(SDM)정적 데이터 마스킹은 운영 환경과 격리하기 위해 새로운 비운영 환경 데이터베이스를 구축해야 합니다. 민감한 데이터는 운영 데이터베이스에서 추출하여 비운영 데이터베이스에 저장합니다. 이러한 방식으로 민감도가 제거된 데이터는 운영 환경과 격리되어 비즈니스 요구 사항을 충족하고 운영 데이터의 보안을 보장합니다.
3. 데이터 마스킹 솔루션
일반적인 데이터 마스킹 방식에는 무효화, 난수 생성, 데이터 교체, 대칭 암호화, 평균값 사용, 오프셋 및 반올림 등이 있습니다.
무효화무효화란 민감한 데이터를 암호화, 삭제 또는 숨기는 것을 의미합니다. 이 방식은 일반적으로 실제 데이터를 특수 기호(예: *)로 대체합니다. 작업 자체는 간단하지만, 사용자는 원본 데이터의 형식을 알 수 없으므로 이후 데이터 활용에 영향을 미칠 수 있습니다.
랜덤 값: 임의 값이란 민감한 데이터를 무작위로 대체하는 것을 의미합니다(숫자는 숫자로, 문자는 문자로, 특수 문자는 특수 문자로 대체). 이 마스킹 방법을 통해 민감한 데이터의 형식을 일정 수준까지 유지하고 후속 데이터 활용을 용이하게 할 수 있습니다. 인명이나 지명과 같은 의미 있는 단어의 경우에는 마스킹 사전이 필요할 수 있습니다.
데이터 교체데이터 교체는 널 값 및 임의 값 마스킹과 유사하지만, 특수 문자나 임의 값을 사용하는 대신 마스킹 데이터를 특정 값으로 대체한다는 점이 다릅니다.
대칭 암호화대칭 암호화는 특수한 가역적 마스킹 방법입니다. 암호화 키와 알고리즘을 통해 민감한 데이터를 암호화하며, 암호문의 형식은 논리적 규칙에 따라 원본 데이터와 일관성을 유지합니다.
평균평균화 방식은 통계적 시나리오에서 자주 사용됩니다. 수치 데이터의 경우, 먼저 평균을 계산한 다음, 평균값을 중심으로 민감도가 제거된 값들을 무작위로 분포시켜 데이터의 합을 일정하게 유지합니다.
오프셋 및 반올림이 방법은 디지털 데이터를 임의 이동시켜 변경합니다. 오프셋 반올림을 통해 데이터의 보안을 유지하면서 범위의 근사치를 보장하며, 이는 기존 방식보다 실제 데이터에 더 가깝기 때문에 빅데이터 분석 환경에서 매우 중요한 의미를 갖습니다.
추천 모델ML-NPB-5660"데이터 마스킹용"
4. 일반적으로 사용되는 데이터 마스킹 기법
(1) 통계 기법
데이터 샘플링 및 데이터 집계
- 데이터 샘플링: 원본 데이터 세트에서 대표적인 부분 집합을 선택하여 분석 및 평가하는 것은 비식별화 기법의 효율성을 향상시키는 중요한 방법입니다.
- 데이터 집계: 마이크로데이터의 속성에 적용되는 통계 기법(합계, 개수 세기, 평균, 최댓값 및 최솟값 등)의 모음으로, 그 결과는 원본 데이터 세트의 모든 레코드를 대표합니다.
(2). 암호학
암호화는 감도를 낮추거나 낮추는 효과를 강화하는 데 흔히 사용되는 방법입니다. 다양한 종류의 암호화 알고리즘은 서로 다른 감도 낮추기 효과를 낼 수 있습니다.
- 결정론적 암호화: 비난수적 대칭 암호화 방식입니다. 일반적으로 ID 데이터를 처리하며, 필요에 따라 암호문을 복호화하여 원래 ID로 복원할 수 있지만, 암호화 키를 적절하게 보호해야 합니다.
- 비가역적 암호화: 해시 함수는 주로 ID 데이터와 같은 데이터 처리에 사용됩니다. 직접 복호화할 수 없으며, 매핑 관계를 저장해야 합니다. 또한, 해시 함수의 특성상 데이터 충돌이 발생할 수 있습니다.
- 동형 암호화: 암호문에는 동형 암호화 알고리즘이 사용됩니다. 이 방식의 특징은 암호문 연산 결과가 복호화 후 평문 연산 결과와 동일하다는 것입니다. 따라서 수치 분야 처리에 주로 사용되지만, 성능상의 문제로 널리 사용되지는 않습니다.
(3). 시스템 기술
데이터 삭제 기술은 개인정보 보호 기준을 충족하지 않는 데이터 항목을 삭제하거나 보호하지만, 해당 데이터를 공개하지는 않습니다.
- 마스킹: 상대방 번호, 신분증에 별표를 표시하거나 주소를 축약하는 등 속성 값을 가리는 가장 일반적인 민감도 제거 방법을 말합니다.
- 로컬 삭제: 특정 속성 값(열)을 삭제하거나 필수적이지 않은 데이터 필드를 제거하는 프로세스를 의미합니다.
- 레코드 삭제: 특정 레코드(행)를 삭제하거나, 필수적이지 않은 데이터 레코드를 삭제하는 프로세스를 의미합니다.
(4). 가명 기술
가명 사용은 직접적인 식별자(또는 기타 민감한 식별자)를 가명으로 대체하는 비식별화 기법입니다. 가명 기법은 직접적인 식별자나 민감한 식별자 대신 각 정보 주체에 대한 고유 식별자를 생성합니다.
- 원본 ID에 대응하는 난수를 독립적으로 생성하고, 매핑 테이블을 저장하며, 매핑 테이블에 대한 접근을 엄격하게 제어할 수 있습니다.
- 암호화를 사용하여 가명을 생성할 수도 있지만, 복호화 키를 제대로 보관해야 합니다.
이 기술은 개방형 플랫폼 시나리오에서 OpenID처럼 여러 개발자가 동일한 사용자에 대해 서로 다른 OpenID를 얻는 경우와 같이 독립적인 데이터 사용자가 많은 경우에 널리 사용됩니다.
(5) 일반화 기법
일반화 기법은 데이터 세트에서 선택된 속성의 세분성을 낮추고 데이터에 대한 보다 일반적이고 추상적인 설명을 제공하는 비식별화 기법을 의미합니다. 일반화 기술은 구현이 용이하고 레코드 수준 데이터의 진위성을 보호할 수 있습니다. 이 기술은 데이터 제품이나 데이터 보고서에서 흔히 사용됩니다.
- 반올림: 선택한 속성에 대해 반올림 기준을 선택하는 것을 포함하며, 상향 또는 하향 반올림을 통해 100, 500, 1K, 10K와 같은 결과를 얻을 수 있습니다.
- 상한/하한 코딩 기법: 임계값보다 크거나 작은 값을 최상위(또는 최하위) 수준을 나타내는 임계값으로 대체하여 "X 이상" 또는 "X 이하"와 같은 결과를 얻습니다.
(6) 무작위화 기법
익명화 기술의 일종으로서, 무작위화 기술은 속성 값을 무작위로 변경하여 원래의 실제 값과 다르게 만드는 것을 의미합니다. 이 과정을 통해 공격자는 동일한 데이터 레코드 내의 다른 속성 값으로부터 특정 속성 값을 유추할 가능성을 줄일 수 있지만, 결과 데이터의 진위성에 영향을 미칠 수 있으며, 이는 실제 운영 환경에서 테스트 데이터로 사용될 때 흔히 나타납니다.
게시 시간: 2022년 9월 27일



