네트워크 패킷 브로커의 데이터 마스킹 기술과 솔루션은 무엇입니까?

1. 데이터 마스킹의 개념

데이터 마스킹은 데이터 마스킹이라고도 합니다. 마스킹 규칙과 정책이 정해져 있을 때, 휴대폰 번호, 은행 카드 번호 및 기타 정보와 같은 민감한 데이터를 변환, 수정 또는 은폐하는 기술적 방법입니다. 이 기술은 주로 신뢰할 수 없는 환경에서 민감한 데이터가 직접 사용되는 것을 방지하는 데 사용됩니다.

데이터 마스킹 원칙: 데이터 마스킹은 이후 개발, 테스트 및 데이터 분석에 영향을 미치지 않도록 원래 데이터 특성, 비즈니스 규칙 및 데이터 관련성을 유지해야 합니다. 마스킹 전후에 데이터 일관성과 유효성을 보장해야 합니다.

2. 데이터 마스킹 분류

데이터 마스킹은 정적 데이터 마스킹(SDM)과 동적 데이터 마스킹(DDM)으로 나눌 수 있습니다.

정적 데이터 마스킹(SDM): 정적 데이터 마스킹을 위해서는 운영 환경과 격리하기 위해 새로운 비운영 환경 데이터베이스를 구축해야 합니다. 운영 데이터베이스에서 민감한 데이터를 추출하여 비운영 데이터베이스에 저장합니다. 이렇게 하면 민감한 데이터가 운영 환경과 격리되어 비즈니스 요구 사항을 충족하고 운영 데이터의 보안을 보장할 수 있습니다.

에스디엠

동적 데이터 마스킹(DDM): 일반적으로 프로덕션 환경에서 민감한 데이터의 민감도를 실시간으로 낮추는 데 사용됩니다. 경우에 따라 상황에 따라 동일한 민감한 데이터를 읽기 위해 서로 다른 수준의 마스킹이 필요할 수 있습니다. 예를 들어, 역할과 권한에 따라 서로 다른 마스킹 체계를 구현할 수 있습니다.

디디엠

데이터 보고 및 데이터 제품 마스킹 애플리케이션

이러한 시나리오에는 주로 내부 데이터 모니터링 제품이나 광고판, 외부 서비스 데이터 제품, 비즈니스 보고서 및 프로젝트 검토와 같은 데이터 분석을 기반으로 한 보고서가 포함됩니다.

데이터 보고 제품 마스킹

3. 데이터 마스킹 솔루션

일반적인 데이터 마스킹 방식에는 무효화, 난수 값, 데이터 교체, 대칭 암호화, 평균값, 오프셋 및 반올림 등이 있습니다.

무효화: 무효화는 민감한 데이터를 암호화, 자르기 또는 숨기는 것을 의미합니다. 이 기법은 일반적으로 실제 데이터를 특수 기호(예: *)로 대체합니다. 작업은 간단하지만, 사용자는 원본 데이터의 형식을 알 수 없으므로 후속 데이터 애플리케이션에 영향을 미칠 수 있습니다.

난수 값: 난수 값은 민감한 데이터를 무작위로 대체하는 것을 의미합니다(숫자는 숫자를, 문자는 문자를, 문자는 문자를 대체합니다). 이러한 마스킹 방식은 민감한 데이터의 형식을 어느 정도 보장하고 이후 데이터 적용을 용이하게 합니다. 사람이나 장소의 이름과 같은 일부 의미 있는 단어에는 마스킹 사전이 필요할 수 있습니다.

데이터 교체: 데이터 교체는 널(NULL) 값과 난수 값을 마스킹하는 것과 유사하지만, 특수 문자나 난수 값을 사용하는 대신 마스킹 데이터를 특정 값으로 교체한다는 점이 다릅니다.

대칭 암호화: 대칭 암호화는 특수한 가역적 마스킹 방식입니다. 암호화 키와 알고리즘을 통해 민감한 데이터를 암호화합니다. 암호문 형식은 논리적 규칙에 따라 원본 데이터와 일치합니다.

평균: 평균 기법은 통계적 시나리오에서 자주 사용됩니다. 수치 데이터의 경우, 먼저 평균을 계산한 다음, 둔감화된 값을 평균 주위에 무작위로 분포시켜 데이터 합계를 일정하게 유지합니다.

오프셋 및 반올림: 이 방식은 디지털 데이터를 무작위 시프트 방식으로 변경합니다. 오프셋 반올림은 데이터의 보안을 유지하면서 범위의 근사적 진위성을 보장합니다. 이는 기존 방식보다 실제 데이터에 더 가깝고, 빅데이터 분석 시나리오에서 매우 중요한 의미를 지닙니다.

ML-NPB-5660-펌프 장치

추천 모델 "ML-NPB-5660"데이터 마스킹을 위해

4. 일반적으로 사용되는 데이터 마스킹 기술

(1) 통계 기법

데이터 샘플링 및 데이터 집계

- 데이터 샘플링: 원본 데이터 집합에서 대표적인 하위 집합을 선택하여 분석하고 평가하는 것은 익명화 기술의 효과를 개선하는 중요한 방법입니다.

- 데이터 집계: 마이크로데이터의 속성에 적용되는 통계적 기법(합계, 계산, 평균, 최대 및 최소)의 모음으로, 그 결과는 원래 데이터 세트의 모든 레코드를 대표합니다.

(2). 암호화

암호화는 둔감화의 효과를 강화하거나 둔감화하는 일반적인 방법입니다. 다양한 유형의 암호화 알고리즘은 각기 다른 둔감화 효과를 얻을 수 있습니다.

- 결정적 암호화: 비무작위 대칭 암호화입니다. 일반적으로 ID 데이터를 처리하고, 필요 시 암호문을 복호화하여 원래 ID로 복원할 수 있지만, 키는 적절하게 보호되어야 합니다.

- 비가역 암호화: 해시 함수를 사용하여 데이터를 처리하며, 주로 ID 데이터에 사용됩니다. 해시 함수는 직접 복호화할 수 없으며, 매핑 관계를 저장해야 합니다. 또한, 해시 함수의 특성상 데이터 충돌이 발생할 수 있습니다.

- 준동형 암호화: 암호문 준동형 알고리즘을 사용합니다. 이 알고리즘의 특징은 암호문 연산 결과가 복호화 후 평문 연산 결과와 동일하다는 것입니다. 따라서 수치 필드 처리에 일반적으로 사용되지만, 성능상의 이유로 널리 사용되지는 않습니다.

(3) 시스템 기술

억제 기술은 개인정보 보호 기준을 충족하지 않는 데이터 항목을 삭제하거나 차단하지만, 이를 공개하지는 않습니다.

- 마스킹: 상대방 번호, 신분증에 별표를 표시하거나 주소를 잘라내는 등 속성값을 마스크하는 가장 일반적인 둔감화 방법을 말합니다.

- 로컬 억제: 특정 속성 값(열)을 삭제하고, 필수적이지 않은 데이터 필드를 제거하는 프로세스를 말합니다.

- 레코드 삭제: 특정 레코드(행)를 삭제하고, 필수적이지 않은 데이터 레코드를 삭제하는 프로세스를 말합니다.

(4) 가명기술

가명화는 가명을 사용하여 직접 식별자(또는 기타 민감한 식별자)를 대체하는 비식별화 기법입니다. 가명화 기법은 직접 식별자나 민감한 식별자 대신 각 정보 주체에 대해 고유한 식별자를 생성합니다.

- 원래 ID에 대응하여 독립적으로 난수 값을 생성하고, 매핑 테이블을 저장하며, 매핑 테이블에 대한 액세스를 엄격하게 제어할 수 있습니다.

- 암호화를 사용하여 가명을 생성할 수도 있지만, 복호화 키를 제대로 보관해야 합니다.

이 기술은 다수의 독립적인 데이터 사용자가 있는 경우, 즉 오픈 플랫폼 시나리오에서 OpenID가 사용되는 경우 널리 사용되며, 여기서 서로 다른 개발자는 동일한 사용자에 대해 서로 다른 Openid를 얻습니다.

(5). 일반화 기법

일반화 기법은 데이터 세트에서 선택된 속성의 세분성을 줄이고 데이터에 대한 보다 일반적이고 추상적인 설명을 제공하는 비식별화 기법입니다. 일반화 기술은 구현이 간편하며 레코드 수준 데이터의 신뢰성을 보호할 수 있습니다. 데이터 제품이나 데이터 보고서에 일반적으로 사용됩니다.

- 반올림: 선택한 속성에 대한 반올림 기준을 선택하는 것(예: 상향 또는 하향 포렌식)으로 100, 500, 1K, 10K의 결과를 생성합니다.

- 상위 및 하위 코딩 기술: 임계값 위(또는 아래) 값을 상위(또는 하위) 수준을 나타내는 임계값으로 대체하여 "X 위" 또는 "X 아래"라는 결과를 생성합니다.

(6). 무작위화 기술

비식별화 기술의 일종인 난수화 기술은 난수화를 통해 속성 값을 수정하여 난수화 후의 값이 원래의 실제 값과 달라지도록 하는 것을 의미합니다. 이 과정은 공격자가 동일 데이터 레코드의 다른 속성 값에서 속성 값을 도출하는 능력을 약화시키지만, 실제 운영 테스트 데이터에서 흔히 발생하는 결과 데이터의 신뢰성에 영향을 미칩니다.


게시 시간: 2022년 9월 27일