네트워크 패킷 브로커의 데이터 마스킹 기술과 솔루션은 무엇입니까?

1. 데이터 마스킹의 개념

데이터 마스킹은 데이터 마스킹이라고도 합니다. 이는 당사가 마스킹 규칙 및 정책을 제공한 경우 휴대폰 번호, 은행 카드 번호 및 기타 정보와 같은 민감한 데이터를 변환, 수정 또는 은폐하는 기술적 방법입니다. 이 기술은 주로 신뢰할 수 없는 환경에서 민감한 데이터가 직접 사용되는 것을 방지하는 데 사용됩니다.

데이터 마스킹 원칙: 데이터 마스킹은 원래 데이터 특성, 비즈니스 규칙 및 데이터 관련성을 유지하여 후속 개발, 테스트 및 데이터 분석이 마스킹으로 인해 영향을 받지 않도록 해야 합니다. 마스킹 전후에 데이터 일관성과 유효성을 보장합니다.

2. 데이터 마스킹 분류

데이터 마스킹은 정적 데이터 마스킹(SDM)과 동적 데이터 마스킹(DDM)으로 나눌 수 있습니다.

정적 데이터 마스킹(SDM): 정적 데이터 마스킹을 위해서는 프로덕션 환경과의 격리를 위해 새로운 비프로덕션 환경 데이터베이스를 구축해야 합니다. 민감한 데이터는 프로덕션 데이터베이스에서 추출된 다음 비프로덕션 데이터베이스에 저장됩니다. 이러한 방식으로 둔감화된 데이터는 생산 환경에서 격리되어 비즈니스 요구 사항을 충족하고 생산 데이터의 보안을 보장합니다.

SDM

동적 데이터 마스킹(DDM): 일반적으로 프로덕션 환경에서 민감한 데이터를 실시간으로 감도를 낮추기 위해 사용됩니다. 때로는 서로 다른 상황에서 동일한 민감한 데이터를 읽으려면 서로 다른 수준의 마스킹이 필요합니다. 예를 들어, 서로 다른 역할과 권한은 서로 다른 마스킹 체계를 구현할 수 있습니다.

DDM

데이터 보고 및 데이터 제품 마스킹 애플리케이션

이러한 시나리오에는 주로 내부 데이터 모니터링 제품이나 광고판, 외부 서비스 데이터 제품, 비즈니스 보고서 및 프로젝트 검토와 같은 데이터 분석 기반 보고서가 포함됩니다.

데이터 보고 제품 마스킹

3. 데이터 마스킹 솔루션

일반적인 데이터 마스킹 방식에는 무효화, 임의 값, 데이터 교체, 대칭 암호화, 평균값, 오프셋 및 반올림 등이 포함됩니다.

무효화: 무효화는 중요한 데이터를 암호화하거나 잘라내거나 숨기는 것을 의미합니다. 이 체계는 일반적으로 실제 데이터를 특수 기호(예: *)로 대체합니다. 작업은 간단하지만 사용자는 원본 데이터의 형식을 알 수 없으므로 후속 데이터 적용에 영향을 미칠 수 있습니다.

임의의 값: 무작위 값은 민감한 데이터를 무작위로 대체하는 것을 의미합니다(숫자가 숫자를 대체하고, 문자가 문자를 대체하고, 문자가 문자를 대체함). 이 마스킹 방법은 민감한 데이터의 형식을 어느 정도 보장하고 후속 데이터 적용을 용이하게 합니다. 사람 이름이나 장소 이름과 같은 일부 의미 있는 단어에는 마스킹 사전이 필요할 수 있습니다.

데이터 교체: 데이터 교체는 특수 문자나 임의 값을 사용하는 대신 마스킹 데이터를 특정 값으로 바꾸는 점을 제외하면 null 및 임의 값의 마스킹과 유사합니다.

대칭 암호화: 대칭 암호화는 특수한 가역적 마스킹 방법입니다. 암호화 키와 알고리즘을 통해 민감한 데이터를 암호화합니다. 암호문 형식은 논리적 규칙의 원본 데이터와 일치합니다.

평균: 평균 방식은 통계 시나리오에서 자주 사용됩니다. 수치 데이터의 경우 먼저 평균을 계산한 다음 둔감화된 값을 평균 주위에 무작위로 배포하여 데이터의 합을 일정하게 유지합니다.

오프셋 및 반올림: 디지털 데이터를 랜덤 시프트로 변경하는 방식입니다. 오프셋 반올림은 데이터의 보안을 유지하면서 범위의 대략적인 신뢰성을 보장합니다. 이는 이전 방식보다 실제 데이터에 더 가깝고 빅 데이터 분석 시나리오에서 큰 의미를 갖습니다.

ML-NPB-5660-펌프 장치

추천 모델 "ML-NPB-5660" 데이터 마스킹의 경우

4. 일반적으로 사용되는 데이터 마스킹 기술

(1). 통계적 기법

데이터 샘플링 및 데이터 집계

- 데이터 샘플링: 데이터 세트의 대표 하위 집합을 선택하여 원본 데이터 세트를 분석하고 평가하는 것은 비식별화 기술의 효율성을 향상시키는 중요한 방법입니다.

- 데이터 집계: 마이크로데이터의 속성에 적용되는 통계 기법(예: 합산, 계산, 평균, 최대값 및 최소값)의 모음으로서 결과는 원본 데이터 세트의 모든 기록을 대표합니다.

(2). 암호화

암호화는 둔감화의 효과를 둔감하게 하거나 향상시키는 일반적인 방법입니다. 다양한 유형의 암호화 알고리즘은 다양한 둔감화 효과를 얻을 수 있습니다.

- 결정적 암호화: 비무작위 대칭 암호화입니다. 일반적으로 ID 데이터를 처리하며 필요한 경우 암호문을 복호화하여 원래 ID로 복원할 수 있지만 키는 적절하게 보호되어야 합니다.

- 비가역적 암호화 : 일반적으로 ID 데이터에 사용되는 데이터 처리에 해시 함수를 사용합니다. 직접 복호화할 수 없으며 매핑 관계를 저장해야 합니다. 또한, 해시 함수의 특성상 데이터 충돌이 발생할 수 있습니다.

- 동형암호 : 암호문 동형알고리즘을 사용합니다. 암호문 연산 결과가 복호화 후 평문 연산 결과와 동일한 것이 특징이다. 따라서 수치 필드를 처리하는 데 흔히 사용되지만 성능상의 이유로 널리 사용되지는 않습니다.

(3). 시스템 기술

억제 기술은 개인 정보 보호를 충족하지 않는 데이터 항목을 삭제하거나 보호하지만 공개하지는 않습니다.

- 마스킹 : 상대방 번호, 신분증에 별표가 표시되거나 주소가 잘리는 등의 속성 값을 마스킹하는 가장 일반적인 둔감화 방법을 말합니다.

- 로컬 억제: 특정 속성 값(열)을 삭제하고, 필수적이지 않은 데이터 필드를 제거하는 프로세스를 말합니다.

- 기록 억제: 특정 기록(행)을 삭제하는 과정, 필수적이지 않은 데이터 기록을 삭제하는 과정을 말한다.

(4). 가명기술

Pseudomanning은 가명을 사용하여 직접 식별자(또는 기타 민감한 식별자)를 대체하는 익명화 기술입니다. 가명 기술은 직접적이거나 민감한 식별자 대신 각 개인 정보 주체에 대한 고유한 식별자를 생성합니다.

- 원본 ID에 해당하는 임의의 값을 독립적으로 생성하고 매핑 테이블을 저장하며 매핑 테이블에 대한 접근을 엄격하게 제어할 수 있습니다.

- 암호화를 사용하여 가명을 생성할 수도 있지만 암호 해독 키를 적절하게 보관해야 합니다.

이 기술은 여러 개발자가 동일한 사용자에 대해 서로 다른 Openid를 얻는 개방형 플랫폼 시나리오의 OpenID와 같이 다수의 독립적인 데이터 사용자의 경우 널리 사용됩니다.

(5). 일반화 기법

일반화 기술은 데이터 세트에서 선택된 속성의 세분성을 줄이고 데이터에 대한 보다 일반적이고 추상적인 설명을 제공하는 비식별화 기술을 의미합니다. 일반화 기술은 구현이 쉽고 기록 수준 데이터의 신뢰성을 보호할 수 있습니다. 일반적으로 데이터 제품이나 데이터 보고서에 사용됩니다.

- 반올림: 상향 또는 하향 포렌식과 같이 선택한 속성에 대한 반올림 기준을 선택하여 결과 100, 500, 1K 및 10K를 생성합니다.

- 상위 및 하위 코딩 기술: 임계값 위(또는 아래) 값을 상위(또는 하위) 수준을 나타내는 임계값으로 대체하여 "X 위" 또는 "X 아래"라는 결과를 산출합니다.

(6). 무작위화 기법

비식별화 기술의 일종으로, 무작위화 기술은 무작위화를 통해 속성의 값을 수정하여 무작위화 후의 값이 원래의 실제 값과 달라지도록 하는 것을 말합니다. 이 프로세스는 공격자가 동일한 데이터 레코드의 다른 속성 값에서 속성 값을 파생시키는 능력을 감소시키지만 생산 테스트 데이터에서 흔히 발생하는 결과 데이터의 신뢰성에 영향을 미칩니다.


게시 시간: 2022년 9월 27일