네트워크 패킷 브로커의 데이터 마스킹 기술과 솔루션은 무엇입니까?

1. 데이터 마스킹의 개념

데이터 마스킹은 데이터 마스킹이라고도합니다. 마스킹 규칙 및 정책을 제공했을 때 휴대폰 번호, 은행 카드 번호 및 기타 정보와 같은 민감한 데이터를 변환, 수정 또는 커버하는 것은 기술적 인 방법입니다. 이 기술은 주로 민감한 데이터가 신뢰할 수없는 환경에서 직접 사용되는 것을 방지하는 데 사용됩니다.

데이터 마스킹 원칙 : 데이터 마스킹은 원래의 데이터 특성, 비즈니스 규칙 및 데이터 관련성을 유지하여 후속 개발, 테스트 및 데이터 분석이 마스킹에 의해 영향을받지 않도록해야합니다. 마스킹 전후에 데이터 일관성과 유효성을 보장하십시오.

2. 데이터 마스킹 분류

데이터 마스킹은 정적 데이터 마스킹 (SDM) 및 동적 데이터 마스킹 (DDM)으로 나눌 수 있습니다.

정적 데이터 마스킹 (SDM): 정적 데이터 마스킹을 위해서는 생산 환경에서 격리하기 위해 새로운 비 생산 환경 데이터베이스를 설정해야합니다. 민감한 데이터는 프로덕션 데이터베이스에서 추출한 다음 비 생산 데이터베이스에 저장됩니다. 이러한 방식으로, 탈감작 된 데이터는 비즈니스 요구를 충족시키고 생산 데이터의 보안을 보장하는 생산 환경에서 분리됩니다.

SDM

동적 데이터 마스킹 (DDM): 일반적으로 생산 환경에서 민감한 데이터를 실시간으로 탈감작시키는 데 사용됩니다. 때로는 다른 상황에서 동일한 민감한 데이터를 읽으려면 다른 수준의 마스킹이 필요합니다. 예를 들어, 다른 역할과 권한은 다른 마스킹 체계를 구현할 수 있습니다.

DDM

데이터보고 및 데이터 제품 마스킹 응용 프로그램

이러한 시나리오에는 주로 내부 데이터 모니터링 제품 또는 광고판, 외부 서비스 데이터 제품 및 비즈니스 보고서 및 프로젝트 검토와 같은 데이터 분석을 기반으로하는 보고서가 포함됩니다.

데이터보고 제품 마스킹

3. 데이터 마스킹 솔루션

일반적인 데이터 마스킹 체계에는 무효화, 임의 값, 데이터 교체, 대칭 암호화, 평균 값, 오프셋 및 반올림 등이 포함됩니다.

무효화: 무효화는 민감한 데이터의 암호화, 잘림 또는 숨기는 것을 말합니다. 이 체계는 일반적으로 실제 데이터를 특수 기호 (예 : *)로 대체합니다. 작업은 간단하지만 사용자는 원래 데이터의 형식을 알 수 없으므로 후속 데이터 애플리케이션에 영향을 줄 수 있습니다.

랜덤 값: 임의의 값은 민감한 데이터의 임의 대체를 나타냅니다 (숫자는 숫자를 대체하고 문자는 문자를 교체하고 문자를 대체합니다). 이 마스킹 방법은 민감한 데이터 형식을 일정 범위로 보장하고 후속 데이터 응용 프로그램을 용이하게합니다. 마스킹 사전은 사람과 장소의 이름과 같은 의미있는 단어에 필요할 수 있습니다.

데이터 교체: 데이터 교체는 특수 문자 또는 임의의 값을 사용하는 대신 마스킹 데이터가 특정 값으로 대체된다는 점을 제외하고는 NULL 및 랜덤 값의 마스킹과 유사합니다.

대칭 암호화: 대칭 암호화는 특별한 가역적 마스킹 방법입니다. 암호화 키 및 알고리즘을 통해 민감한 데이터를 암호화합니다. 암호 텍스트 형식은 논리 규칙의 원래 데이터와 일치합니다.

평균: 평균 체계는 종종 통계 시나리오에서 사용됩니다. 수치 데이터의 경우 먼저 평균을 계산 한 다음 평균 주위에 탈감작 값을 무작위로 분배하여 데이터의 합을 일정하게 유지합니다.

오프셋 및 반올림:이 방법은 무작위 이동으로 디지털 데이터를 변경합니다. 오프셋 반올림은 데이터의 보안을 유지하면서 범위의 대략적인 진위를 보장하며, 이는 이전 체계보다 실제 데이터에 더 가깝고 빅 데이터 분석 시나리오에서 큰 의미를 갖습니다.

ML-NPB-5660- 数据脱敏

추천 모델 "ML-NPB-5660"데이터 마스킹을 위해

4. 일반적으로 사용되는 데이터 마스킹 기술

(1). 통계 기술

데이터 샘플링 및 데이터 집계

- 데이터 샘플링 : 데이터 세트의 대표적인 서브 세트를 선택하여 원래 데이터 세트의 분석 및 평가는 비 식별 기술의 효과를 향상시키는 중요한 방법입니다.

- 데이터 집계 : MicroData의 속성에 적용되는 합산, 계수, 평균, 최대 및 최소)의 통계 기술 모음으로서 결과는 원래 데이터 세트의 모든 레코드를 대표합니다.

(2). 암호화

암호화는 탈감작의 효과를 탈감작하거나 향상시키는 일반적인 방법입니다. 다른 유형의 암호화 알고리즘은 다른 탈감작 효과를 달성 할 수 있습니다.

- 결정 론적 암호화 : 비 랜덤 대칭 암호화. 일반적으로 ID 데이터를 처리하고 필요할 때 암호 텍스트를 원래 ID에 해독하고 복원 할 수 있지만 키는 올바르게 보호되어야합니다.

- 돌이킬 수없는 암호화 : 해시 함수는 일반적으로 ID 데이터에 사용되는 데이터를 처리하는 데 사용됩니다. 직접 해독 할 수 없으며 매핑 관계를 저장해야합니다. 또한 해시 함수의 특징으로 인해 데이터 충돌이 발생할 수 있습니다.

- 동종 암호화 : 암호 텍스트 동종 알고리즘이 사용됩니다. 그 특성은 암호 텍스트 작동의 결과가 암호 해독 후 일반 텍스트 작동의 결과와 동일하다는 것입니다. 따라서 일반적으로 수치 필드를 처리하는 데 사용되지만 성능의 이유로 널리 사용되지는 않습니다.

(3). 시스템 기술

Suppression Technology는 개인 정보 보호를 충족하지는 않지만이를 게시하지 않는 데이터 항목을 삭제하거나 보호합니다.

- 마스킹 : 상대 번호, ID 카드에는 별표가 표시되거나 주소가 잘린 것과 같은 속성 값을 마스킹하는 가장 일반적인 탈감작 방법을 나타냅니다.

- 로컬 억제 : 비 필수 데이터 필드를 제거하고 특정 속성 값 (열)을 삭제하는 프로세스를 나타냅니다.

- 레코드 억제 : 비 필수 데이터 레코드를 삭제하고 특정 레코드 (행)를 삭제하는 프로세스를 나타냅니다.

(4). 가명 기술

의사 모닝은 직접 식별자 (또는 기타 민감한 식별자)를 대체하기 위해 가명을 사용하는 비 식별 기술입니다. 가명 기술은 직접 또는 민감한 식별자 대신 각 개별 정보 주제에 대해 고유 식별자를 만듭니다.

- 원래 ID에 해당하기 위해 독립적으로 임의의 값을 생성하고 매핑 테이블을 저장하며 매핑 테이블에 대한 액세스를 엄격하게 제어 할 수 있습니다.

- 암호화를 사용하여 가명을 생성 할 수 있지만 암호 해독 키를 올바르게 유지해야합니다.

이 기술은 오픈 플랫폼 시나리오에서 OpenID와 같은 많은 독립적 인 데이터 사용자의 경우 널리 사용됩니다. 여기서 다른 개발자는 동일한 사용자에 대해 다른 OpenID를 얻습니다.

(5). 일반화 기술

일반화 기술은 데이터 세트에서 선택된 속성의 세분성을 줄이고 데이터에 대한보다 일반적이고 추상적 인 설명을 제공하는 비 식별 기술을 나타냅니다. 일반화 기술은 구현하기 쉽고 레코드 수준 데이터의 진위를 보호 할 수 있습니다. 일반적으로 데이터 제품 또는 데이터 보고서에 사용됩니다.

- 반올림 : 상향 또는 하향 법의학과 같은 선택된 속성에 대한 반올림베이스를 선택하고 결과 100, 500, 1K 및 10K를 산출합니다.

- 상단 및 하단 코딩 기술 : 위의 (또는 아래) 값을 상단 (또는 하단) 레벨을 나타내는 임계 값으로 바꾸어 "x 위"또는 "x"의 결과를 산출합니다.

(6). 무작위 기술

일종의 비 식별 기술로서, 무작위 화 기술은 무작위 배정을 통해 속성의 값을 수정하여 무작위 화 후 값이 원래 실제 값과 다릅니다. 이 프로세스는 공격자가 동일한 데이터 레코드에서 다른 속성 값에서 속성 값을 도출하는 능력을 줄이지 만 생산 테스트 데이터와 공통적 인 결과 데이터의 진위에 영향을 미칩니다.


시간 후 : 9 월 27-2022 년