뉴스 - 네트워크 패킷 브로커를 통한 데이터 최적화를 위한 네트워크 패킷 중복 제거

데이터 중복 제거는 저장 용량을 최적화하는 인기 있고 널리 사용되는 스토리지 기술입니다. 데이터 세트에서 중복된 데이터를 제거하여 단 하나의 사본만 남깁니다. 아래 그림과 같습니다. 이 기술은 증가하는 데이터 저장 수요를 충족하기 위해 필요한 물리적 저장 공간을 크게 줄일 수 있습니다. 중복 제거 기술은 다음과 같은 여러 가지 실질적인 이점을 제공합니다.

(1)	투자수익률(ROI)/총소유비용(TCO) 요건을 충족하십시오.
(2)	데이터의 급속한 증가는 효과적으로 제어할 수 있습니다.
(3)	실질적인 저장 공간을 늘리고 저장 효율을 향상시키세요.
(4)	총 저장 비용과 관리 비용을 절감할 수 있습니다.
(5)	데이터 전송 시 네트워크 대역폭을 절약하세요.
(6)	공간, 전력 공급, 냉방 등 운영 및 유지 관리 비용을 절감할 수 있습니다.

데이터 중복 제거 기술은 데이터 백업 및 아카이빙 시스템에서 널리 사용됩니다. 여러 번 백업을 수행한 후에는 중복 데이터가 많이 발생하는데, 이러한 상황에 중복 제거 기술이 매우 적합하기 때문입니다. 실제로 중복 제거 기술은 온라인 데이터, 니어라인 데이터, 오프라인 데이터 저장 시스템 등 다양한 환경에서 활용될 수 있습니다. 파일 시스템, 볼륨 관리자, NAS, SAN 등에 구현 가능하며, 데이터 재해 복구, 데이터 전송 및 동기화에도 사용될 수 있습니다. 데이터 압축 기술의 일환으로 데이터를 패키징하는 데에도 활용됩니다. 중복 제거 기술은 다양한 애플리케이션에서 데이터 저장 공간을 줄이고, 네트워크 대역폭을 절약하며, 저장 효율을 향상시키고, 백업 시간을 단축하고, 비용을 절감하는 데 도움을 줄 수 있습니다.

데이터 중복 제거에는 크게 중복 제거 비율과 성능이라는 두 가지 측면이 있습니다. 중복 제거 성능은 특정 구현 기술에 따라 달라지며, 중복 제거율은 아래 표에서 볼 수 있듯이 데이터 자체의 특성과 애플리케이션 패턴에 따라 결정됩니다. 현재 스토리지 공급업체들은 20:1에서 500:1에 이르는 다양한 중복 제거율을 보고하고 있습니다.

높은 중복 제거율	낮은 중복 제거율
사용자가 생성한 데이터	자연계에서 얻은 데이터
데이터 변화율이 낮음	데이터의 높은 변화율
참조 데이터, 비활성 데이터	활성 데이터
낮은 데이터 변경률 애플리케이션	데이터 변경률이 높은 애플리케이션
전체 데이터 백업	증분 데이터 백업
데이터 장기 저장	데이터 단기 저장
다양한 데이터 응용 분야	소규모 데이터 응용 프로그램
연속 데이터 비즈니스 처리	일반 데이터 비즈니스 처리
소규모 데이터 분할	빅데이터 세분화
데이터 분할을 길게 늘이기	고정 길이 데이터 분할
인지된 데이터 콘텐츠	데이터 내용 알 수 없음
시간 데이터 중복 제거	공간 데이터 중복 제거

중복 제거 구현 지점

중복 제거 기술을 개발하거나 적용할 때에는 성능과 효율성에 직접적인 영향을 미치는 다양한 요소를 고려해야 합니다.

(1)	무엇	어떤 데이터의 가중치가 제거되나요?
(2)	언제	언제 무게가 없어질까요?
(3)	어디	체중 감량은 어디에 있나요?
(4)	어떻게	체중을 줄이는 방법은 무엇일까요?

중복 제거 키 기술

일반적인 스토리지 시스템의 데이터 중복 제거 과정은 다음과 같습니다. 먼저 데이터 파일을 여러 데이터 블록으로 나누고, 각 블록에 대해 지문(fingerprint)을 계산합니다. 그런 다음 지문 해시값을 기반으로 키워드를 검색하여 일치하는 항목을 찾아 중복 데이터 블록을 식별하고, 해당 블록의 인덱스 번호만 저장합니다. 일치하지 않는 블록은 새로운 데이터 블록으로 간주하여 관련 메타데이터와 함께 저장합니다. 이처럼 스토리지 시스템의 물리적 파일은 지문 메타데이터의 논리적 표현에 대응합니다. 파일을 읽을 때는 먼저 논리적 파일을 읽은 후, 지문 순서에 따라 스토리지 시스템에서 해당 데이터 블록을 추출하여 물리적 파일의 복사본을 복원합니다. 위 과정을 통해 데이터 중복 제거의 핵심 기술은 파일 데이터 블록 분할, 데이터 블록 지문 계산, 데이터 블록 검색을 포함한다는 것을 알 수 있습니다.

(1) 파일 데이터 블록 분할

(2) 데이터 블록 지문 계산

(3) 데이터 블록 검색