스파인-리프 네트워크란 정확히 무엇일까요? 언더레이 네트워크의 스파인-리프 네트워크

클라우드 서비스의 요구 사항을 충족하기 위해 네트워크는 점차 언더레이와 오버레이로 나뉘고 있습니다. 언더레이 네트워크는 기존 데이터 센터의 라우팅 및 스위칭과 같은 물리적 장비로, 안정성을 중시하며 신뢰할 수 있는 네트워크 데이터 전송 기능을 제공합니다. 오버레이는 언더레이 네트워크 위에 구축된 비즈니스 네트워크로, VXLAN 또는 GRE 프로토콜을 통해 서비스에 더욱 가깝게 캡슐화되어 사용자에게 사용하기 쉬운 네트워크 서비스를 제공합니다. 언더레이 네트워크와 오버레이 네트워크는 서로 연관되어 있으면서도 독립적으로 발전할 수 있습니다.

언더레이 네트워크는 네트워크의 기반입니다. 언더레이 네트워크가 불안정하면 비즈니스 서비스 수준 계약(SLA)을 준수할 수 없습니다. 3계층 네트워크 아키텍처와 팻트리(Fat-Tree) 네트워크 아키텍처를 거쳐 데이터센터 네트워크 아키텍처는 스파인-리프(Spine-Leaf) 아키텍처로 전환되고 있으며, 이는 CLOS 네트워크 모델의 세 번째 적용 사례를 가져왔습니다.

기존 데이터센터 네트워크 아키텍처

3중 레이어 디자인

2004년부터 2007년까지 3계층 네트워크 아키텍처가 데이터 센터에서 매우 인기를 끌었습니다. 이 아키텍처는 코어 계층(네트워크의 고속 스위칭 백본), 애그리게이션 계층(정책 기반 연결을 제공), 액세스 계층(워크스테이션을 네트워크에 연결)의 세 계층으로 구성됩니다. 모델은 다음과 같습니다.

3층 모델

3계층 네트워크 아키텍처

코어 계층: 코어 스위치는 데이터 센터 안팎으로 고속 패킷 전송, 여러 집계 계층과의 연결, 그리고 일반적으로 전체 네트워크를 지원하는 복원력 있는 L3 라우팅 네트워크를 제공합니다.

집계 계층: 집계 스위치는 액세스 스위치에 연결되어 방화벽, SSL 오프로드, 침입 탐지, 네트워크 분석 등과 같은 추가 서비스를 제공합니다.

액세스 계층: 액세스 스위치는 일반적으로 랙 상단에 위치하므로 ToR(Top of Rack) 스위치라고도 하며, 물리적으로 서버에 연결됩니다.

일반적으로 집계 스위치는 L2 네트워크와 L3 네트워크를 구분하는 경계점입니다. L2 네트워크는 집계 스위치 아래에 있고, L3 네트워크는 위에 있습니다. 각 집계 스위치 그룹은 POD(Point Of Delivery)를 관리하며, 각 POD는 독립적인 VLAN 네트워크입니다.

네트워크 루프 및 스패닝 트리 프로토콜

루프 형성의 주된 원인은 불명확한 목적지 경로로 인한 혼란입니다. 사용자들이 네트워크를 구축할 때, 신뢰성을 확보하기 위해 일반적으로 이중화된 장치와 링크를 사용하는데, 이로 인해 루프가 불가피하게 발생합니다. 레이어 2 네트워크는 동일한 브로드캐스트 도메인에 속해 있으므로, 루프 내에서 브로드캐스트 패킷이 반복적으로 전송되어 브로드캐스트 스톰을 발생시키고, 이는 순식간에 포트 차단 및 장비 마비를 초래할 수 있습니다. 따라서 브로드캐스트 스톰을 방지하기 위해서는 루프 형성 자체를 방지해야 합니다.

루프 발생을 방지하고 신뢰성을 확보하기 위해, 중복 장치와 중복 링크는 백업 장치와 백업 링크로만 활용할 수 있습니다. 즉, 중복 장치의 포트와 링크는 정상적인 상황에서는 차단되어 데이터 패킷 전송에 참여하지 않습니다. 현재 전송 중인 장치, 포트, 링크에 장애가 발생하여 네트워크 혼잡이 발생할 경우에만 중복 장치의 포트와 링크가 개방되어 네트워크를 정상 상태로 복구할 수 있습니다. 이러한 자동 제어는 스패닝 트리 프로토콜(STP)을 통해 구현됩니다.

스패닝 트리 프로토콜(STP)은 액세스 계층과 싱크 계층 사이에서 작동하며, 핵심은 STP가 활성화된 각 브리지에서 실행되는 스패닝 트리 알고리즘입니다. 이 알고리즘은 중복 경로가 있는 경우 브리징 루프가 발생하는 것을 방지하도록 특별히 설계되었습니다. STP는 메시지 전달을 위한 최적의 데이터 경로를 선택하고 스패닝 트리에 포함되지 않은 링크는 차단하여, 두 네트워크 노드 사이에 하나의 활성 경로만 남겨두고 나머지 업링크는 차단합니다.

3계층 네트워크 아키텍처

STP는 간단하고 플러그 앤 플레이 방식이며 구성이 거의 필요 없는 등 여러 장점이 있습니다. 각 포드 내의 장비들은 동일한 VLAN에 속하므로 서버는 IP 주소와 게이트웨이를 변경하지 않고도 포드 내에서 위치를 임의로 이동할 수 있습니다.

하지만 STP는 병렬 포워딩 경로를 사용할 수 없으므로 VLAN 내의 중복 경로를 항상 비활성화합니다. STP의 단점은 다음과 같습니다.

1. 토폴로지 수렴 속도가 느립니다. 네트워크 토폴로지가 변경될 때, 스패닝 트리 프로토콜은 토폴로지 수렴을 완료하는 데 50~52초가 소요됩니다.

2. 로드 밸런싱 기능을 제공할 수 없습니다. 네트워크에 루프가 발생할 경우, 스패닝 트리 프로토콜은 단순히 루프를 차단하는 것만 가능하므로 해당 링크는 데이터 패킷을 전송할 수 없어 네트워크 자원을 낭비하게 됩니다.

가상화 및 동서 교통 문제

2010년 이후 컴퓨팅 및 스토리지 자원의 활용도를 높이기 위해 데이터 센터는 가상화 기술을 도입하기 시작했고, 네트워크에는 수많은 가상 머신(VM)이 등장하게 되었습니다. 가상화 기술은 하나의 서버를 여러 개의 논리적 서버로 분할하며, 각 VM은 독립적으로 실행되고, 자체 운영 체제, 애플리케이션, 독립적인 MAC 주소 및 IP 주소를 가지며, 서버 내부의 가상 스위치(vSwitch)를 통해 외부와 연결됩니다.

가상화에는 필수적인 요구 사항이 있습니다. 바로 가상 머신의 라이브 마이그레이션입니다. 이는 가상 머신 시스템을 한 물리적 서버에서 다른 물리적 서버로 이동하면서 가상 머신에서 실행되는 서비스의 정상적인 작동을 유지하는 기능입니다. 이 과정은 최종 사용자에게 영향을 미치지 않으므로 관리자는 서버 리소스를 유연하게 할당하거나 물리적 서버를 수리 및 업그레이드할 때 사용자의 정상적인 사용에 지장을 주지 않을 수 있습니다.

마이그레이션 중 서비스 중단을 방지하기 위해서는 가상 머신의 IP 주소뿐만 아니라 실행 상태(예: TCP 세션 상태)도 마이그레이션 동안 유지되어야 합니다. 따라서 가상 머신의 동적 마이그레이션은 동일한 레이어 2 도메인 내에서만 가능하며, 레이어 2 도메인을 넘어서는 마이그레이션은 불가능합니다. 이는 액세스 계층에서 코어 계층에 이르는 더 큰 규모의 레이어 2 도메인이 필요하게 되는 이유입니다.

기존의 대규모 레이어 2 네트워크 아키텍처에서 L2와 L3를 구분하는 기준점은 코어 스위치이며, 코어 스위치 아래의 데이터 센터는 완전한 브로드캐스트 도메인, 즉 L2 네트워크로 구성됩니다. 이러한 구조는 디바이스 배치 및 위치 이동의 자유로움을 제공하며, IP 및 게이트웨이 설정을 변경할 필요가 없습니다. 서로 다른 L2 네트워크(VLAN)는 코어 스위치를 통해 라우팅됩니다. 그러나 이 아키텍처에서 코어 스위치는 방대한 MAC 및 ARP 테이블을 유지 관리해야 하므로 높은 성능 요구 조건을 갖습니다. 또한, 액세스 스위치(TOR)는 전체 네트워크의 확장성을 제한합니다. 이러한 요소들은 결국 네트워크의 확장성, 네트워크 확장 및 탄력성, 3계층 스케줄링 지연 문제를 야기하여 미래 비즈니스 요구 사항을 충족하지 못하게 합니다.

한편, 가상화 기술로 인해 발생하는 동서 트래픽은 기존의 3계층 네트워크에도 어려움을 야기합니다. 데이터센터 트래픽은 크게 다음과 같은 범주로 나눌 수 있습니다.

남북 방향 교통량:데이터센터 외부의 클라이언트와 데이터센터 서버 간의 트래픽 또는 데이터센터 서버에서 인터넷으로의 트래픽.

동서 교통량:데이터 센터 내 서버 간 트래픽은 물론, 데이터 센터 간 재해 복구, 프라이빗 클라우드와 퍼블릭 클라우드 간 통신 등 서로 다른 데이터 센터 간 트래픽도 포함됩니다.

가상화 기술의 도입으로 애플리케이션 배포가 점점 더 분산되고 있으며, 그 "부작용"으로 동서 트래픽이 증가하고 있습니다.

기존의 3단계 아키텍처는 일반적으로 남북 방향 교통 흐름을 위해 설계되었습니다.동서 방향 교통에는 사용할 수 있지만, 궁극적으로는 필요한 성능을 발휘하지 못할 수도 있습니다.

 전통적인 3계층 아키텍처

전통적인 3계층 아키텍처 vs. 스파인-리프 아키텍처

3계층 아키텍처에서 동서 방향 트래픽은 집계 계층과 코어 계층의 장치를 거쳐야 하므로 불필요하게 많은 노드를 거치게 됩니다. (서버 -> 액세스 -> 집계 -> 코어 스위치 -> 집계 -> 액세스 스위치 -> 서버)

따라서 대량의 동서 방향 트래픽이 기존의 3계층 네트워크 아키텍처를 통해 전송될 경우, 동일한 스위치 포트에 연결된 장치들이 대역폭을 놓고 경쟁하게 되어 최종 사용자의 응답 시간이 저하될 수 있습니다.

기존 3계층 네트워크 아키텍처의 단점

기존의 3계층 네트워크 아키텍처에는 여러 가지 단점이 있음을 알 수 있습니다.

대역폭 낭비:루핑을 방지하기 위해 STP 프로토콜은 일반적으로 집계 계층과 액세스 계층 사이에 실행되어 액세스 스위치의 업링크 중 하나만 실제로 트래픽을 전송하고 나머지 업링크는 차단되어 대역폭 낭비를 방지합니다.

대규모 네트워크 구축의 어려움:네트워크 규모가 확장됨에 따라 데이터 센터는 여러 지리적 위치에 분산되고, 가상 머신은 어디에서든 생성 및 마이그레이션할 수 있으며, IP 주소 및 게이트웨이와 같은 네트워크 속성은 변경되지 않은 상태로 유지되어야 하므로 레이어 2 지원이 필수적입니다. 기존 구조에서는 이러한 마이그레이션이 불가능합니다.

동서 교통량 부족:3계층 네트워크 아키텍처는 주로 남북 트래픽을 위해 설계되었지만 동서 트래픽도 지원합니다. 그러나 동서 트래픽에는 명확한 단점이 있습니다. 동서 트래픽이 많아지면 집계 계층과 코어 계층 스위치에 대한 부하가 크게 증가하고, 네트워크 규모와 성능은 집계 계층과 코어 계층에 국한됩니다.

이로 인해 기업들은 비용과 확장성이라는 딜레마에 빠지게 됩니다.대규모 고성능 네트워크를 지원하려면 다수의 컨버전스 레이어 및 코어 레이어 장비가 필요하며, 이는 기업에 높은 비용 부담을 줄 뿐만 아니라 네트워크 구축 시 사전 계획을 철저히 세워야 한다는 점을 요구합니다. 네트워크 규모가 작을 때는 자원 낭비가 발생하고, 네트워크 규모가 지속적으로 확장될 경우 확장이 어려워집니다.

스파인-리프 네트워크 아키텍처
스파인-리프 네트워크 아키텍처란 무엇입니까?
위의 문제점들에 대한 해결책으로,새로운 데이터 센터 설계 방식인 스파인-리프 네트워크 아키텍처가 등장했는데, 이를 우리는 리프 리지 네트워크라고 부릅니다.
이름에서 알 수 있듯이, 이 아키텍처는 스파인 레이어와 리프 레이어로 구성되며, 스파인 스위치와 리프 스위치를 포함합니다.

 스파인-리프 네트워크 아키텍처

척추-잎 구조

각 리프 스위치는 모든 리지 스위치에 연결되어 있으며, 리지 스위치들은 서로 직접 연결되어 있지 않아 완전 메시 구조를 이룹니다.
스파인-리프 구조에서 한 서버에서 다른 서버로의 연결은 동일한 수의 장치(서버 -> 리프 -> 스파인 스위치 -> 리프 스위치 -> 서버)를 거치므로 예측 가능한 지연 시간을 보장합니다. 패킷이 목적지에 도달하기 위해 하나의 스파인 스위치와 또 다른 리프 스위치만 거치면 되기 때문입니다.

Spine-Leaf는 어떻게 작동하나요?
리프 스위치는 기존 3계층 아키텍처의 액세스 스위치와 유사하며, TOR(Top Of Rack)처럼 물리적 서버에 직접 연결됩니다. 액세스 스위치와의 차이점은 L2/L3 네트워크의 경계 지점이 리프 스위치에 있다는 점입니다. 리프 스위치는 3계층 네트워크 위에 위치하며, 독립적인 L2 브로드캐스트 도메인 아래에 있어 대규모 2계층 네트워크의 BUM(Bottom of Unculator) 문제를 해결합니다. 두 리프 서버 간의 통신이 필요한 경우, L3 라우팅을 사용하여 스파인 스위치를 통해 포워딩해야 합니다.
스파인 스위치: 코어 스위치와 동일한 역할을 합니다. ECMP(Equal Cost Multi Path) 기술을 사용하여 스파인 스위치와 리프 스위치 간에 여러 경로를 동적으로 선택합니다. 차이점은 스파인 스위치가 리프 스위치에 안정적인 L3 라우팅 네트워크를 제공하는 역할을 한다는 것입니다. 따라서 데이터 센터의 북-남 트래픽은 직접 연결하는 대신 스파인 스위치를 통해 라우팅될 수 있습니다. 북-남 트래픽은 리프 스위치와 병렬로 연결된 에지 스위치를 거쳐 WAN 라우터로 라우팅될 수도 있습니다.

 스파인-리프 네트워크 아키텍처 vs 기존 3계층 네트워크 아키텍처

스파인/리프 네트워크 아키텍처와 기존 3계층 네트워크 아키텍처 비교

가시잎의 장점
평평한:플랫 디자인은 서버 간 통신 경로를 단축하여 지연 시간을 줄이고, 결과적으로 애플리케이션 및 서비스 성능을 크게 향상시킬 수 있습니다.
우수한 확장성:대역폭이 부족할 경우, 리지 스위치 수를 늘려 대역폭을 수평적으로 확장할 수 있습니다. 서버 수가 증가하여 포트 밀도가 부족할 경우, 리프 스위치를 추가할 수 있습니다.
비용 절감: 리프 노드 또는 리지 노드에서 나가는 북향 및 남향 트래픽. 동서 방향 흐름은 여러 경로로 분산됩니다. 이러한 방식으로 리프-리지 네트워크는 고가의 모듈형 스위치 없이 고정 구성 스위치를 사용할 수 있으므로 비용을 절감할 수 있습니다.
낮은 지연 시간 및 네트워크 혼잡 회피:리프-리지 네트워크에서 데이터 흐름은 출발지와 목적지에 관계없이 네트워크를 통과하는 홉 수가 동일하며, 두 서버 간에는 리프-스파인-리프 3홉으로 도달할 수 있습니다. 이는 보다 직접적인 트래픽 경로를 구축하여 성능을 향상시키고 병목 현상을 줄입니다.
높은 보안성과 가용성:STP 프로토콜은 기존의 3계층 네트워크 아키텍처에서 사용되며, 장치에 장애가 발생하면 해당 장치가 재수렴되어 네트워크 성능 저하 또는 장애를 초래할 수 있습니다. 반면 리프-리지 아키텍처에서는 장치에 장애가 발생하더라도 재수렴이 필요 없으며, 트래픽은 다른 정상 경로를 통해 계속 전달됩니다. 따라서 네트워크 연결에는 영향을 미치지 않으며, 대역폭은 하나의 경로만큼만 감소하여 성능 저하가 거의 없습니다.
ECMP를 통한 로드 밸런싱은 SDN과 같은 중앙 집중식 네트워크 관리 플랫폼이 사용되는 환경에 매우 적합합니다. SDN을 사용하면 구성, 관리 및 트래픽 재라우팅을 간소화하여 차단 또는 링크 장애 발생 시 효율적인 트래픽 재라우팅을 구현할 수 있으므로, 지능형 로드 밸런싱 풀 메시 토폴로지를 비교적 쉽게 구성하고 관리할 수 있습니다.

하지만 스파인-리프 구조에는 몇 가지 한계가 있습니다.
한 가지 단점은 스위치 수가 증가함에 따라 네트워크 규모가 커진다는 것입니다. 리프-리지 네트워크 아키텍처의 데이터 센터는 클라이언트 수에 비례하여 스위치 및 네트워크 장비를 늘려야 합니다. 호스트 수가 증가할수록 리지 스위치에 업링크하기 위한 리프 스위치의 수도 크게 늘어납니다.
리지 스위치와 리프 스위치의 직접 연결에는 매칭이 필요하며, 일반적으로 리프 스위치와 리지 스위치 간의 적절한 대역폭 비율은 3:1을 초과할 수 없습니다.
예를 들어, 리프 스위치에 10Gbps 속도의 클라이언트가 48개 연결되어 있고 총 포트 용량이 480Gb/s인 경우를 생각해 보겠습니다. 각 리프 스위치의 4개의 40G 업링크 포트를 40G 리지 스위치에 연결하면 업링크 용량은 160Gb/s가 됩니다. 이 경우 비율은 480:160, 즉 3:1입니다. 데이터 센터의 업링크는 일반적으로 40G 또는 100G이며, 40G(Nx 40G)에서 시작하여 시간이 지남에 따라 100G(Nx 100G)로 마이그레이션할 수 있습니다. 포트 링크가 차단되지 않도록 업링크 속도는 항상 다운링크 속도보다 빨라야 한다는 점에 유의해야 합니다.

 스파인-리프 스위치 대역폭 비율

스파인-리프 네트워크는 명확한 배선 요구 사항을 가지고 있습니다. 각 리프 노드는 각 스파인 스위치에 연결되어야 하므로 더 많은 구리 또는 광섬유 케이블을 설치해야 합니다. 상호 연결 거리가 길어질수록 비용이 증가합니다. 상호 연결된 스위치 간의 거리에 따라 스파인-리프 아키텍처에 필요한 고성능 광 모듈의 수는 기존 3계층 아키텍처보다 수십 배 더 많아지므로 전체 구축 비용이 증가합니다. 그러나 이러한 특성으로 인해 광 모듈 시장, 특히 100G 및 400G와 같은 고속 광 모듈 시장의 성장이 촉진되었습니다.


게시 시간: 2026년 1월 26일