PUNCH4NFDI를 위한 연합 이기종 컴퓨팅 및 스토리지 인프라

1. 서론

PUNCH4NFDI (국가연구데이터인프라를 위한 입자, 우주, 핵 및 하드론) 컨소시엄은 독일연구재단(DFG)의 지원을 받으며, 입자물리학, 천문학, 천체입자물리학, 하드론물리학, 핵물리학 분야의 약 9,000명의 과학자를 대표합니다. 더 광범위한 NFDI 이니셔티브 내에 자리 잡은 이 컨소시엄의 주요 목표는 연합적이고 FAIR (검색 가능, 접근 가능, 상호 운용 가능, 재사용 가능) 과학 데이터 플랫폼을 구축하는 것입니다. 이 플랫폼은 참여 기관들의 다양한 컴퓨팅 및 스토리지 자원에 대한 원활한 접근을 제공하여 기하급수적으로 증가하는 데이터 양과 계산 집약적인 분석 알고리즘으로 인한 공통적인 과제를 해결하는 것을 목표로 합니다. 본 문서는 독일의 이기종 연구 인프라를 연합하도록 설계된 Compute4PUNCH 및 Storage4PUNCH 아키텍처 개념에 초점을 맞춥니다.

2. 연합 이기종 컴퓨팅 인프라 – Compute4PUNCH

Compute4PUNCH는 독일 전역에 분산된 고처리량 컴퓨팅(HTC), 고성능 컴퓨팅(HPC), 클라우드 시스템을 포함한 다양한 현물 기여 자원을 효과적으로 활용하는 과제를 해결합니다. 이러한 자원들은 아키텍처, 운영 체제, 소프트웨어 스택, 접근 정책에 있어 다양합니다. 핵심 설계 원칙은 기존 운영 중인 자원 제공자들에게 최소한의 간섭으로 통합 오버레이 시스템을 만드는 것입니다.

2.1. 핵심 아키텍처 및 통합

연합은 중앙 배치 시스템 오버레이로서 HTCondor를 중심으로 구축됩니다. 이기종 자원들은 COBalD/TARDIS 자원 메타 스케줄러를 사용하여 동적으로 통합됩니다. COBalD/TARDIS는 지능형 브로커 역할을 하며, 자원 가용성, 작업 요구사항 및 정책에 따라 적합한 백엔드(예: Slurm, Kubernetes 클러스터)로 작업을 파일럿팅합니다. 이를 통해 물리적으로 분리된 시스템들로부터 단일 논리적 자원 풀이 생성됩니다.

2.2. 사용자 접근 및 소프트웨어 환경

사용자 진입점은 전통적인 로그인 노드와 JupyterHub 서비스를 통해 제공됩니다. 토큰 기반 인증 및 권한 부여 인프라(AAI)가 접근을 표준화합니다. 소프트웨어 환경의 복잡성은 컨테이너 기술(예: Docker, Singularity/Apptainer)과 CERN 가상 머신 파일 시스템(CVMFS)을 통해 관리됩니다. CVMFS는 전 세계 컴퓨팅 노드에 확장 가능한 읽기 전용 소프트웨어 배포를 제공합니다.

3. 연합 스토리지 인프라 – Storage4PUNCH

Storage4PUNCH는 고에너지 물리학(HEP) 분야에서 잘 정립된 dCache 및 XRootD 기술을 기반으로 하는 커뮤니티 제공 스토리지 시스템을 연합하는 것을 목표로 합니다. 이 연합은 공통 네임스페이스와 프로토콜(xrootd, WebDAV 등)을 사용하여 통합 데이터 접근 계층을 제공합니다. 이 개념은 또한 캐싱 솔루션 및 메타데이터 처리 서비스의 통합을 평가하여 연합 전체에서의 데이터 지역성과 검색 가능성을 향상시킵니다.

4. 기술 구현 및 구성 요소

4.1. 인증 및 권한 부여 (AAI)

토큰 기반 AAI (WLCG IAM 또는 INDIGO IAM과 유사한 OAuth 2.0/OpenID Connect 표준 활용 가능성 있음)가 단일 로그인 환경을 제공합니다. 이는 커뮤니티 신원을 로컬 자원 권한에 매핑하여 이기종 로컬 인증 시스템(예: Kerberos, SSH 키)을 추상화합니다.

4.2. 자원 메타 스케줄링: COBalD/TARDIS

COBalD (코디네이터)와 TARDIS (투명 적응 자원 동적 통합 시스템)가 함께 작동합니다. COBalD는 상위 수준의 스케줄링 결정을 내리는 반면, TARDIS는 대상 자원에서 "파일럿" 또는 "자리 표시자 작업"의 라이프사이클을 관리합니다. 이러한 분리는 유연한 정책 적용(예: 비용, 공정성, 우선순위)과 변동하는 자원 상태에 대한 동적 적응을 가능하게 합니다. 스케줄링은 최적화 문제로 모델링될 수 있으며, 비용 함수 $C_{total} = \sum_{i}(w_i \cdot T_i) + \lambda \cdot R$를 최소화합니다. 여기서 $T_i$는 작업 $i$의 턴어라운드 시간, $w_i$는 우선순위 가중치, $R$은 자원 사용 비용, $\lambda$는 균형 매개변수를 나타냅니다.

4.3. 데이터 및 소프트웨어 계층

CVMFS는 소프트웨어 배포에 매우 중요합니다. 이는 콘텐츠 주소 지정 가능 스토리지 모델과 적극적인 캐싱(Stratum 0/1 서버 및 로컬 Squid 캐시 사용)을 사용하여 소프트웨어 저장소를 효율적으로 전달합니다. 연합은 중앙 PUNCH 저장소 stratum 0와 기관 stratum 1 미러를 갖춘 CVMFS 계층 구조를 사용할 가능성이 높습니다. 데이터 접근은 유사한 연합 모델을 따르며, 스토리지 요소(SE)가 전역 디렉토리(예: Rucio 또는 간단한 REST 서비스)에 엔드포인트를 게시하여 클라이언트가 데이터 위치를 투명하게 확인할 수 있도록 합니다.

5. 프로토타입 현황 및 초기 경험

본 문서는 Compute4PUNCH와 Storage4PUNCH 모두의 프로토타입이 가동 중임을 나타냅니다. 초기 과학 응용 프로그램이 실행되어 성능, 사용성 및 통합 문제점에 대한 귀중한 피드백을 제공했습니다. 발췌문에 구체적인 벤치마크 수치는 제공되지 않았지만, 성공적인 실행은 오버레이 배치 시스템, AAI 통합, CVMFS를 통한 소프트웨어 전달의 기본 기능이 검증되었음을 의미합니다. 이러한 경험들은 정책 구성, 오류 처리 및 사용자 문서화의 개선을 안내하고 있습니다.

6. 핵심 통찰 및 전략적 분석

핵심 통찰: PUNCH4NFDI는 새로운 슈퍼컴퓨터를 구축하는 것이 아닙니다. 기존의 단편화된 자원들을 실용적으로 연결하는 "연합 구조"를 설계하는 것입니다. 이는 단일체 인프라에서 민첩한 소프트웨어 정의 자원 집합으로의 전략적 전환으로, 상업용 클라우드의 추세를 반영하지만 공공 자금 지원 학계의 제약과 문화에 맞게 조정된 것입니다.

논리적 흐름: 아키텍처는 명확한 의존성 주도 논리를 따릅니다: 1) 신원 통합 (AAI)으로 "누가" 문제를 해결, 2) 자원 추상화 (COBalD/TARDIS + HTCondor)로 "어디서" 문제를 해결, 3) 환경 분리 (컨테이너 + CVMFS)로 "무엇으로" 문제를 해결. 이러한 계층적 추상화는 전 세계 LHC 컴퓨팅 그리드(WLCG)의 성공을 떠올리게 하는 교과서적인 시스템 엔지니어링이지만, 더 다양한 자원 집합에 적용된 것입니다.

강점과 약점: 주요 강점은 비파괴적 도입 모델입니다. 오버레이 기술을 사용하고 사이트 자율성을 존중함으로써 자원 제공자의 진입 장벽을 낮춥니다. 이는 컨소시엄의 중요한 성공 요인입니다. 그러나 이것이 또한 아킬레스건이기도 합니다. 메타 스케줄링의 성능 오버헤드와 이기종 독립 관리 시스템 간 디버깅의 본질적인 복잡성은 상당할 수 있습니다. "최소 간섭" 원칙은 심층 스토리지-컴퓨팅 결합이나 동적 네트워크 프로비저닝과 같은 고급 기능 구현 능력을 제한하여 효율성 향상을 제한할 수 있습니다. Google의 Borg나 Kubernetes 클러스터와 같은 목적에 맞게 구축된 중앙 집중식 시스템과 비교할 때, 연합은 항상 더 높은 지연 시간과 더 낮은 활용률 예측 가능성을 가질 것입니다.

실행 가능한 통찰: 이 경로를 고려하는 다른 컨소시엄을 위해: 1) 첫날부터 모니터링과 관찰 가능성에 막대한 투자를 하십시오. 인프라를 위한 Grafana/Prometheus와 사용자 작업을 위한 APM(애플리케이션 성능 모니터링)과 같은 도구는 복잡성 관리를 위해 필수적입니다. 2) CVMFS 유지 관리 부담을 줄이기 위해 소수의 컨테이너 베이스 이미지 세트로 표준화하십시오. 3) 연합 수준 문제와 로컬 사이트 문제를 구분하는 명확한 계층적 지원 모델을 개발하십시오. 진정한 시험은 기술적 타당성이 아닐 것입니다. HEP 커뮤니티가 이미 이를 입증했습니다. 대규모에서의 운영 지속 가능성과 사용자 만족도가 진정한 시험대가 될 것입니다.

7. 기술 심층 분석

자원 스케줄링을 위한 수학적 모델: COBalD/TARDIS 시스템은 제약 최적화 문제를 해결하는 것으로 개념화될 수 있습니다. $J$를 작업 집합, $R$을 자원 집합, $S$를 자원 상태 집합(예: 유휴, 사용 중, 배수됨)이라고 합시다. 스케줄러는 작업 우선순위 $p_j$, 자원 효율성 $e_{j,r}$, 비용 $c_r$을 고려한 효용 함수 $U$를 최대화하는 것을 목표로 합니다: $$\max \sum_{j \in J} \sum_{r \in R} x_{j,r} \cdot U(p_j, e_{j,r}, c_r)$$ 다음 제약 조건 적용: $$\sum_{j} x_{j,r} \leq C_r \quad \forall r \in R \quad \text{(자원 용량)}$$ $$\sum_{r} x_{j,r} \leq 1 \quad \forall j \in J \quad \text{(작업 할당)}$$ $$x_{j,r} \in \{0,1\} \quad \text{(이진 결정 변수)}$$ 여기서 $x_{j,r}=1$은 작업 $j$가 자원 $r$에 할당되었음을 의미합니다. TARDIS는 실시간 상태 $S$를 기반으로 할당의 실행 가능성을 동적으로 관리합니다.

실험 결과 및 다이어그램 설명: 제공된 PDF 발췌문에 구체적인 성능 그래프는 포함되어 있지 않지만, 일반적인 평가에는 다음을 비교하는 다이어그램이 포함될 것입니다:
1. 시간 경과에 따른 작업 처리량: 연합 풀 대 개별 자원 클러스터 간 시간당 완료된 작업 수를 보여주는 선형 차트로, 집계 이점을 입증합니다.
2. 자원 활용률 히트맵: 일주일 동안 서로 다른 자원 제공자(KIT, DESY, Bielefeld 등) 간 활용된 CPU/GPU 백분율을 보여주는 그리드 시각화로, 부하 분산 효과를 강조합니다.
3. 작업 시작 지연 시간 CDF: 연합 시스템에서 작업 제출부터 실행 시작까지의 시간과 로컬 배치 시스템에 직접 제출한 경우를 비교하는 누적 분포 함수 플롯으로, 메타 스케줄링 오버헤드를 보여줍니다.
4. 데이터 접근 성능: 로컬에서 접근한 데이터, 동일 지역 내 연합 스토리지 요소에서 접근한 데이터, 원격 연합 요소에서 접근한 데이터의 읽기/쓰기 속도를 비교하는 막대 그래프로, 캐싱 및 네트워크의 영향을 설명합니다.

8. 분석 프레임워크 및 개념 모델

사례 연구: 천문학 관측 데이터의 연합 분석
시나리오: 튀링겐 주립천문대 타우텐부르크의 한 연구 그룹은 은하단을 식별하기 위해 슬로안 디지털 전천 탐사(SDSS)의 1 PB 이미징 데이터를 처리해야 합니다. 이는 약 100,000 CPU-시간이 필요한 계산 집약적 작업입니다.
Compute4PUNCH/Storage4PUNCH를 통한 처리 과정:
1. 인증: 연구원은 기관 자격 증명(토큰 기반 AAI 통해)을 사용하여 PUNCH JupyterHub에 로그인합니다.
2. 소프트웨어 환경: Jupyter 노트북 커널은 CVMFS에 호스팅된 컨테이너 이미지에서 실행되며, 필요한 모든 천문학 패키지(Astropy, SExtractor 등)를 포함합니다.
3. 작업 정의 및 제출: 노트북에서 매개변수 스윕 작업을 정의합니다. 노트북은 PUNCH 클라이언트 라이브러리를 사용하여 이를 HTCondor DAG(방향성 비순환 그래프)로 연합 풀에 제출합니다.
4. 자원 매칭 및 실행: COBalD/TARDIS는 작업 요구사항(CPU, 메모리, 가능하면 GPU)을 평가하고 이를 예를 들어 KIT의 HTC 풀, 빌레펠트 대학의 HPC 큐, DESY의 클라우드 노드 등에서 사용 가능한 슬롯으로 파일럿팅합니다. 작업은 가장 가까운 스토리지 위치(캐시 활용 가능)에서 연합 XRootD 네임스페이스를 통해 입력 데이터를 읽습니다.
5. 결과 집계: 출력 파일은 연합 스토리지에 다시 기록됩니다. 연구원은 통합 웹 대시보드를 통해 진행 상황을 모니터링하고 최종적으로 분석을 위해 노트북에서 결과를 집계합니다.
이 사례는 신원, 컴퓨팅, 스토리지 및 소프트웨어 관리의 원활한 통합을 보여줍니다.

9. 향후 응용 및 개발 로드맵

PUNCH4NFDI 인프라는 몇 가지 고급 응용 프로그램을 위한 기반을 마련합니다:
1. 연합 머신러닝 학습: 잠재적인 GPU 클러스터를 포함한 이기종 자원 풀은 기관 경계를 넘어 PyTorch 또는 TensorFlow와 같은 분산 ML 학습 프레임워크를 지원할 수 있으며, 데이터를 중앙 집중화할 수 없는 프라이버시 보존 학습 요구를 해결할 수 있습니다.
2. 대화형 분석 및 시각화: JupyterHub 서비스를 확장 가능한 백엔드 기반 대화형 시각화 도구(예: 연합의 Dask 클러스터에 연결된 Jupyter 위젯)로 강화하여 대규모 데이터셋 탐색을 지원합니다.
3. 외부 클라우드 및 HPC 센터와의 통합: 연합 모델을 상용 클라우드 크레딧(예: AWS, GCP) 또는 국가 슈퍼컴퓨팅 센터(예: JSC의 JUWELS)를 공통 결제/회계 계층을 통해 통합하도록 확장하여 과학을 위한 진정한 하이브리드 클라우드를 생성합니다.
4. 메타데이터 및 데이터 레이크 통합: 단순한 파일 연합을 넘어 스토리지 계층이 통합 메타데이터 카탈로그(예: Rucio 또는 iRODS 기반)와 결합된 통합 데이터 레이크 아키텍처로 이동하여 커뮤니티 간 데이터 검색 및 출처 추적을 가능하게 합니다.
5. 워크플로우-어즈-어-서비스: 연합 인프라 위에 REANA(재현 가능 분석 플랫폼) 또는 Apache Airflow와 같은 상위 수준 플랫폼 서비스를 제공하여 과학자들이 기본 인프라를 관리하지 않고도 복잡하고 재현 가능한 분석 파이프라인을 정의하고 실행할 수 있도록 합니다.

개발 로드맵은 프로덕션 서비스 강화, 자원 풀 확장, 더 정교한 데이터 관리 도구 통합, 비전문 사용자의 도입 장벽을 낮추기 위한 사용자 친화적인 API 및 SDK 개발에 초점을 맞출 것입니다.

10. 참고문헌

PUNCH4NFDI Consortium. (2024). PUNCH4NFDI 백서. [내부 컨소시엄 문서].
Thain, D., Tannenbaum, T., & Livny, M. (2005). Distributed computing in practice: the Condor experience. Concurrency - Practice and Experience, 17(2-4), 323-356. https://doi.org/10.1002/cpe.938
Blomer, J., et al. (2011). Distribution of software in the CernVM file system with Parrot. Journal of Physics: Conference Series, 331(4), 042009. https://doi.org/10.1088/1742-6596/331/4/042009
Giffels, M., et al. (2022). COBalD and TARDIS – Dynamic resource overlay for opportunistic computing. EPJ Web of Conferences, 251, 02009. https://doi.org/10.1051/epjconf/202225102009
dCache Collaboration. (2023). dCache: A distributed storage data caching system. Retrieved from https://www.dcache.org/
XRootD Collaboration. (2023). XRootD: High performance, scalable fault tolerant access to data. Retrieved from http://xrootd.org/
Wilkinson, M. D., et al. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data, 3, 160018. https://doi.org/10.1038/sdata.2016.18
Verma, A., et al. (2015). Large-scale cluster management at Google with Borg. Proceedings of the Tenth European Conference on Computer Systems (EuroSys '15). https://doi.org/10.1145/2741948.2741964