PUNCH4NFDI를 위한 연합 이기종 컴퓨팅 및 스토리지 인프라

1. 서론

PUNCH4NFDI (국가연구데이터인프라를 위한 입자, 우주, 핵 및 하드론)는 독일연구협회(DFG)의 지원을 받는 주요 독일 컨소시엄입니다. 이는 입자물리학, 천체물리학, 천체입자물리학, 하드론물리학, 핵물리학 커뮤니티의 약 9,000명의 과학자를 대표합니다. 컨소시엄의 주요 목표는 연합된 FAIR (검색 가능, 접근 가능, 상호 운용 가능, 재사용 가능) 과학 데이터 플랫폼을 구축하는 것입니다. 본 문서는 독일 전역의 회원 기관들이 현물로 기여한 고도로 이질적인 컴퓨팅(HPC, HTC, 클라우드) 및 스토리지 자원에 대한 통합 접근을 제공하도록 설계된 Compute4PUNCH 및 Storage4PUNCH 아키텍처 개념을 구체적으로 상세히 설명합니다.

2. 연합 이기종 컴퓨팅 인프라 – Compute4PUNCH

Compute4PUNCH 이니셔티브는 자원 제공 기관의 운영 모델에 큰 변화를 요구하지 않으면서 다양한 기존 컴퓨팅 자원 풀에 대한 원활한 접근을 제공하는 과제를 해결합니다.

2.1. 핵심 아키텍처 및 기술

연합은 HTCondor 기반 오버레이 배치 시스템 위에 구축됩니다. 핵심 혁신은 COBalD/TARDIS 자원 메타 스케줄러의 사용입니다. TARDIS는 동적 브로커 역할을 하여 HTCondor 풀의 추상적 자원 요청을 백엔드 시스템(예: OpenStack에서 VM 생성, Slurm에 작업 제출)의 구체적 프로비저닝 작업으로 변환합니다. 이는 동적이고 투명한 통합 계층을 생성합니다. 토큰 기반 인증 및 권한 부여 인프라(AAI)가 표준화된 접근을 제공합니다.

2.2. 접근 및 사용자 인터페이스

사용자는 주로 두 가지 진입점을 통해 연합 시스템과 상호작용합니다:

전통적인 로그인 노드: 통합 환경에 대한 쉘 접근을 제공합니다.
JupyterHub: 웹 기반의 대화형 컴퓨팅 환경을 제공하여 데이터 분석의 진입 장벽을 크게 낮춥니다.

이러한 진입점에서 사용자는 HTCondor 풀에 작업을 제출할 수 있으며, 이 작업들은 COBalD/TARDIS에 의해 이기종 백엔드 전체에서 관리됩니다.

2.3. 소프트웨어 환경 관리

커뮤니티 간 다양한 소프트웨어 요구사항을 처리하기 위해 이 프로젝트는 다음을 사용합니다:

컨테이너 기술 (예: Docker, Singularity/Apptainer): 애플리케이션 환경을 캡슐화하기 위해 사용됩니다.
CERN 가상 머신 파일 시스템 (CVMFS): 확장 가능한 방식으로 소프트웨어 스택 및 실험 데이터를 제공하기 위한 읽기 전용의 전역 분산 파일 시스템입니다. 이는 소프트웨어 배포를 기반 인프라와 분리합니다.

3. 연합 스토리지 인프라 – Storage4PUNCH

Storage4PUNCH은 고에너지 물리학(HEP)에서 잘 정립된 dCache 및 XRootD 기술을 기반으로 하는 커뮤니티 스토리지 시스템을 연합하는 것을 목표로 합니다.

3.1. 스토리지 연합 전략

전략은 단일의 거대한 스토리지 시스템을 만드는 것이 아니라 기존 시스템들을 연합하는 것입니다. 핵심은 기저의 스토리지 이질성을 추상화하는 통합 네임스페이스 및 접근 프로토콜 계층을 제공하는 데 있습니다. 이는 데이터 지역성을 보존하면서도 전역적 접근을 가능하게 합니다.

3.2. 기술 스택 및 통합

연합은 다음을 활용합니다:

dCache: 스토리지 백엔드 뿐만 아니라 그 연합 기능을 위해 사용됩니다.
XRootD: 효율적인 데이터 접근 프로토콜 및 리디렉션 기능으로 인해 채택되었으며, 데이터 연합 구축에 중요합니다.
캐싱 및 메타데이터 기술 평가: 프로젝트는 Rucio(데이터 관리용) 및 캐싱 계층과 같은 기술을 적극적으로 평가하여 데이터 접근 패턴을 최적화하고 더 지능적인 데이터 배치를 가능하게 하여 단순한 연합을 넘어 더 깊은 통합으로 나아가고 있습니다.

4. 기술적 세부사항 및 수학적 프레임워크

COBalD/TARDIS의 핵심 스케줄링 로직은 최적화 문제로 모델링될 수 있습니다. $R = \{r_1, r_2, ..., r_n\}$를 HTCondor 풀의 자원 요청 집합으로, $B = \{b_1, b_2, ..., b_m\}$를 사용 가능한 백엔드 자원 유형(예: HPC 노드, 클라우드 VM)의 집합으로 둡니다. 각 요청 $r_i$에는 요구사항(코어, 메모리, 소프트웨어)이 있습니다. 각 백엔드 $b_j$에는 비용 함수 $C_j(r_i)$와 프로비저닝 시간 $T_j(r_i)$가 있습니다.

메타 스케줄러의 목표는 백엔드 할당량 및 소프트웨어 가용성과 같은 제약 조건 하에서, 종종 재정적 비용과 완료 시간의 가중 합인 총 비용 함수를 최소화하는 매핑 $M: R \rightarrow B$를 찾는 것입니다:

$$\min_{M} \sum_{r_i \in R} \left[ \alpha \cdot C_{M(r_i)}(r_i) + \beta \cdot T_{M(r_i)}(r_i) \right]$$

여기서 $\alpha$와 $\beta$는 가중치 인자입니다. 이는 "동적이고 투명한" 통합 과제를 공식화합니다.

5. 프로토타입 결과 및 성능

본 논문은 사용 가능한 프로토타입에서 실행된 과학적 애플리케이션에 대한 초기 경험을 보고합니다. 제공된 발췌문에는 구체적인 정량적 벤치마크가 상세히 설명되어 있지 않지만, 성공적인 실행은 다음을 시사합니다:

기능적 통합: HTCondor/COBalD/TARDIS 스택이 작업을 다른 백엔드 시스템(HTC, HPC, 클라우드)으로 성공적으로 라우팅했습니다.
소프트웨어 전달: CVMFS와 컨테이너가 이기종 작업자 노드 전체에 필요한 소프트웨어 환경을 안정적으로 제공했습니다.
사용자 접근: JupyterHub와 로그인 노드가 연구자들을 위한 효과적인 진입점 역할을 했습니다.

개념도: 시스템 아키텍처는 3계층 모델로 시각화될 수 있습니다:

사용자 접근 계층: JupyterHub, 로그인 노드, 토큰 AAI.
연합 및 스케줄링 계층: HTCondor 풀 + COBalD/TARDIS 메타 스케줄러.
자원 계층: 이기종 백엔드(HPC 클러스터, HTC 팜, 클라우드 VM) 및 연합 스토리지(dCache, XRootD 인스턴스).

데이터와 작업은 상위 계층에서 지능형 스케줄링 중간 계층을 거쳐 하위 계층의 적절한 자원으로 흐릅니다.

6. 분석 프레임워크: 사용 시나리오

시나리오: 핵물리학 연구자가 10,000개의 몬테카를로 시뮬레이션 작업을 처리해야 하며, 각 작업에는 4개의 CPU 코어, 16GB RAM 및 특정 소프트웨어 스택(Geant4, ROOT)이 필요합니다.

제출: 연구자는 PUNCH JupyterHub에 로그인하여 분석 스크립트를 작성하고 10,000개의 작업을 로컬 HTCondor 스케줄러에 제출합니다.
메타 스케줄링: COBalD/TARDIS는 HTCondor 큐를 모니터링합니다. 사용 가능한 백엔드를 평가합니다: A 대학의 HTC 팜(저비용, 높은 대기 시간), B 연구소의 HPC 클러스터(중간 비용, 특수 하드웨어), 상용 클라우드(고비용, 즉시 가용성).
결정 및 실행: 비용 모델을 사용하여 TARDIS는 빠른 시작을 위해 2,000개의 즉시 작업을 클라우드로 버스트 실행하고, 나머지는 더 저렴한 HTC 팜에서 꾸준히 처리하도록 결정할 수 있습니다. 모든 시스템에서 인증을 위해 토큰 AAI를 사용합니다.
소프트웨어 및 데이터: 각 작업은 백엔드에 관계없이 Geant4/ROOT 환경을 CVMFS에서 가져옵니다. 입력 데이터는 연합된 Storage4PUNCH 네임스페이스(예: XRootD를 통해)에서 가져오고, 출력은 지정된 스토리지 엔드포인트에 다시 기록됩니다.
완료: 연구자는 단일 HTCondor 작업 큐에서 결과를 모니터링하고 집계하며, 기저의 다중 인프라 실행을 인지하지 못합니다.

이 시나리오는 연합 인프라의 투명성, 효율성 및 사용자 중심 설계를 보여줍니다.

7. 비판적 분석 및 전문가 관점

핵심 통찰: PUNCH4NFDI는 또 다른 클라우드를 구축하는 것이 아닙니다. 이는 놀라운 정치적, 기술적 실용주의의 연합 계층을 설계하고 있습니다. 진정한 혁신은 자원 공유를 위한 "외교적 번역가" 역할을 하는 COBalD/TARDIS 메타 스케줄러에 있으며, 정복적인 통합자가 아닙니다. 이는 독일 학계에서 절대적인 현실인 기존 기관 클러스터의 주권을 인정하면서도 기능적인 초월 자원을 창출합니다.

논리적 흐름: 논리는 흠잡을 데 없습니다: 사용자(JupyterHub/로그인)로 시작하여, 검증된 스케줄러(HTCondor)를 통해 혼란을 추상화한 다음, 스마트 브로커(TARDIS)를 사용하여 추상적 요청을 구체적이고 정치적으로 실현 가능한 백엔드에 매핑합니다. 소프트웨어를 위한 CVMFS와 컨테이너에 대한 의존은 대부분의 연합을 괴롭히는 "의존성 지옥" 문제를 해결하는 탁월한 수법입니다. 스토리지 전략은 입증된 HEP의 dCache/XRootD 듀오를 기반으로 하여, 단일한 새로운 기술을 강제하려는 수렁에 빠지지 않는 현명하고 보수적인 접근입니다.

강점과 약점:

강점: 최소한의 침입이 그 초능력입니다. 제공자들이 로컬 정책을 변경할 필요가 없습니다. 성숙한 커뮤니티 주도 도구(HTCondor, CVMFS, dCache)의 사용은 맞춤형 프레임워크로 구축된 프로젝트와 달리 위험을 극적으로 줄이고 지속 가능성을 높입니다. FAIR 원칙에 초점을 맞춘 것은 현대적 자금 지원 요구사항과 완벽하게 일치합니다.
약점 및 위험: 메타 스케줄러 접근 방식은 단일 복잡성 및 잠재적 장애 지점을 도입합니다. COBalD/TARDIS는 유망하지만 다른 구성 요소만큼 검증되지는 않았습니다. 캐싱/메타데이터 기술(예: Rucio)의 "평가"는 가장 어려운 부분이 앞에 놓여 있음을 암시합니다: 지능형 데이터 관리. 이것 없이는, 이는 스토리지 디렉토리가 붙어 있는 컴퓨팅 연합일 뿐이며, 응집력 있는 데이터 중심 플랫폼이 아닙니다. 또한 사용자의 작업이 근본적으로 다른 아키텍처 사이를 이동함에 따라 성능 예측 불가능성의 잠재적 위험이 도사리고 있습니다.

실행 가능한 통찰:

PUNCH 설계자들을 위해: TARDIS를 강력하고 관찰 가능하게 만드는 데 집중하십시오. 그 지표와 결정 로그는 최적화와 신뢰 구축에 귀중합니다. 다음으로 데이터 관리 계층(예: Rucio)의 통합을 우선시하십시오; 지능형 데이터 없이 컴퓨팅은 반쪽짜리 해결책입니다.
다른 컨소시엄들을 위해: 이는 특히 "교체보다 통합" 철학에서 따라할 가치가 있는 청사진입니다. 그러나 여러분의 커뮤니티에 CVMFS에 상응하는 것이 있는지 평가하십시오. 없다면, 그것이 여러분의 첫 번째 구축/구매 결정입니다.
자원 제공자들을 위해: 이 모델은 여러분에게 위험이 낮습니다. 참여하십시오. 토큰 기반 AAI는 로컬 보안을 훼손하지 않으면서 접근을 제공하는 깔끔한 방법입니다. 이는 가시성과 활용도 측면에서 순이익입니다.

이 프로젝트의 성공은 최고 FLOPS로 측정되는 것이 아니라, 타우텐부르크의 박사 과정 학생이 본의 컴퓨팅 사이클과 카를스루에의 데이터를 얼마나 눈에 띄지 않게 원활하게 사용할 수 있게 하는지로 측정될 것입니다. 그것이 훨씬 더 야심차고 가치 있는 목표입니다.

8. 미래 응용 및 개발 로드맵

PUNCH4NFDI 인프라는 몇 가지 고급 응용 및 연구 방향을 위한 기반을 마련합니다:

크로스 도메인 워크플로우: 시뮬레이션(HPC), 고처리량 이벤트 처리(HTC), 기계 학습 훈련(클라우드 GPU) 사이를 원활하게 이동하는 복잡한 다단계 분석 파이프라인을 가능하게 합니다.
데이터 중심 스케줄링: 스토리지 연합을 컴퓨팅 스케줄러와 더 깊이 통합합니다. COBald/TARDIS의 향후 버전은 데이터 지역성(WAN 전송 최소화) 및 사전 준비를 비용 함수에 포함시켜 데이터 인식 스케줄링으로 나아갈 수 있습니다.
FAIR 데이터 저장소와의 통합: 국가 FAIR 데이터 저장소를 위한 고성능 컴퓨팅 백본 역할을 하여 연구자들이 "데이터에 대한 컴퓨팅" 패러다임에 따라 대규모 데이터셋이 저장된 곳에서 직접 분석할 수 있도록 합니다.
서비스로서의 AI/ML: JupyterHub 인터페이스와 확장 가능한 백엔드는 특화된 AI/ML 프레임워크(PyTorch, TensorFlow)를 위한 큐레이팅된 환경 및 GPU 자원 접근으로 확장될 수 있어 물리 과학 분야에서 AI를 민주화할 수 있습니다.
국제 자원으로의 확장: 연합 모델은 유럽 오픈 사이언스 클라우드(EOSC) 또는 LHC 컴퓨팅 그리드(WLCG) 사이트와 같은 유럽 이니셔티브의 자원을 통합하도록 확장되어 진정한 범유럽 연구 인프라를 생성할 수 있습니다.

로드맵에는 현재 프로토타입 강화, 통합 자원 수 확장, 평가된 메타데이터/캐싱 솔루션 구현, 컨소시엄 전체의 공정한 자원 사용을 위한 더 정교한 정책 및 회계 메커니즘 개발이 포함될 것입니다.

9. 참고문헌

PUNCH4NFDI 컨소시엄. (2024). PUNCH4NFDI 백서. [내부 컨소시엄 문서].
Thain, D., Tannenbaum, T., & Livny, M. (2005). Distributed computing in practice: the Condor experience. Concurrency and computation: practice and experience, 17(2-4), 323-356.
Blomer, J., et al. (2011). The CernVM file system. Journal of Physics: Conference Series, 331(5), 052004.
COBalD/TARDIS Documentation. (n.d.). Retrieved from https://tardis.readthedocs.io/
dCache Collaboration. (n.d.). dCache: A distributed storage system. https://www.dcache.org/
XRootD Collaboration. (n.d.). XRootD: High performance, scalable fault tolerant access to data. http://xrootd.org/
Wilkinson, M. D., et al. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific data, 3(1), 1-9.
European Open Science Cloud (EOSC). (n.d.). https://eosc-portal.eu/
Worldwide LHC Computing Grid (WLCG). (n.d.). https://wlcg.web.cern.ch/