選擇語言

PUNCH4NFDI 聯邦式異質計算與儲存基礎架構

針對德國研究機構間異質性 HPC、HTC 及儲存資源進行聯邦整合的 Compute4PUNCH 與 Storage4PUNCH 概念分析。
computingpowertoken.net | PDF Size: 0.5 MB
評分: 4.5/5
您的評分
您已經為此文檔評過分
PDF文檔封面 - PUNCH4NFDI 聯邦式異質計算與儲存基礎架構

1. 簡介

PUNCH4NFDI(國家研究資料基礎架構之粒子、宇宙、原子核與強子研究聯盟)是由德國研究協會(DFG)資助的一個重要德國聯盟。它代表了來自粒子物理、天體物理、天體粒子物理、強子物理與核物理領域約 9,000 名科學家。該聯盟的主要目標是建立一個聯邦式、符合 FAIR(可發現、可存取、可互通、可重用)原則的科學資料平台。本文獻具體詳述了 Compute4PUNCHStorage4PUNCH 這兩個架構概念,旨在統一存取由德國各成員機構以實物形式貢獻、高度異質的計算(HPC、HTC、雲端)與儲存資源。

2. 聯邦式異質計算基礎架構 – Compute4PUNCH

Compute4PUNCH 計畫旨在應對一項挑戰:在無需對資源提供者的營運模式進行重大變更的前提下,提供對現有各類計算資源池的無縫存取。

2.1. 核心架構與技術

此聯邦架構建基於一個以 HTCondor 為基礎的覆蓋式批次系統。其關鍵創新在於使用了 COBalD/TARDIS 資源元排程器。TARDIS 扮演動態代理的角色,將來自 HTCondor 資源池的抽象資源請求,轉譯為在後端系統上的具體資源配置動作(例如,在 OpenStack 上啟動虛擬機器、將工作提交至 Slurm)。這創造了一個動態且透明的整合層。一個基於權杖的認證與授權基礎架構(AAI)則提供了標準化的存取方式。

2.2. 存取與使用者介面

使用者主要透過兩個入口點與聯邦系統互動:

  • 傳統登入節點: 提供對統一環境的 Shell 存取。
  • JupyterHub: 提供一個基於網頁的互動式計算環境,顯著降低了資料分析的進入門檻。
從這些入口點,使用者可以將工作提交至 HTCondor 資源池,這些工作隨後由 COBalD/TARDIS 在異質後端之間進行管理。

2.3. 軟體環境管理

為處理不同研究社群間多樣的軟體需求,本計畫採用了:

  • 容器技術(例如 Docker、Singularity/Apptainer): 用於封裝應用程式環境。
  • CERN 虛擬機器檔案系統(CVMFS): 一個唯讀、全球分散式的檔案系統,用於以可擴展的方式提供軟體堆疊與實驗資料。這將軟體分發與底層基礎架構解耦。

3. 聯邦式儲存基礎架構 – Storage4PUNCH

Storage4PUNCH 旨在聯邦化主要基於 dCacheXRootD 技術的社群儲存系統,這些技術在高能物理(HEP)領域已相當成熟。

3.1. 儲存聯邦策略

其策略並非建立單一的龐大儲存系統,而是將現有系統聯邦化。重點在於提供一個統一的命名空間與存取協定層,以抽象化底層儲存的異質性。這使得資料本地性得以保留,同時實現全球存取。

3.2. 技術堆疊與整合

此聯邦架構利用了:

  • dCache: 用作儲存後端,同時也利用其聯邦功能。
  • XRootD: 因其高效的資料存取協定與重新導向能力而被採用,這對於建立資料聯邦至關重要。
  • 快取與詮釋資料技術評估: 本計畫正積極評估如 Rucio(用於資料管理)等技術及快取層,以最佳化資料存取模式並實現更智慧的資料放置,朝著超越簡單聯邦的更深層整合邁進。

4. 技術細節與數學框架

COBalD/TARDIS 中的核心排程邏輯可以建模為一個最佳化問題。令 $R = \{r_1, r_2, ..., r_n\}$ 為來自 HTCondor 資源池的資源請求集合,$B = \{b_1, b_2, ..., b_m\}$ 為可用後端資源類型(例如,HPC 節點、雲端虛擬機器)的集合。每個請求 $r_i$ 有其需求(核心數、記憶體、軟體)。每個後端 $b_j$ 有一個成本函數 $C_j(r_i)$ 和一個配置時間 $T_j(r_i)$。

元排程器的目標是找到一個映射 $M: R \rightarrow B$,以最小化一個總成本函數,該函數通常是財務成本與完成時間的加權總和,並受限於後端配額和軟體可用性等限制條件:

$$\min_{M} \sum_{r_i \in R} \left[ \alpha \cdot C_{M(r_i)}(r_i) + \beta \cdot T_{M(r_i)}(r_i) \right]$$

其中 $\alpha$ 和 $\beta$ 是權重因子。這將「動態且透明」的整合挑戰形式化了。

5. 原型結果與效能

本文獻報告了在可用原型上執行科學應用程式的初步經驗。雖然提供的摘要中未詳述具體的量化基準測試,但成功執行意味著:

  • 功能整合: HTCondor/COBalD/TARDIS 堆疊成功將工作路由至不同的後端系統(HTC、HPC、雲端)。
  • 軟體交付: CVMFS 與容器在異質的工作節點上可靠地提供了必要的軟體環境。
  • 使用者存取: JupyterHub 與登入節點作為研究人員的有效入口點。

概念圖: 系統架構可視為一個三層模型:

  1. 使用者存取層: JupyterHub、登入節點、權杖 AAI。
  2. 聯邦與排程層: HTCondor 資源池 + COBalD/TARDIS 元排程器。
  3. 資源層: 異質後端(HPC 叢集、HTC 農場、雲端虛擬機器)與聯邦儲存(dCache、XRootD 實例)。
資料與工作從頂層流經智慧排程的中間層,到達底層的適當資源。

6. 分析框架:使用案例情境

情境: 一位核物理研究人員需要處理 10,000 個蒙地卡羅模擬任務,每個任務需要 4 個 CPU 核心、16 GB 記憶體,以及一個特定的軟體堆疊(Geant4、ROOT)。

  1. 提交: 研究人員登入 PUNCH JupyterHub,撰寫分析腳本,並將 10,000 個工作提交至本地的 HTCondor 排程器。
  2. 元排程: COBalD/TARDIS 監控 HTCondor 佇列。它評估可用的後端:A 大學的 HTC 農場(低成本、高佇列時間)、B 研究所的 HPC 叢集(中等成本、專用硬體),以及一個商業雲端(高成本、立即可用)。
  3. 決策與執行: 使用其成本模型,TARDIS 可能決定將 2,000 個需要立即執行的工作爆發到雲端以快速啟動,同時穩步地在更便宜的 HTC 農場上處理其餘工作。它在所有系統上使用權杖 AAI 進行認證。
  4. 軟體與資料: 每個工作,無論在哪個後端執行,都從 CVMFS 拉取其 Geant4/ROOT 環境。輸入資料從聯邦的 Storage4PUNCH 命名空間(例如,透過 XRootD)取得,輸出則寫回指定的儲存端點。
  5. 完成: 研究人員從單一的 HTCondor 工作佇列監控並彙總結果,無需了解底層的多基礎架構執行過程。
此情境展示了聯邦基礎架構的透明度、效率與以使用者為中心的設計。

7. 批判性分析與專家觀點

核心洞見: PUNCH4NFDI 並非在建造另一個雲端;它是在打造一個在政治與技術上極具實用主義色彩的聯邦層。其真正的創新在於 COBalD/TARDIS 元排程器,它扮演的是資源共享的「外交翻譯官」,而非征服式的統一者。這承認了現有機構叢集的自主權——這是德國學術界不可妥協的現實——同時仍創造了一個功能性的超資源。

邏輯流程: 其邏輯無懈可擊:從使用者出發(JupyterHub/登入),透過一個久經考驗的排程器(HTCondor)來抽象化混亂,然後使用一個智慧代理(TARDIS)將抽象請求映射到具體且政治上可行的後端。依賴 CVMFS 和容器來管理軟體是一記妙招,解決了困擾大多數聯邦系統的「相依性地獄」問題。儲存策略明智地採取了保守路線,建立在 HEP 領域已驗證的 dCache/XRootD 組合之上,避免了強推單一新技術的泥淖。

優勢與缺陷:

  • 優勢: 最小侵入性是其超能力。它不要求提供者改變其本地政策。使用成熟、社群驅動的工具(HTCondor、CVMFS、dCache)大幅降低了風險並提高了永續性,這與建立在客製化框架上的專案不同。對FAIR 原則的關注完美契合了現代資助要求。
  • 缺陷與風險: 元排程器方法引入了單一的複雜性與潛在故障點。COBalD/TARDIS 雖然前景看好,但不如其他元件那樣久經考驗。對快取/詮釋資料技術(如 Rucio)的「評估」暗示著最困難的部分還在後頭:智慧資料管理。沒有它,這只是一個附帶了儲存目錄的計算聯邦,而非一個凝聚的、以資料為中心的平台。對於使用者而言,也存在著效能不可預測性的潛在風險,因為他們的工作會在根本不同的架構之間跳躍。

可行建議:

  1. 對 PUNCH 架構師: 加倍努力使 TARDIS 更加穩健且可觀察。其指標與決策記錄對於最佳化與建立信任至關重要。接下來優先整合資料管理層(如 Rucio);沒有智慧資料的計算只是半套解決方案。
  2. 對其他聯盟: 這是一個值得效仿的藍圖,尤其是其「整合而非取代」的理念。然而,請評估您的社群是否擁有類似 CVMFS 的對等物——如果沒有,那將是您的第一個建構/購買決策。
  3. 對資源提供者: 此模式對您而言風險較低。請積極參與。基於權杖的 AAI 是一種在不損害本地安全性的前提下提供存取的簡潔方式。這對於能見度與利用率是淨收益。
本計畫的成功將不是以峰值 FLOPS 來衡量,而是以它如何無形地讓陶滕堡的一位博士生能夠無縫地使用波恩的計算週期和卡爾斯魯厄的資料來衡量。這是一個遠更雄心勃勃——也更有價值——的目標。

8. 未來應用與發展藍圖

PUNCH4NFDI 基礎架構為數個先進應用與研究方向奠定了基礎:

  • 跨領域工作流程: 實現複雜的多步驟分析管線,能在模擬(HPC)、高通量事件處理(HTC)與機器學習訓練(雲端 GPU)之間無縫移動。
  • 以資料為中心的排程: 將儲存聯邦與計算排程器更深層地整合。未來版本的 COBalD/TARDIS 可將資料本地性(最小化廣域網路傳輸)與預先暫存納入其成本函數,朝著資料感知排程邁進。
  • 與 FAIR 資料儲存庫整合: 作為國家 FAIR 資料儲存庫的高效能計算骨幹,讓研究人員能夠遵循「計算到資料」典範,直接在資料儲存處分析大型資料集。
  • AI/ML 即服務: JupyterHub 介面與可擴展後端可以擴展,提供針對特定 AI/ML 框架(PyTorch、TensorFlow)的策展環境以及對 GPU 資源的存取,使物理科學領域的 AI 應用民主化。
  • 擴展至國際資源: 此聯邦模型可以擴展,納入來自歐洲計畫(如歐洲開放科學雲(EOSC)或 LHC 計算網格(WLCG)站點)的資源,創造一個真正泛歐洲的研究基礎架構。

發展藍圖可能包括強化當前原型、擴展整合資源的數量、實施已評估的詮釋資料/快取解決方案,以及為聯盟內公平分享的資源使用開發更複雜的政策與計量機制。

9. 參考文獻

  1. PUNCH4NFDI 聯盟. (2024). PUNCH4NFDI 白皮書. [內部聯盟文件].
  2. Thain, D., Tannenbaum, T., & Livny, M. (2005). Distributed computing in practice: the Condor experience. Concurrency and computation: practice and experience, 17(2-4), 323-356.
  3. Blomer, J., et al. (2011). The CernVM file system. Journal of Physics: Conference Series, 331(5), 052004.
  4. COBalD/TARDIS 文件. (n.d.). 取自 https://tardis.readthedocs.io/
  5. dCache 協作組織. (n.d.). dCache: 一個分散式儲存系統. https://www.dcache.org/
  6. XRootD 協作組織. (n.d.). XRootD: 高效能、可擴展、容錯的資料存取. http://xrootd.org/
  7. Wilkinson, M. D., et al. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific data, 3(1), 1-9.
  8. 歐洲開放科學雲(EOSC). (n.d.). https://eosc-portal.eu/
  9. 全球 LHC 計算網格(WLCG). (n.d.). https://wlcg.web.cern.ch/