选择语言

面向PUNCH4NFDI的联邦异构计算与存储基础设施

分析Compute4PUNCH与Storage4PUNCH概念,旨在整合德国各研究机构多样化的高性能计算、高吞吐量计算及存储资源。
computingpowertoken.net | PDF Size: 0.5 MB
评分: 4.5/5
您的评分
您已经为此文档评过分
PDF文档封面 - 面向PUNCH4NFDI的联邦异构计算与存储基础设施

1. 引言

面向国家研究数据基础设施的粒子、宇宙、原子核与强子研究联盟(PUNCH4NFDI)是由德国科学基金会(DFG)资助的一个主要德国联盟。它代表了来自粒子物理、天体物理、天体粒子物理、强子物理和核物理领域的大约9000名科学家。该联盟的主要目标是建立一个联邦化且符合FAIR(可发现、可访问、可互操作、可重用)原则的科学数据平台。其解决的一个核心挑战是,将德国各成员机构以“实物”形式贡献的高度异构的计算(高性能计算、高吞吐量计算、云计算)和存储资源进行联邦化整合,为研究人员提供无缝、统一的访问。

2. 联邦异构计算基础设施 – Compute4PUNCH

Compute4PUNCH概念旨在透明地访问多样化的计算资源池,而无需对提供方站点现有运行中的系统进行重大更改。

2.1. 核心架构与技术

该联邦建立在基于HTCondor的覆盖层批处理系统之上。其关键创新在于使用了COBalD/TARDIS资源元调度器。TARDIS充当动态代理,将HTCondor作业需求转换为特定于提供方的API(例如SLURM、Kubernetes),并管理远程资源上“引导”作业或容器的生命周期。这创建了一个虚拟的、联邦化的资源池。

访问通过基于令牌的身份验证与授权基础设施(AAI)进行保护,为所有连接的资源提供标准化的凭据。

2.2. 用户访问与软件环境

用户通过熟悉的入口点与系统交互:

  • 传统登录节点用于命令行访问。
  • 集中式JupyterHub服务用于基于Web的交互式计算。
软件环境的可移植性通过使用容器技术(例如Docker、Singularity/Apptainer)欧洲核子研究中心虚拟机文件系统(CVMFS)来解决,后者通过缓存高效地提供软件栈。

3. 联邦存储基础设施 – Storage4PUNCH

Storage4PUNCH专注于联邦化社区存储系统,这些系统主要基于高能物理(HEP)领域的标准技术dCacheXRootD。该联邦旨在提供统一的命名空间和访问协议。该概念通过以下方式评估更深层次的集成:

  • 存储联邦协议(例如基于XRootD的重定向器联邦或dCache的池管理器)。
  • 缓存层以减少延迟和广域网流量。
  • 元数据处理以改善联邦内的数据可发现性。
这创建了一个可与联邦计算资源一同访问的数据湖。

4. 技术细节与数学框架

核心调度逻辑可以建模为一个优化问题。令 $R = \{r_1, r_2, ..., r_n\}$ 为异构资源集合,每个资源具有架构、可用核心数 $c_i$、内存 $m_i$ 和成本/优先级因子 $p_i$ 等属性。一个作业 $J$ 具有需求 $J_{req} = (c_{req}, m_{req}, arch_{req}, t_{req})$。元调度器的目标是最大化整体效用或吞吐量。

将作业 $J$ 放置在资源 $r_i$ 上的简化评分函数可以是: $$ S(J, r_i) = \begin{cases} 0 & \text{如果 } r_i \text{ 不匹配 } J_{req} \\ \alpha \cdot \frac{c_i}{c_{req}} + \beta \cdot \frac{m_i}{m_{req}} - \gamma \cdot p_i & \text{否则} \end{cases} $$ 其中 $\alpha, \beta, \gamma$ 是加权系数。COBalD/TARDIS系统实现了启发式方法和实时反馈循环,以动态地近似这种优化,适应资源可用性和作业队列状态。

5. 原型结果与性能

图表描述(概念性): 一张折线图,显示“随时间可访问的聚合计算能力”。X轴是时间(月)。显示两条线:1)“独立资源池(未连接)”——平坦、交错的线,代表各个站点的静态容量。2)“通过Compute4PUNCH的联邦池”——一条更高、更具动态性的线,随着更多站点集成而增加,并显示较小的波动,展示了跨联邦的负载均衡。该图表说明了关键结果:与孤立部分的总和相比,联邦系统为用户提供了更大、更具弹性且利用效率更高的虚拟资源池。

初始原型成功演示了从单一入口点(JupyterHub)向多个后端HTCondor池和高性能计算集群(例如在KIT、DESY)提交作业。通过CVMFS利用容器化环境的作业在不同架构上透明地执行。早期指标表明,通过利用联邦内未充分利用的计算周期,减少了用户的作业等待时间,尽管站点间的数据传输延迟对于数据密集型工作负载仍然是一个关键因素。

6. 分析框架:一个概念性案例研究

场景: 一项多信使天体物理分析,关联来自中微子望远镜(IceCube)和伽马射线天文台(CTA)的数据。

无联邦情况下的工作流: 研究人员必须: 1. 分别为模拟(在高性能计算集群上)和事件处理(在高吞吐量计算集群上)申请单独的计算配额。 2. 在不同机构的存储系统之间手动传输大型数据集(TB级)。 3. 管理不同的软件环境和身份验证方法。

使用Compute4PUNCH/Storage4PUNCH的工作流: 1. 研究人员使用单一令牌登录PUNCH JupyterHub。 2. 定义分析工作流(例如使用Snakemake或类似工具)。模拟任务(适合高性能计算)通过TARDIS自动路由到合适的高性能计算资源。高吞吐量事件处理任务则发送至高吞吐量计算集群。 3. 工作流通过联邦存储命名空间引用数据(例如 `punch://data/icecube/run_xyz.root`)。底层的XRootD/dCache联邦处理数据定位和传输。 4. 所有作业从CVMFS拉取一致的软件环境。此案例研究展示了变革性潜力:研究人员专注于科学研究,而非基础设施的繁琐管理。

7. 未来应用与发展路线图

PUNCH4NFDI基础设施为多项高级应用奠定了基础:

  • 联邦机器学习训练: 利用跨站点的异构GPU进行大规模模型训练,可能使用PyTorch或TensorFlow等框架,并采用适配HTCondor/TARDIS后端的联邦学习算法。
  • 动态、策略驱动的工作负载放置: 集成碳感知调度,将作业路由到可再生能源可用性高的站点,类似于绿色算法倡议所探索的概念。
  • 跨联盟联邦: 作为与其他NFDI联盟或欧洲倡议(如欧洲开放科学云EOSC)连接的蓝图,创建泛欧洲研究基础设施。
  • 智能数据缓存与预取: 利用工作流溯源和预测分析,在计算站点主动缓存数据集,以缓解广域网延迟,这也是IRIS-HEP等项目的核心挑战。
路线图包括强化生产服务、扩展资源池、集成更复杂的数据管理服务以及开发更高级的工作流编排工具。

8. 分析师视角:核心洞察、逻辑脉络、优势与不足、可行建议

核心洞察: PUNCH4NFDI并非在建造一台新的超级计算机;它是在构建一个虚拟化与编排层,将德国碎片化、割裂的研究计算格局转变为一个连贯的、以用户为中心的公共设施。这是一个经典的“联邦优先于替代”策略,优先考虑采用和渐进式改进,而非革命性变革——考虑到公共资助机构的政策和运营现实,这是一个务实而明智的举措。

逻辑脉络: 逻辑是合理的:1)承认异构性和所有权(资源仍归机构所有)。2)施加最少的新要求(使用令牌、容器)。3)插入一个智能、自适应的中间件层(COBalD/TARDIS)以抽象复杂性。4)提供简单、现代的用户界面(JupyterHub)。5)类似地联邦化数据以完成闭环。这是一个自下而上的集成范本,其他联盟应加以研究。

优势与不足: 优势: 使用来自高能物理社区久经考验的组件(HTCondor、dCache、CVMFS)极大地降低了技术风险。专注于AAI和容器解决了两个最大的采用障碍:访问和软件。选择COBalD/TARDIS颇具启发性——它是一个轻量级、基于Python的调度器,专为这种混合云、机会主义场景而设计。 关键不足: 一个不容忽视的问题是数据流动性。联邦化计算比联邦化存储更容易。论文提到了缓存和元数据评估,但对于一致的全局命名空间性能、广域网数据传输成本以及跨站点数据策略执行等难题,仅仅点到为止。如果没有一个稳健的解决方案,联邦计算池在处理数据密集型工作负载时将受到严重制约。此外,其成功完全依赖于成员持续的“实物”贡献——这可能是一个脆弱的经济模型。

可行建议: 1. 对PUNCH4NFDI而言: 加倍投入数据层。积极与Rucio(用于数据管理)和开放科学网格(用于运营经验)等项目合作。与资源提供方制定明确的服务水平协议,特别是关于数据出口成本。 2. 对竞争者/模仿者而言: 不要仅仅复制架构。真正的经验在于治理和轻量级集成模式。从几个愿意参与的站点上的可行原型开始,有机地发展。 3. 对供应商和资助机构而言: 此模型表明,未来的研究计算投资应资助集成中间件和软件可持续性(如COBalD),其重要性不亚于甚至超过原始硬件。资助“粘合剂”。

总之,PUNCH4NFDI的方法是务实网络基础设施工程的典范。它认识到科学计算的最大瓶颈往往不是浮点运算能力,而是可用性和访问性。如果他们能够攻克联邦数据这个难题,他们将创建一个真正有潜力重塑不仅是德国,而且是整个欧洲研究计算格局的模型。

9. 参考文献

  1. PUNCH4NFDI联盟. (2024). PUNCH4NFDI白皮书. NFDI.
  2. Thain, D., Tannenbaum, T., & Livny, M. (2005). 分布式计算实践:Condor经验. Concurrency and Computation: Practice and Experience, 17(2-4), 323-356.
  3. Giffels, M., 等. (2023). COBalD/TARDIS - 用于机会主义计算的动态资源覆盖层. Journal of Physics: Conference Series.
  4. Blomer, J., 等. (2011). CernVM文件系统. Journal of Physics: Conference Series, 331(5), 052004.
  5. Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). 使用循环一致性对抗网络进行非配对图像到图像翻译. Proceedings of the IEEE International Conference on Computer Vision (ICCV). (作为可借助此类联邦基础设施的变革性计算方法的示例引用)。
  6. dCache协作组. (2023). dCache:一个分布式存储系统. https://www.dcache.org.
  7. XRootD协作组. (2023). XRootD:高性能、可扩展、容错的数据访问. https://xrootd.slac.stanford.edu.
  8. 欧洲开放科学云(EOSC). (2024). https://eosc-portal.eu.