PUNCH4NFDIのための連合型異種計算・ストレージインフラストラクチャ

1. はじめに

Particles, Universe, NuClei and Hadrons for the National Research Data Infrastructure (PUNCH4NFDI) は、DFG（ドイツ研究振興協会）によって資金提供されているドイツの主要なコンソーシアムです。素粒子物理学、天文学、宇宙線物理学、ハドロン物理学、原子核物理学コミュニティから約9,000人の科学者を代表しています。コンソーシアムの主な目標は、連合型でFAIR（検索可能、アクセス可能、相互運用可能、再利用可能）な科学データプラットフォームを確立することです。取り組む中心的な課題は、ドイツ国内の加盟機関が「現物提供」する高度に異種な計算（HPC、HTC、クラウド）およびストレージリソースを連合化し、研究者にシームレスで統一されたアクセスを可能にすることです。

2. 連合型異種計算インフラストラクチャ – Compute4PUNCH

Compute4PUNCHコンセプトは、提供拠点の既存の運用システムに大きな変更を強いることなく、多様な計算リソースプールへの透過的なアクセスを提供するように設計されています。

2.1. コアアーキテクチャと技術

連合はHTCondorベースのオーバーレイバッチシステム上に構築されています。重要な革新は、COBalD/TARDISリソースメタスケジューラの使用です。TARDISは動的ブローカーとして機能し、HTCondorジョブの要件をプロバイダー固有のAPI（例：SLURM、Kubernetes）に変換し、リモートリソース上の「パイロット」ジョブまたはコンテナのライフサイクルを管理します。これにより、仮想的な連合リソースプールが形成されます。

アクセスはトークンベースの認証・認可インフラストラクチャ（AAI）によって保護され、接続されたすべてのリソースに対して標準化された資格情報を提供します。

2.2. ユーザーアクセスとソフトウェア環境

ユーザーは、以下のような慣れ親しんだエントリーポイントを通じてシステムと対話します：

コマンドラインアクセスのための従来型ログインノード。
ウェブベースの対話型計算のための集中型JupyterHubサービス。

ソフトウェア環境の移植性は、コンテナ技術（例：Docker、Singularity/Apptainer）と、キャッシュを介してソフトウェアスタックを効率的に配信するCERN Virtual Machine File System (CVMFS)を使用して解決されます。

3. 連合型ストレージインフラストラクチャ – Storage4PUNCH

Storage4PUNCHは、主に高エネルギー物理学（HEP）における標準技術であるdCacheとXRootDに基づくコミュニティストレージシステムの連合化に焦点を当てています。この連合は、統一された名前空間とアクセスプロトコルを提供することを目指しています。このコンセプトは、以下の方法によるより深い統合を評価します：

ストレージ連合プロトコル（例：XRootDのリダイレクタ連合またはdCacheのプールマネージャに基づくもの）。
遅延とWANトラフィックを削減するためのキャッシング層。
連合全体でのデータ発見性を向上させるためのメタデータ処理。

これにより、連合計算リソースと共にアクセス可能なデータレイクが形成されます。

4. 技術詳細と数学的フレームワーク

コアスケジューリングロジックは最適化問題としてモデル化できます。$R = \{r_1, r_2, ..., r_n\}$を異種リソースの集合とし、各リソースはアーキテクチャ、利用可能コア数$c_i$、メモリ$m_i$、コスト/優先度係数$p_i$などの属性を持ちます。ジョブ$J$は要件$J_{req} = (c_{req}, m_{req}, arch_{req}, t_{req})$を持ちます。メタスケジューラの目的は、全体の効用またはスループットを最大化することです。

ジョブ$J$をリソース$r_i$に配置するための簡略化されたスコアリング関数は以下のようになります： $$ S(J, r_i) = \begin{cases} 0 & \text{if } r_i \text{ does not match } J_{req} \\ \alpha \cdot \frac{c_i}{c_{req}} + \beta \cdot \frac{m_i}{m_{req}} - \gamma \cdot p_i & \text{otherwise} \end{cases} $$ ここで、$\alpha, \beta, \gamma$は重み係数です。COBalD/TARDISシステムは、このような最適化を動的に近似するためのヒューリスティクスとリアルタイムフィードバックループを実装し、リソース可用性とジョブキューの状態に適応します。

5. プロトタイプ結果と性能

チャート説明（概念的）：「時間経過に伴う利用可能な総合計算容量」を示す折れ線グラフ。x軸は時間（月）。2本の線が示されています：1)「個別リソースプール（非接続）」 – 各サイトの静的な容量を表す平坦で段階的な線。2)「Compute4PUNCH経由の連合プール」 – より多くのサイトが統合されるにつれて増加し、より小さな変動を示す、より高く動的な線。連合全体での負荷分散を示しています。このチャートは、連合システムが、分離された部分の合計よりも大きく、より回復力があり、より効率的に利用される仮想リソースプールをユーザーに提供するという重要な結果を示しています。

初期プロトタイプは、単一のエントリーポイント（JupyterHub）から複数のバックエンドHTCondorプールおよびHPCクラスタ（例：KIT、DESY）へのジョブ投入を成功裏に実証しました。CVMFSを介したコンテナ化環境を利用するジョブは、異なるアーキテクチャ上で透過的に実行されました。初期の指標は、連合全体での未使用サイクルを活用することでユーザーのジョブ待ち時間が短縮されることを示していますが、データ集約型ワークロードにとっては、サイト間データ転送の遅延が依然として重要な要因です。

6. 分析フレームワーク：概念的なケーススタディ

シナリオ： ニュートリノ望遠鏡（IceCube）とガンマ線観測所（CTA）からのデータを相関させるマルチメッセンジャー天文学分析。

連合なしのワークフロー： 研究者は以下を行う必要があります： 1. シミュレーション用のHPCクラスタとイベント処理用のHTCファームで、別々の計算割り当てを申請する。 2. 異なる研究所のストレージシステム間で大規模データセット（TBスケール）を手動で転送する。 3. 異なるソフトウェア環境と認証方法を管理する。

Compute4PUNCH/Storage4PUNCHによるワークフロー： 1. 研究者は単一のトークンでPUNCH JupyterHubにログインする。 2. 分析ワークフローを定義する（例：Snakemakeなどを使用）。シミュレーションタスク（HPC向け）はTARDISを介して自動的に適切なHPCリソースにルーティングされる。高スループットイベント処理タスクはHTCファームに送られる。 3. ワークフローは連合ストレージ名前空間を介してデータを参照する（例：`punch://data/icecube/run_xyz.root`）。基盤となるXRootD/dCache連合が場所と転送を処理する。 4. すべてのジョブはCVMFSから一貫したソフトウェア環境を取得する。このケーススタディは、研究者がインフラストラクチャのロジスティクスではなく科学に集中できるという変革的な可能性を示しています。

7. 将来の応用と開発ロードマップ

PUNCH4NFDIインフラストラクチャは、以下のようないくつかの高度な応用の基盤を築きます：

連合機械学習トレーニング： サイト間の異種GPUを活用した大規模モデルトレーニング。HTCondor/TARDISバックエンドに適応させた連合学習アルゴリズムを備えたPyTorchやTensorFlowなどのフレームワークを使用する可能性があります。
動的、ポリシー駆動型ワークロード配置： ジョブを再生可能エネルギー利用可能性の高いサイトにルーティングするカーボン認識スケジューリングの統合。Green Algorithmsイニシアチブで検討されている概念と類似しています。
コンソーシアム間連合： 他のNFDIコンソーシアムやEuropean Open Science Cloud（EOSC）などの欧州イニシアチブとの接続のための青写真として機能し、汎欧州研究インフラストラクチャを創出します。
インテリジェントデータキャッシングとプリフェッチ： ワークフローのプロベナンスと予測分析を使用して、計算サイトにデータセットを積極的にキャッシュし、WAN遅延を緩和します。これはIRIS-HEPのようなプロジェクトでも中心的な課題です。

ロードマップには、本番サービスの強化、リソースプールの拡大、より洗練されたデータ管理サービスの統合、および高レベルのワークフローオーケストレーションツールの開発が含まれます。

8. アナリストの視点：核心的洞察、論理的流れ、強みと欠点、実践的示唆

核心的洞察： PUNCH4NFDIは新しいスーパーコンピュータを構築しているのではありません。ドイツの断片化され、分断された研究計算環境を、結束力がありユーザー中心のユーティリティに変える仮想化とオーケストレーション層を構築しています。これは典型的な「置き換えよりも連合」戦略であり、革命的な変化よりも採用と漸進主義を優先しています。公的資金による機関の政治的・運営的現実を考えると、実用的に優れた動きです。

論理的流れ： 論理は健全です：1) 異種性と所有権を認識する（リソースは研究所に残る）。2) 最小限の新要件を課す（トークン、コンテナを使用）。3) 複雑さを抽象化するスマートで適応的なミドルウェア層（COBalD/TARDIS）を挿入する。4) シンプルでモダンなユーザーインターフェース（JupyterHub）を提供する。5) 同様にデータを連合化してループを完成させる。これは他のコンソーシアムが研究すべき、ボトムアップ統合の手引書です。

強みと欠点： 強み： HEPコミュニティからの実戦で鍛えられたコンポーネント（HTCondor、dCache、CVMFS）の使用は、技術的リスクを大幅に低減します。AAIとコンテナへの焦点は、アクセスとソフトウェアという2つの最大の採用障壁に取り組んでいます。COBalD/TARDISの選択は示唆に富んでいます。これは、まさにこのハイブリッドクラウド、オポチュニスティックなシナリオのために設計された軽量なPythonベースのスケジューラです。 重大な欠点： 明白な問題はデータの移動性です。計算の連合化はストレージの連合化よりも容易です。論文ではキャッシングとメタデータ評価に言及していますが、一貫したグローバル名前空間の性能、WANデータ転送コスト、クロスサイトデータポリシーの強制といった困難な問題については、単に言及されているだけです。ここで堅牢な解決策がなければ、データ集約型ワークロードに対して連合計算プールは機能不全に陥るでしょう。さらに、成功は加盟機関からの持続的な「現物提供」に完全に依存しており、潜在的に脆弱な経済モデルです。

実践的示唆： 1. PUNCH4NFDIに対して： データ層に注力する。データ管理のためのRucioや、運用経験のためのOpen Science Gridなどのプロジェクトと積極的に提携する。特にデータエグレスコストに関して、リソースプロバイダーとの明確なSLAを策定する。 2. 競合他社/模倣者に対して： 単にアーキテクチャをコピーしないでください。真の教訓はガバナンスと軽量統合モデルにあります。いくつかの協力的なサイトで動作するプロトタイプから始め、有機的に成長させてください。 3. ベンダーと資金提供機関に対して： このモデルは、将来の研究計算投資が、生のハードウェアと同じくらい、あるいはそれ以上に、統合ミドルウェアとソフトウェア持続可能性（COBalDなど）に資金を提供すべきであることを示しています。「接着剤」に資金を提供してください。

結論として、PUNCH4NFDIのアプローチは、実用的なサイバーインフラストラクチャ工学の模範です。科学計算における最大のボトルネックは、しばしばFLOPSではなく、使いやすさとアクセスであることを認識しています。もし彼らが連合データの難題を解決できれば、ドイツだけでなく欧州の研究計算を再形成する真の可能性を持つモデルを創出することになるでしょう。

9. 参考文献

PUNCH4NFDI Consortium. (2024). PUNCH4NFDI White Paper. NFDI.
Thain, D., Tannenbaum, T., & Livny, M. (2005). Distributed computing in practice: the Condor experience. Concurrency and Computation: Practice and Experience, 17(2-4), 323-356.
Giffels, M., et al. (2023). COBalD/TARDIS - A dynamic resource overlay for opportunistic computing. Journal of Physics: Conference Series.
Blomer, J., et al. (2011). The CernVM File System. Journal of Physics: Conference Series, 331(5), 052004.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV). (このような連合インフラストラクチャを活用できる変革的計算方法論の例として引用)。
dCache Collaboration. (2023). dCache: A distributed storage system. https://www.dcache.org.
XRootD Collaboration. (2023). XRootD: High performance, scalable fault tolerant access to data. https://xrootd.slac.stanford.edu.
European Open Science Cloud (EOSC). (2024). https://eosc-portal.eu.