Infrastruktur Pengkomputeran dan Penyimpanan Heterogen Terfederasi untuk PUNCH4NFDI

1. Pengenalan

Konsortium PUNCH4NFDI (Particles, Universe, NuClei and Hadrons for the National Research Data Infrastructure), yang dibiayai oleh Yayasan Penyelidikan Jerman (DFG), mewakili kira-kira 9,000 saintis daripada komuniti fizik zarah, astro-, astrozarah, hadron dan nuklear. Tertanam dalam inisiatif NFDI yang lebih luas, matlamat utamanya adalah untuk mewujudkan platform data sains terfederasi dan FAIR (Findable, Accessible, Interoperable, Reusable). Platform ini bertujuan untuk menyediakan akses lancar kepada pelbagai sumber pengkomputeran dan penyimpanan institusi yang terlibat, menangani cabaran biasa yang ditimbulkan oleh jumlah data yang berkembang secara eksponen dan algoritma analisis intensif pengiraan. Dokumen ini memberi tumpuan kepada konsep seni bina—Compute4PUNCH dan Storage4PUNCH—yang direka untuk memfederasikan infrastruktur penyelidikan heterogen Jerman.

2. Infrastruktur Pengkomputeran Heterogen Terfederasi – Compute4PUNCH

Compute4PUNCH menangani cabaran untuk menggunakan secara berkesan pelbagai sumber yang disumbangkan secara in-kind, termasuk sistem Pengkomputeran Berbilang-Tinggi (HTC), Pengkomputeran Berprestasi Tinggi (HPC) dan Awan, yang diagihkan di seluruh Jerman. Sumber-sumber ini berbeza dari segi seni bina, sistem pengendalian, timbunan perisian dan dasar akses. Prinsip reka bentuk teras adalah untuk mencipta sistem lapisan atas bersatu dengan gangguan minimum terhadap pembekal sumber operasi sedia ada.

2.1. Seni Bina Teras & Integrasi

Federasi ini dibina di sekitar HTCondor sebagai sistem kelompok lapisan atas pusat. Sumber heterogen disepadukan secara dinamik menggunakan penjadual meta sumber COBalD/TARDIS. COBalD/TARDIS bertindak sebagai broker pintar, memandu kerja ke backend yang sesuai (contohnya, kelompok Slurm, Kubernetes) berdasarkan ketersediaan sumber, keperluan kerja dan polisi. Ini mewujudkan satu kolam sumber logik daripada sistem fizikal yang berbeza.

2.2. Akses Pengguna & Persekitaran Perisian

Titik masuk pengguna disediakan melalui nod log masuk tradisional dan perkhidmatan JupyterHub. Infrastruktur Pengesahan dan Pemberian Kuasa (AAI) berasaskan token menyelaraskan akses. Kerumitan persekitaran perisian diuruskan melalui teknologi kontena (contohnya, Docker, Singularity/Apptainer) dan Sistem Fail Mesin Maya CERN (CVMFS), yang menyampaikan pengedaran perisian boleh skala, baca-sahaja ke nod pengiraan secara global.

3. Infrastruktur Penyimpanan Terfederasi – Storage4PUNCH

Storage4PUNCH bertujuan untuk memfederasikan sistem penyimpanan yang dibekalkan komuniti, terutamanya berdasarkan teknologi dCache dan XRootD, yang telah mantap dalam Fizik Tenaga Tinggi (HEP). Federasi ini menggunakan ruang nama dan protokol biasa (seperti xrootd, WebDAV) untuk membentangkan lapisan akses data bersatu. Konsep ini juga menilai penyepaduan penyelesaian cache dan perkhidmatan pengendalian metadata untuk meningkatkan lokasi data dan kebolehcarian di seluruh federasi.

4. Pelaksanaan Teknikal & Komponen

4.1. Pengesahan & Pemberian Kuasa (AAI)

AAI berasaskan token (kemungkinan memanfaatkan piawaian OAuth 2.0/OpenID Connect, serupa dengan WLCG IAM atau INDIGO IAM) menyediakan pengalaman log masuk tunggal. Ia memetakan identiti komuniti kepada kebenaran sumber tempatan, mengabstraksi sistem pengesahan tempatan heterogen (contohnya, Kerberos, kunci SSH).

4.2. Penjadualan Meta Sumber: COBalD/TARDIS

COBalD (Penyelaras) dan TARDIS (Sistem Integrasi Dinamik Sumber Adaptif Telus) berfungsi bersama. COBalD membuat keputusan penjadualan peringkat tinggi, manakala TARDIS menguruskan kitaran hayat "pilot" atau "kerja pemegang tempat" pada sumber sasaran. Pengasingan ini membolehkan penguatkuasaan polisi fleksibel (contohnya, kos, keadilan, keutamaan) dan penyesuaian dinamik kepada keadaan sumber yang berubah-ubah. Penjadualan boleh dimodelkan sebagai masalah pengoptimuman, meminimumkan fungsi kos $C_{total} = \sum_{i}(w_i \cdot T_i) + \lambda \cdot R$, di mana $T_i$ ialah masa pusing ganti untuk kerja $i$, $w_i$ ialah berat keutamaannya, $R$ mewakili kos penggunaan sumber, dan $\lambda$ ialah parameter pengimbang.

4.3. Lapisan Data & Perisian

CVMFS adalah kritikal untuk pengedaran perisian. Ia menggunakan model penyimpanan boleh alamat kandungan dan cache agresif (dengan pelayan Stratum 0/1 dan cache Squid tempatan) untuk menyampaikan repositori perisian dengan cekap. Federasi ini kemungkinan menggunakan hierarki strata CVMFS, dengan stratum 0 repositori PUNCH pusat dan cermin stratum 1 institusi. Akses data mengikut model terfederasi yang serupa, dengan elemen penyimpanan (SE) menerbitkan titik akhir mereka ke direktori global (seperti Rucio atau perkhidmatan REST mudah), membolehkan pelanggan menyelesaikan lokasi data secara telus.

5. Status Prototaip & Pengalaman Awal

Dokumen ini menunjukkan bahawa prototaip Compute4PUNCH dan Storage4PUNCH beroperasi. Aplikasi saintifik awal telah dilaksanakan, memberikan maklum balas berharga tentang prestasi, kebolehgunaan dan titik kesakitan integrasi. Walaupun nombor penanda aras khusus tidak disediakan dalam petikan, pelaksanaan yang berjaya membayangkan fungsi asas sistem kelompok lapisan atas, integrasi AAI dan penghantaran perisian melalui CVMFS telah disahkan. Pengalaman ini membimbing penambahbaikan dalam konfigurasi polisi, pengendalian ralat dan dokumentasi pengguna.

6. Wawasan Utama & Analisis Strategik

Wawasan Teras: PUNCH4NFDI tidak membina superkomputer baharu; ia merekabentuk "fabrik federasi" yang secara pragmatik menyambungkan sumber sedia ada yang terpisah. Ini adalah peralihan strategik daripada infrastruktur monolitik kepada pengagregatan sumber tangkas, ditakrifkan perisian, mencerminkan trend dalam awan komersial tetapi disesuaikan untuk kekangan dan budaya akademik yang dibiayai awam.

Aliran Logik: Seni bina mengikut logik jelas, bergantung kebergantungan: 1) Menyatukan Identiti (AAI) untuk menyelesaikan masalah "siapa", 2) Mengabstraksi Sumber (COBalD/TARDIS + HTCondor) untuk menyelesaikan masalah "di mana", dan 3) Mengasingkan Persekitaran (Kontena + CVMFS) untuk menyelesaikan masalah "dengan apa". Pengabstraksian berlapis ini adalah kejuruteraan sistem buku teks, mengingatkan kejayaan Grid Pengkomputeran LHC Sedunia (WLCG), tetapi digunakan pada set sumber yang lebih pelbagai.

Kekuatan & Kelemahan: Kekuatan utama ialah model penerimaan tidak mengganggu. Dengan menggunakan teknologi lapisan atas dan menghormati autonomi tapak, ia menurunkan halangan untuk pembekal sumber—faktor kejayaan penting untuk konsortium. Walau bagaimanapun, ini juga tumit Achillesnya. Overhed prestasi penjadualan meta dan kerumitan penyahpepijatan merentasi sistem heterogen, ditadbir secara bebas boleh menjadi ketara. Mandat "gangguan minimum" mungkin menghadkan keupayaan untuk melaksanakan ciri lanjutan seperti gandingan penyimpanan-pengiraan mendalam atau peruntukan rangkaian dinamik, berpotensi mengehadkan keuntungan kecekapan. Berbanding sistem berpusat, dibina khas seperti Borg Google atau kelompok Kubernetes, federasi akan sentiasa mempunyai kependaman lebih tinggi dan kebolehramalan penggunaan lebih rendah.

Wawasan Boleh Tindak: Untuk konsortium lain yang mempertimbangkan laluan ini: 1) Melabur banyak dalam pemantauan dan kebolehcerapan dari hari pertama. Alat seperti Grafana/Prometheus untuk infrastruktur dan APM (Pemantauan Prestasi Aplikasi) untuk kerja pengguna adalah tidak boleh dirunding untuk mengurus kerumitan. 2) Menyelaraskan pada set sempit imej asas kontena untuk mengurangkan beban penyelenggaraan CVMFS. 3) Membangunkan model sokongan berperingkat jelas yang membezakan isu peringkat federasi daripada masalah tapak tempatan. Ujian sebenar bukanlah kebolehlaksanaan teknikal—komuniti HEP telah membuktikannya—tetapi kemampanan operasi dan kepuasan pengguna pada skala.

7. Selami Teknikal

Model Matematik untuk Penjadualan Sumber: Sistem COBalD/TARDIS boleh dikonsepsikan sebagai menyelesaikan masalah pengoptimuman terkekang. Biarkan $J$ menjadi set kerja, $R$ menjadi set sumber, dan $S$ menjadi set keadaan sumber (contohnya, terbiar, sibuk, dikeringkan). Penjadual bertujuan untuk memaksimumkan fungsi utiliti $U$ yang mempertimbangkan keutamaan kerja $p_j$, kecekapan sumber $e_{j,r}$, dan kos $c_r$: $$\max \sum_{j \in J} \sum_{r \in R} x_{j,r} \cdot U(p_j, e_{j,r}, c_r)$$ tertakluk kepada kekangan: $$\sum_{j} x_{j,r} \leq C_r \quad \forall r \in R \quad \text{(Kapasiti Sumber)}$$ $$\sum_{r} x_{j,r} \leq 1 \quad \forall j \in J \quad \text{(Penugasan Kerja)}$$ $$x_{j,r} \in \{0,1\} \quad \text{(Pembolehubah Keputusan Binari)}$$ di mana $x_{j,r}=1$ jika kerja $j$ ditugaskan kepada sumber $r$. TARDIS menguruskan kebolehlaksanaan tugasan secara dinamik berdasarkan keadaan masa nyata $S$.

Keputusan Eksperimen & Penerangan Gambarajah: Walaupun petikan PDF yang disediakan tidak mengandungi graf prestasi khusus, penilaian tipikal akan termasuk gambarajah membandingkan:
1. Pemprosesan Kerja Sepanjang Masa: Carta garis menunjukkan bilangan kerja disiapkan setiap jam merentasi kolam terfederasi berbanding kelompok sumber individu, menunjukkan faedah pengagregatan.
2. Peta Haba Penggunaan Sumber: Visualisasi grid menunjukkan peratusan CPU/GPU digunakan merentasi pembekal sumber berbeza (KIT, DESY, Bielefeld, dll.) sepanjang seminggu, menyerlahkan keberkesanan pengimbangan beban.
3. CDF Kependaman Permulaan Kerja: Plot Fungsi Tabungan Kumulatif membandingkan masa dari penyerahan kerja ke permulaan pelaksanaan dalam sistem terfederasi berbanding penyerahan langsung ke sistem kelompok tempatan, mendedahkan overhed penjadualan meta.
4. Prestasi Akses Data: Carta bar membandingkan kelajuan baca/tulis untuk data diakses secara tempatan, daripada elemen penyimpanan terfederasi dalam rantau sama, dan daripada elemen terfederasi jauh, menggambarkan kesan cache dan rangkaian.

8. Kerangka Analisis & Model Konseptual

Kajian Kes: Analisis Terfederasi Data Tinjauan Astronomi
Skenario: Kumpulan penyelidikan di Thüringer Landessternwarte Tautenburg perlu memproses 1 PB data pengimejan dari Sloan Digital Sky Survey (SDSS) untuk mengenal pasti kelompok galaksi, tugas intensif pengiraan memerlukan ~100,000 jam-CPU.
Proses melalui Compute4PUNCH/Storage4PUNCH:
1. Pengesahan: Penyelidik log masuk ke PUNCH JupyterHub menggunakan kelayakan institusi mereka (melalui AAI berasaskan token).
2. Persekitaran Perisian: Kernel buku catatan Jupyter mereka berjalan dari imej kontena yang dihoskan pada CVMFS, mengandungi semua pakej astronomi perlu (Astropy, SExtractor, dll.).
3. Definisi & Penyerahan Kerja: Mereka mentakrifkan kerja sapuan parameter dalam buku catatan. Buku catatan menggunakan pustaka klien PUNCH untuk menyerahkan ini sebagai DAG HTCondor (Grafik Asiklik Terarah) ke kolam terfederasi.
4. Pemadanan Sumber & Pelaksanaan: COBalD/TARDIS menilai keperluan kerja (CPU, ingatan, mungkin GPU) dan memandunya ke slot tersedia merentasi, contohnya, kolam HTC di KIT, barisan HPC di Universiti Bielefeld dan nod awan di DESY. Kerja membaca data input melalui ruang nama XRootD terfederasi dari lokasi penyimpanan terdekat, mungkin memanfaatkan cache.
5. Pengagregatan Keputusan: Fail output ditulis kembali ke penyimpanan terfederasi. Penyelidik memantau kemajuan melalui papan pemuka web bersatu dan akhirnya mengagregatkan keputusan dalam buku catatan mereka untuk analisis.
Kajian kes ini menunjukkan integrasi lancar identiti, pengiraan, penyimpanan dan pengurusan perisian.

9. Aplikasi Masa Depan & Peta Hala Tuju Pembangunan

Infrastruktur PUNCH4NFDI meletakkan asas untuk beberapa aplikasi lanjutan:
1. Latihan Pembelajaran Mesin Terfederasi: Kolam sumber heterogen, termasuk kelompok GPU berpotensi, boleh menyokong rangka kerja latihan ML teragih seperti PyTorch atau TensorFlow merentasi sempadan institusi, menangani keperluan latihan memelihara privasi di mana data tidak boleh dipusatkan.
2. Analisis & Visualisasi Interaktif: Meningkatkan perkhidmatan JupyterHub dengan alat visualisasi interaktif dikuasakan backend boleh skala (contohnya, widget Jupyter disambungkan ke kelompok Dask pada federasi) untuk penerokaan set data besar.
3. Integrasi dengan Pusat Awan & HPC Luaran: Memperluas model federasi untuk menggabungkan kredit awan komersial (contohnya, AWS, GCP) atau pusat superkomputer nasional (contohnya, JUWELS di JSC) melalui lapisan pengebilan/perakaunan biasa, mencipta awan hibrid sebenar untuk sains.
4. Integrasi Metadata dan Tasik Data: Bergerak melebihi federasi fail mudah ke seni bina tasik data bersepadu, di mana lapisan penyimpanan digandingkan dengan katalog metadata bersatu (contohnya, berdasarkan Rucio atau iRODS), membolehkan penemuan data dan penjejakan asal-usul merentasi komuniti.
5. Aliran Kerja-sebagai-Perkhidmatan: Menawarkan perkhidmatan platform peringkat lebih tinggi seperti REANA (Platform Analisis Boleh Hasil Semula) atau Apache Airflow di atas infrastruktur terfederasi, membolehkan saintis mentakrif dan melaksanakan saluran analisis kompleks, boleh hasil semula tanpa mengurus infrastruktur asas.

Peta hala tuju pembangunan kemungkinan memberi tumpuan kepada mengukuhkan perkhidmatan pengeluaran, memperluas kolam sumber, menyepadukan alat pengurusan data lebih canggih dan membangunkan API dan SDK mesra pengguna untuk menurunkan halangan penerimaan untuk pengguna bukan pakar.

10. Rujukan

Konsortium PUNCH4NFDI. (2024). Kertas Putih PUNCH4NFDI. [Dokumen Konsortium Dalaman].
Thain, D., Tannenbaum, T., & Livny, M. (2005). Pengkomputeran teragih dalam amalan: pengalaman Condor. Concurrency - Practice and Experience, 17(2-4), 323-356. https://doi.org/10.1002/cpe.938
Blomer, J., et al. (2011). Pengedaran perisian dalam sistem fail CernVM dengan Parrot. Journal of Physics: Conference Series, 331(4), 042009. https://doi.org/10.1088/1742-6596/331/4/042009
Giffels, M., et al. (2022). COBalD dan TARDIS – Lapisan sumber dinamik untuk pengkomputeran oportunistik. EPJ Web of Conferences, 251, 02009. https://doi.org/10.1051/epjconf/202225102009
Kolaborasi dCache. (2023). dCache: Sistem cache data penyimpanan teragih. Diperoleh daripada https://www.dcache.org/
Kolaborasi XRootD. (2023). XRootD: Akses data prestasi tinggi, boleh skala toleran ralat. Diperoleh daripada http://xrootd.org/
Wilkinson, M. D., et al. (2016). Prinsip Panduan FAIR untuk pengurusan dan penjagaan data saintifik. Scientific Data, 3, 160018. https://doi.org/10.1038/sdata.2016.18
Verma, A., et al. (2015). Pengurusan kelompok berskala besar di Google dengan Borg. Proceedings of the Tenth European Conference on Computer Systems (EuroSys '15). https://doi.org/10.1145/2741948.2741964