Compute4PUNCH و Storage4PUNCH: زیرساخت فدرال برای PUNCH4NFDI

1. مقدمه و مرور کلی

کنسرسیوم PUNCH4NFDI (ذرات، کیهان، هسته‌ها و هادرون‌ها برای زیرساخت ملی داده‌های پژوهشی) که توسط بنیاد پژوهشی آلمان (DFG) تأمین مالی می‌شود، نماینده حدود ۹۰۰۰ دانشمند از جوامع فیزیک ذرات، اخترفیزیک، اخترذرات، هادرون و فیزیک هسته‌ای در آلمان است. مأموریت اصلی آن ایجاد یک پلتفرم علمی داده‌ای فدرال و FAIR (قابل کشف، دسترس‌پذیر، قابلیت همکاری و استفاده مجدد) است. یکی از چالش‌های اصلی مورد توجه، یکپارچه‌سازی بی‌درز و دسترسی یکپارچه به گستره وسیع و ناهمگن منابع محاسباتی (HPC، HTC، ابری) و ذخیره‌سازی است که توسط مؤسسات عضو در سراسر آلمان به صورت غیرنقدی تأمین شده‌اند. این سند به تفصیل مفاهیم Compute4PUNCH و Storage4PUNCH را شرح می‌دهد که برای غلبه بر این موانع یکپارچه‌سازی طراحی شده‌اند.

2. زیرساخت محاسباتی ناهمگن فدرال (Compute4PUNCH)

هدف Compute4PUNCH ایجاد یک سیستم دسته‌ای فدرال سراسری است که دسترسی شفاف به منابع محاسباتی متنوع را فراهم می‌کند، بدون آن‌که تغییرات عمده‌ای بر سیستم‌های عملیاتی موجود که توسط چندین جامعه به اشتراک گذاشته شده‌اند، تحمیل کند.

2.1 معماری هسته و اجزاء

معماری حول یک سیستم دسته‌ای فدرال HTCondor ساخته شده است. فرازمان‌بند فرامنبع COBalD/TARDIS به صورت پویا منابع ناهمگن (خوشه‌های HPC، مزرعه‌های HTC، نمونه‌های ابری) را در این مخزن یکپارچه ادغام می‌کند. نقاط ورود برای کاربران شامل گره‌های ورود سنتی و یک سرویس JupyterHub است که رابط‌های انعطاف‌پذیری به کل منظره منابع ارائه می‌دهد.

2.2 دسترسی و احراز هویت (AAI)

یک زیرساخت احراز هویت و مجوزدهی (AAI) مبتنی بر توکن، دسترسی استاندارد و ایمن در تمام منابع فدرال را فراهم می‌کند که تجربه کاربری را ساده‌تر و امنیت را افزایش می‌دهد.

2.3 تأمین محیط نرم‌افزاری

برای مدیریت نیازهای نرم‌افزاری متنوع، این زیرساخت از فناوری‌های کانتینر (مانند Docker، Singularity/Apptainer) و سیستم فایل ماشین مجازی سرن (CVMFS) بهره می‌برد. CVMFS امکان تحویل مقیاس‌پذیر و توزیع‌شده پشته‌های نرم‌افزاری خاص جامعه و داده‌های آزمایش را فراهم می‌کند که سازگاری را تضمین کرده و بار ذخیره‌سازی محلی روی گره‌های محاسباتی را کاهش می‌دهد.

3. زیرساخت ذخیره‌سازی فدرال (Storage4PUNCH)

Storage4PUNCH بر فدرال کردن سیستم‌های ذخیره‌سازی تأمین‌شده توسط جامعه متمرکز است که عمدتاً بر پایه فناوری‌های dCache و XRootD هستند و در فیزیک انرژی بالا (HEP) به خوبی جا افتاده‌اند.

3.1 فناوری فدراسیون ذخیره‌سازی

این فدراسیون یک فضای نام یکپارچه ایجاد می‌کند که به کاربران اجازه می‌دهد داده‌ها را در چندین سیستم ذخیره‌سازی مؤسسه‌ای به گونه‌ای دسترسی یابند که گویی یک منبع واحد هستند. این امر از پروتکل‌ها و مفاهیمی بهره می‌برد که در همکاری‌های بزرگ‌مقیاس مانند شبکه محاسباتی جهانی LHC (WLCG) اثبات شده‌اند.

3.2 راهبردهای کش و فراداده

این پروژه در حال ارزیابی فناوری‌های موجود برای کش هوشمند داده و مدیریت فراداده است. هدف، یکپارچه‌سازی عمیق‌تر برای بهینه‌سازی قرارگیری داده، کاهش تأخیر و بهبود کشف داده بر اساس اصول FAIR است.

4. پیاده‌سازی فنی و جزئیات

4.1 مدل ریاضی زمان‌بندی منابع

زمان‌بند COBalD/TARDIS را می‌توان به عنوان حل یک مسئله بهینه‌سازی مفهومی کرد. فرض کنید $R = \{r_1, r_2, ..., r_n\}$ مجموعه منابع ناهمگن باشد که هر کدام دارای ویژگی‌هایی مانند معماری، هسته‌های در دسترس، حافظه و هزینه هستند. همچنین $J = \{j_1, j_2, ..., j_m\}$ مجموعه کارها با نیازمندی‌هایشان باشد. هدف زمان‌بند بیشینه‌کردن یک تابع مطلوبیت $U$ (مانند توان عملیاتی کلی، انصاف) با توجه به محدودیت‌هاست:

$$\text{بیشینه کردن } U(\text{تخصیص}(R, J))$$

$$\text{با قید: } \forall r_i \in R, \text{مصرف}(r_i) \leq \text{ظرفیت}(r_i)$$

$$\text{و } \forall j_k \in J, \text{نیازمندی‌ها}(j_k) \subseteq \text{ویژگی‌ها}(\text{منبع تخصیص‌یافته}(j_k))$$

این رویکرد پویا و مبتنی بر سیاست، انعطاف‌پذیرتر از سیستم‌های صف ایستای سنتی است.

4.2 نتایج نمونه اولیه و عملکرد

نمونه‌های اولیه، فدرال کردن منابع مؤسساتی مانند KIT، DESY و دانشگاه بیله‌فلد را با موفقیت نشان داده‌اند. معیارهای کلیدی عملکرد مشاهده‌شده عبارتند از:

تأخیر ارسال کار: سیستم روکش سربار ناچیزی اضافه می‌کند، به طوری که ارسال کار به مخزن مرکزی HTCondor معمولاً زیر ۲ ثانیه است.
میزان بهره‌برداری از منابع: مخزن‌سازی پویای فعال‌شده توسط TARDIS، افزایش بالقوه در بهره‌برداری کلی از منابع را با پر کردن «شکاف‌ها» در زمان‌بندی‌های خوشه‌های فردی نشان داد.
دسترسی به داده از طریق CVMFS: زمان‌های راه‌اندازی نرم‌افزار از CVMFS پس از کش اولیه، قابل مقایسه با نصب‌های محلی بود که استفاده از آن را برای توزیع مقیاس‌پذیر نرم‌افزار تأیید می‌کند.
تجربه کاربری: بازخوردهای اولیه نشان می‌دهد که رابط JupyterHub و AAI مبتنی بر توکن، به طور قابل توجهی مانع ورود برای کاربران ناآشنا با سیستم‌های دسته‌ای خط فرمان را کاهش می‌دهد.

توجه: معیارهای کمی جامع مقایسه‌کننده عملکرد فدرال در مقابل عملکرد مجزا، بخشی از کارهای در حال انجام است.

5. چارچوب تحلیل و مطالعه موردی

مطالعه موردی: تحلیل اخترفیزیک چندپیام‌رسان

یک اخترفیزیکدان ذرات را در نظر بگیرید که در حال تحلیل یک رویداد انفجار پرتو گاما است. گردش کار شامل موارد زیر است:

کشف داده: استفاده از فضای نام ذخیره‌سازی فدرال برای یافتن مجموعه داده‌های مرتبط از آرشیوهای پرتو گاما (Fermi-LAT)، نوری (LSST) و امواج گرانشی (LIGO/Virgo)، که همگی از طریق یک مسیر یکپارچه قابل دسترسی هستند (مانند /punche/data/events/GRB221009A).
ارسال گردش کار: پژوهشگر از پورتال JupyterHub برای نوشتن یک اسکریپت تحلیل چندمرحله‌ای استفاده می‌کند. اسکریپت نیازهای پردازش تصویر شتاب‌یافته توسط GPU (برای داده‌های نوری) و کارهای CPU با حافظه بالا (برای برازش طیفی) را مشخص می‌کند.
اجرای پویا: فدراسیون Compute4PUNCH، از طریق COBalD/TARDIS، به طور خودکار کار GPU را به یک خوشه دانشگاهی با گره‌های V100/A100 در دسترس و کار حافظه‌بالا را به یک مرکز HPC با گره‌های حافظه‌بزرگ هدایت می‌کند، بدون نیاز به مداخله کاربر.
محیط نرم‌افزاری: تمام کارها یک محیط کانتینری سازگار با جعبه ابزارهای خاص اخترشناسی (مانند Astropy، Gammapy) را از CVMFS دریافت می‌کنند.
تجمع نتایج: نتایج میانی به فضای ذخیره‌سازی فدرال بازنویسی می‌شوند و نمودارهای نهایی تولید می‌شوند که همگی در همان نشست احراز هویت‌شده مدیریت می‌شوند.

این مطالعه موردی نشان می‌دهد که چگونه فدراسیون پیچیدگی زیرساختی را انتزاع می‌کند و به دانشمند اجازه می‌دهد بر مسئله علمی متمرکز شود.

6. تحلیل انتقادی و دیدگاه صنعت

بینش هسته‌ای: PUNCH4NFDI در حال ساختن یک ابر یکپارچه دیگر نیست؛ بلکه در حال مهندسی یک لایه فدراسیون است — یک «فرا-سیستم‌عامل» برای زیرساخت پژوهشی توزیع‌شده و مستقل ملی. این پاسخ عملی و قدرتمندی به منظره پراکنده علم الکترونیک اروپا است که اولویت را به یکپارچه‌سازی به جای جایگزینی می‌دهد. این امر فلسفه معماری پشت سیستم‌های بزرگ‌مقیاس موفق مانند Kubernetes برای هماهنگ‌سازی کانتینرها را بازتاب می‌دهد، اما در سطح کل مراکز داده اعمال شده است.

جریان منطقی: منطق آن بی‌عیب است: ۱) ناهمگنی و سرمایه‌گذاری‌های موجود را به عنوان محدودیت‌های تغییرناپذیر بپذیرید. ۲) یک لایه انتزاعی حداقلی و غیرتهاجمی (HTCondor + TARDIS) برای محاسبات و فدراسیون فضای نام برای ذخیره‌سازی معرفی کنید. ۳) از میان‌افزارهای آزموده‌شده و جامعه‌محور (CVMFS، dCache، XRootD) به عنوان بلوک‌های سازنده استفاده کنید تا پایداری را تضمین و از تخصص موجود بهره‌برداری کنید. ۴) نقاط ورود مدرن و کاربر-محور (JupyterHub، AAI توکن) ارائه دهید. این جریان اصطکاک سیاسی و فنی را برای ارائه‌دهندگان منابع به حداقل می‌رساند که برای پذیرش حیاتی است.

نقاط قوت و ضعف: بزرگ‌ترین نقطه قوت پروژه، بازاستفاده عملی آن از فناوری‌های بالغ جامعه HEP است که ریسک توسعه را کاهش می‌دهد. تمرکز بر یک روکش غیرتهاجمی از نظر سیاسی هوشمندانه است. با این حال، این رویکرد دارای بدهی فنی ذاتی است. پیچیدگی اشکال‌زدایی مسائل عملکرد یا شکست در چندین حوزه اداری مستقل، سیاست‌های شبکه متفاوت و زمان‌بندهای لایه‌ای (محلی + فدرال) دشوار خواهد بود — چالشی که به خوبی در ادبیات محاسبات شبکه‌ای مستند شده است. اتکا به HTCondor، اگرچه قوی است، ممکن است برای همه الگوهای بار کاری HPC بهینه نباشد و به طور بالقوه عملکرد را برای کارهای MPI با اتصال تنگ‌محور از دست بدهد. علاوه بر این، اگرچه سند به اصول داده FAIR اشاره می‌کند، اما پیاده‌سازی عینی کاتالوگ‌های فراداده غنی و فراجامعه‌ای — که چالشی عظیم است — به نظر می‌رسد به ارزیابی آتی موکول شده است.

بینش‌های عملی: برای سایر کنسرسیوم‌ها، نکته کلیدی، راهبرد «اولویت روکش» است. قبل از تلاش برای ساخت یا الزام سخت‌افزار مشترک، در چسب نرم‌افزاری سرمایه‌گذاری کنید. پشته PUNCH4NFDI (HTCondor/TARDIS + CVMFS + ذخیره‌سازی فدرال) نمایانگر یک جعبه ابزار متن‌باز قانع‌کننده برای ابتکارات ابر پژوهشی ملی است. با این حال، آن‌ها باید به طور فعال در ابزارهای مشاهده‌پذیری فراحوزه‌ای سرمایه‌گذاری کنند — چیزی شبیه OpenTelemetry برای محاسبات علمی توزیع‌شده — تا پیچیدگی‌ای که ایجاد می‌کنند را مدیریت کنند. آن‌ها همچنین باید مدل‌های زمان‌بندی ترکیبی را بررسی کنند، شاید با ادغام عناصر کار فدراسیون SLURM متمرکز بر HPC یا زمان‌بندهای ابر-بومی برای قابلیت کاربرد گسترده‌تر فراتر از HTC. موفقیت این فدراسیون نه با فلابس اوج، بلکه با کاهش «زمان تا بینش» برای ۹۰۰۰ دانشمندش اندازه‌گیری خواهد شد.

7. کاربردهای آتی و نقشه راه توسعه

زیرساخت PUNCH4NFDI زمینه را برای چندین کاربرد پیشرفته فراهم می‌کند:

آموزش هوش مصنوعی/یادگیری ماشین در مقیاس: مخزن منابع فدرال می‌تواند به صورت پویا خوشه‌هایی از گره‌های GPU را برای آموزش مدل‌های بزرگ روی مجموعه داده‌های علمی توزیع‌شده تأمین کند، که از الگوهای مشابه با آن‌چه توسط معیارهای MLPerf HPC بررسی شده است پیروی می‌کند.
تحلیل تعاملی و بلادرنگ: پشتیبانی پیشرفته برای نشست‌های تعاملی و سرویس‌های متصل به جریان‌های داده بلادرنگ از تلسکوپ‌ها یا آشکارسازهای ذرات، که امکان تحلیل «زنده» داده‌های رصدی را فراهم می‌کند.
یادگیری فدرال برای داده‌های حساس: این زیرساخت می‌تواند برای پشتیبانی از گردش کارهای یادگیری فدرال حفظ‌کننده حریم خصوصی سازگار شود، جایی که مدل‌های هوش مصنوعی در چندین مؤسسه بدون اشتراک‌گذاری داده خام آموزش می‌بینند — فنی که در تصویربرداری پزشکی و سایر زمینه‌ها در حال جذب توجه است.
یکپارچه‌سازی با ابر علم باز اروپا (EOSC): با عمل کردن به عنوان یک گره ملی قدرتمند، فدراسیون PUNCH4NFDI می‌تواند دسترسی بی‌درز به خدمات و منابع EOSC و بالعکس را فراهم کند و تأثیر خود را تقویت کند.
گردش کارهای کوانتومی-ترکیبی: با در دسترس قرار گرفتن بسترهای آزمایشی محاسبات کوانتومی، فدراسیون می‌تواند کارهای پیش‌/پس‌پردازش کلاسیک را در کنار کارهای هم‌پردازنده کوانتومی زمان‌بندی کند و کل گردش کار ترکیبی را مدیریت نماید.

نقشه راه توسعه به احتمال زیاد بر استحکام بخشیدن به سرویس تولید، گسترش مخزن منابع، پیاده‌سازی سیاست‌های پیشرفته مدیریت داده و تعمیق یکپارچه‌سازی بین لایه‌های محاسبات و ذخیره‌سازی متمرکز خواهد بود.

8. مراجع

کنسرسیوم PUNCH4NFDI. (2024). کتاب سفید PUNCH4NFDI. [سند داخلی کنسرسیوم].
Thain, D., Tannenbaum, T., & Livny, M. (2005). Distributed computing in practice: the Condor experience. Concurrency and Computation: Practice and Experience, 17(2-4), 323-356. https://doi.org/10.1002/cpe.938
Blomer, J., et al. (2011). The CernVM File System. Journal of Physics: Conference Series, 331(5), 052004. https://doi.org/10.1088/1742-6596/331/5/052004
Fuhrmann, P., & Gulzow, V. (2006). dCache, the system for the storage of large amounts of data. 22nd IEEE Conference on Mass Storage Systems and Technologies (MSST'05). https://doi.org/10.1109/MSST.2005.47
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV). (به عنوان نمونه‌ای از الگوریتم پیچیده و پرمصرف محاسباتی که تقاضای محاسبات را هدایت می‌کند، ذکر شده است).
MLCommons Association. (2023). MLPerf HPC Benchmark. https://mlcommons.org/benchmarks/hpc/ (به عنوان مرجعی برای بارهای کاری هوش مصنوعی/یادگیری ماشین روی سیستم‌های HPC ذکر شده است).
European Commission. (2024). European Open Science Cloud (EOSC). https://eosc-portal.eu/