1. مقدمه
PUNCH4NFDI (ذرات، کیهان، هستهها و هادرونها برای زیرساخت ملی دادههای پژوهشی) یک کنسرسیوم بزرگ آلمانی است که توسط DFG (بنیاد پژوهشی آلمان) تأمین مالی میشود. این کنسرسیوم تقریباً ۹۰۰۰ دانشمند از جوامع فیزیک ذرات، اخترفیزیک، اخترذرات، هادرون و فیزیک هستهای را نمایندگی میکند. هدف اصلی کنسرسیوم ایجاد یک پلتفرم علمی فدرال دادههای FAIR (قابل کشف، قابل دسترسی، قابلیت همکاری، قابل استفاده مجدد) است. این سند به طور خاص به تشریح مفاهیم معماری — Compute4PUNCH و Storage4PUNCH — میپردازد که برای یکپارچهسازی دسترسی به منابع محاسباتی (HPC، HTC، ابری) و ذخیرهسازی بسیار ناهمگن که توسط مؤسسات عضو در سراسر آلمان به صورت غیرنقدی تأمین شدهاند، طراحی شدهاند.
2. زیرساخت فدرال محاسبات ناهمگن – Compute4PUNCH
ابتکار Compute4PUNCH به چالش ارائه دسترسی یکپارچه به مجموعهای متنوع از منابع محاسباتی موجود بدون تحمیل تغییرات عمده بر مدلهای عملیاتی ارائهدهندگان منابع میپردازد.
2.1. معماری هسته و فناوریها
این فدراسیون بر اساس یک سیستم دستهای لایهای مبتنی بر HTCondor ساخته شده است. نوآوری کلیدی استفاده از زمانبند فرامنبع COBalD/TARDIS است. TARDIS به عنوان یک کارگزار پویا عمل میکند و درخواستهای انتزاعی منابع از استخر HTCondor را به اقدامات تأمین مشخص در سیستمهای پشتیبان (مانند ایجاد ماشینهای مجازی روی OpenStack، ارسال کارها به Slurm) ترجمه میکند. این یک لایه یکپارچهسازی پویا و شفاف ایجاد میکند. یک زیرساخت احراز هویت و مجوز (AAI) مبتنی بر توکن، دسترسی استاندارد را فراهم میکند.
2.2. دسترسی و رابط کاربری
کاربران عمدتاً از طریق دو نقطه ورود با سیستم فدرال تعامل میکنند:
- گرههای ورود سنتی: دسترسی شل به یک محیط یکپارچه را فراهم میکنند.
- JupyterHub: یک محیط محاسباتی تعاملی مبتنی بر وب ارائه میدهد که به طور قابل توجهی مانع ورود برای تحلیل دادهها را کاهش میدهد.
2.3. مدیریت محیط نرمافزاری
برای مدیریت نیازهای نرمافزاری متنوع در جوامع مختلف، پروژه از موارد زیر استفاده میکند:
- فناوریهای کانتینر (مانند Docker، Singularity/Apptainer): برای کپسولهسازی محیطهای کاربردی.
- سیستم فایل ماشین مجازی CERN (CVMFS): یک سیستم فایل فقط خواندنی و توزیعشده جهانی برای ارائه پشتههای نرمافزاری و دادههای آزمایشی به روشی مقیاسپذیر. این امر توزیع نرمافزار را از زیرساخت زیرین جدا میکند.
3. زیرساخت فدرال ذخیرهسازی – Storage4PUNCH
Storage4PUNCH با هدف فدراسیونسازی سیستمهای ذخیرهسازی جامعه، عمدتاً مبتنی بر فناوریهای dCache و XRootD است که در فیزیک انرژی بالا (HEP) به خوبی جا افتادهاند.
3.1. استراتژی فدراسیون ذخیرهسازی
استراتژی ایجاد یک سیستم ذخیرهسازی یکپارچه و عظیم نیست، بلکه فدراسیونسازی سیستمهای موجود است. تمرکز بر ارائه یک فضای نام یکپارچه و لایه پروتکل دسترسی است که ناهمگنی ذاتی ذخیرهسازی زیرین را انتزاعی میکند. این امر امکان حفظ محلیت داده را فراهم میکند و در عین حال دسترسی جهانی را ممکن میسازد.
3.2. پشته فناوری و یکپارچهسازی
این فدراسیون از موارد زیر بهره میبرد:
- dCache: هم به عنوان بکاند ذخیرهسازی و هم برای قابلیتهای فدراسیونسازی آن استفاده میشود.
- XRootD: به دلیل پروتکلهای کارآمد دسترسی به داده و قابلیتهای تغییر مسیر آن به کار گرفته میشود که برای ساخت فدراسیونهای داده حیاتی است.
- ارزیابی فناوریهای کش و فراداده: پروژه به طور فعال فناوریهایی مانند Rucio (برای مدیریت داده) و لایههای کش را برای بهینهسازی الگوهای دسترسی به داده و امکان قرارگیری هوشمندانهتر داده ارزیابی میکند و به سمت یکپارچهسازی عمیقتر فراتر از فدراسیون ساده حرکت میکند.
4. جزئیات فنی و چارچوب ریاضی
منطق زمانبندی هسته در COBalD/TARDIS را میتوان به عنوان یک مسئله بهینهسازی مدل کرد. فرض کنید $R = \{r_1, r_2, ..., r_n\}$ مجموعه درخواستهای منابع از استخر HTCondor باشد و $B = \{b_1, b_2, ..., b_m\}$ مجموعه انواع منابع بکاند موجود (مانند گره HPC، ماشین مجازی ابری) باشد. هر درخواست $r_i$ الزاماتی (هسته، حافظه، نرمافزار) دارد. هر بکاند $b_j$ یک تابع هزینه $C_j(r_i)$ و یک زمان تأمین $T_j(r_i)$ دارد.
هدف زمانبند فرامنبع یافتن یک نگاشت $M: R \rightarrow B$ است که یک تابع هزینه کل، که اغلب مجموع وزنی هزینه مالی و زمان تکمیل است، را با در نظر گرفتن محدودیتهایی مانند سهمیههای بکاند و در دسترس بودن نرمافزار به حداقل برساند:
$$\min_{M} \sum_{r_i \in R} \left[ \alpha \cdot C_{M(r_i)}(r_i) + \beta \cdot T_{M(r_i)}(r_i) \right]$$
که در آن $\alpha$ و $\beta$ عوامل وزنی هستند. این امر چالش «یکپارچهسازی پویا و شفاف» را صوری میکند.
5. نتایج نمونه اولیه و عملکرد
مقاله به تجربیات اولیه با برنامههای علمی اجرا شده روی نمونههای اولیه موجود اشاره میکند. در حالی که معیارهای کمی خاص در بخش ارائه شده جزئیات داده نشدهاند، اجرای موفقیتآمیز دلالت بر موارد زیر دارد:
- یکپارچهسازی عملکردی: پشته HTCondor/COBalD/TARDIS با موفقیت کارها را به سیستمهای بکاند مختلف (HTC، HPC، ابری) هدایت کرد.
- تحویل نرمافزار: CVMFS و کانتینرها محیطهای نرمافزاری لازم را در گرههای کارگر ناهمگن به طور قابل اعتماد ارائه دادند.
- دسترسی کاربر: JupyterHub و گرههای ورود به عنوان نقاط ورود مؤثر برای پژوهشگران عمل کردند.
نمودار مفهومی: معماری سیستم را میتوان به عنوان یک مدل سه لایه تجسم کرد:
- لایه دسترسی کاربر: JupyterHub، گرههای ورود، AAI توکن.
- لایه فدراسیون و زمانبندی: استخر HTCondor + زمانبند فرامنبع COBalD/TARDIS.
- لایه منابع: بکاندهای ناهمگن (خوشههای HPC، مزرعههای HTC، ماشینهای مجازی ابری) و ذخیرهسازی فدرال (نمونههای dCache، XRootD).
6. چارچوب تحلیل: یک سناریوی کاربردی
سناریو: یک پژوهشگر فیزیک هستهای نیاز به پردازش ۱۰۰۰۰ کار شبیهسازی مونت کارلو دارد که هر کدام به ۴ هسته CPU، ۱۶ گیگابایت RAM و یک پشته نرمافزاری خاص (Geant4، ROOT) نیاز دارند.
- ارسال: پژوهشگر وارد PUNCH JupyterHub میشود، یک اسکریپت تحلیل مینویسد و ۱۰۰۰۰ کار را به زمانبند محلی HTCondor ارسال میکند.
- زمانبندی فرامنبع: COBalD/TARDIS صف HTCondor را نظارت میکند. بکاندهای موجود را ارزیابی میکند: مزرعه HTC دانشگاه A (هزینه کم، زمان صف بالا)، خوشه HPC مؤسسه B (هزینه متوسط، سختافزار تخصصی) و یک ابر تجاری (هزینه بالا، در دسترس بودن فوری).
- تصمیمگیری و اجرا: با استفاده از مدل هزینه خود، TARDIS ممکن است تصمیم بگیرد ۲۰۰۰ کار فوری را برای شروع سریع به ابر منتقل کند، در حالی که بقیه را به طور پیوسته روی مزرعه HTC ارزانتر تخلیه میکند. از AAI توکن برای احراز هویت در همه سیستمها استفاده میکند.
- نرمافزار و داده: هر کار، صرف نظر از بکاند، محیط Geant4/ROOT خود را از CVMFS دریافت میکند. دادههای ورودی از فضای نام فدرال Storage4PUNCH (مثلاً از طریق XRootD) واکشی میشوند و خروجی به یک نقطه پایانی ذخیرهسازی تعیین شده بازنویسی میشود.
- تکمیل: پژوهشگر نتایج را از صف کار واحد HTCondor نظارت و جمعآوری میکند، بدون اطلاع از اجرای چند زیرساختی زیرین.
7. تحلیل انتقادی و دیدگاه کارشناسی
بینش کلیدی: PUNCH4NFDI در حال ساخت یک ابر دیگر نیست؛ بلکه در حال مهندسی یک لایه فدراسیون با عملگرایی سیاسی و فنی قابل توجه است. نوآوری واقعی آن در زمانبند فرامنبع COBalD/TARDIS نهفته است که به عنوان یک «مترجم دیپلماتیک» برای اشتراکگذاری منابع عمل میکند، نه یک یکپارچهکننده فاتح. این امر حاکمیت خوشههای مؤسساتی موجود — یک واقعیت غیرقابل مذاکره در آکادمی آلمان — را به رسمیت میشناسد و در عین حال یک ابرمنبع کاربردی ایجاد میکند.
جریان منطقی: منطق بیعیب است: شروع با کاربر (JupyterHub/ورود)، انتزاع آشفتگی از طریق یک زمانبند آزموده (HTCondor)، سپس استفاده از یک کارگزار هوشمند (TARDIS) برای نگاشت درخواستهای انتزاعی روی بکاندهای مشخص و از نظر سیاسی امکانپذیر. اتکا به CVMFS و کانتینرها برای نرمافزار یک حرکت استادانه است که مشکل «جهنم وابستگی» را که بیشتر فدراسیونها را آزار میدهد حل میکند. استراتژی ذخیرهسازی به طور خردمندانهای محافظهکارانه است و بر اساس دوگانه اثباتشده dCache/XRootD از HEP ساخته شده است و از ورطه تلاش برای تحمیل یک فناوری جدید واحد اجتناب میکند.
نقاط قوت و ضعف:
- نقاط قوت: حداقل تهاجم ابرقدرت آن است. نیازی نیست ارائهدهندگان سیاستهای محلی خود را تغییر دهند. استفاده از ابزارهای بالغ و جامعهمحور (HTCondor، CVMFS، dCache) به شدت ریسک را کاهش میدهد و پایداری را افزایش میدهد، برخلاف پروژههایی که بر اساس چارچوبهای سفارشی ساخته شدهاند. تمرکز بر اصول FAIR به طور کامل با دستورالعملهای تأمین مالی مدرن همسو است.
- نقاط ضعف و ریسکها: رویکرد زمانبند فرامنبع یک نقطه پیچیدگی و شکست بالقوه واحد را معرفی میکند. COBalD/TARDIS، اگرچه امیدوارکننده است، اما به اندازه سایر مؤلفهها آزموده نشده است. «ارزیابی» فناوری کش/فراداده (مانند Rucio) به سختترین بخش پیش رو اشاره دارد: مدیریت هوشمند داده. بدون آن، این یک فدراسیون محاسباتی با یک دایرکتوری ذخیرهسازی متصل است، نه یک پلتفرم منسجم دادهمحور. همچنین یک ریسک پنهان غیرقابل پیشبینی بودن عملکرد برای کاربران وجود دارد، زیرا کارهای آنها بین معماریهای اساساً متفاوت جابجا میشوند.
بینشهای عملی:
- برای معماران PUNCH: بر قوی و قابل مشاهده کردن TARDIS تمرکز مضاعف کنید. معیارها و گزارشهای تصمیمگیری آن برای بهینهسازی و ایجاد اعتماد طلا هستند. اولویت بعدی را به یکپارچهسازی یک لایه مدیریت داده (مانند Rucio) بدهید؛ محاسبه بدون داده هوشمند نیمی از راه حل است.
- برای سایر کنسرسیومها: این یک الگوی ارزشمند برای تقلید است، به ویژه فلسفه «یکپارچهسازی به جای جایگزینی». با این حال، ارزیابی کنید که آیا جامعه شما معادلی برای CVMFS دارد یا خیر — اگر نه، این اولین تصمیم ساخت/خرید شماست.
- برای ارائهدهندگان منابع: این مدل برای شما کمریسک است. با آن درگیر شوید. AAI مبتنی بر توکن یک راه تمیز برای ارائه دسترسی بدون به خطر انداختن امنیت محلی است. این یک سود خالص برای قابلیت مشاهده و بهرهوری است.
8. کاربردهای آینده و نقشه راه توسعه
زیرساخت PUNCH4NFDI زمینه را برای چندین کاربرد پیشرفته و جهتگیریهای پژوهشی فراهم میکند:
- گردش کارهای بینحوزهای: فعالسازی خطوط لوله تحلیل پیچیده و چندمرحلهای که به طور یکپارچه بین شبیهسازی (HPC)، پردازش رویداد با توان عملیاتی بالا (HTC) و آموزش یادگیری ماشین (GPUهای ابری) حرکت میکنند.
- زمانبندی دادهمحور: یکپارچهسازی عمیقتر فدراسیون ذخیرهسازی با زمانبند محاسبات. نسخههای آینده COBald/TARDIS میتوانند محلیت داده (کاهش انتقالهای WAN) و پیشمرحلهسازی را در تابع هزینه خود لحاظ کنند و به سمت زمانبندی آگاه از داده حرکت کنند.
- یکپارچهسازی با مخازن داده FAIR: خدمت به عنوان ستون فقرات محاسباتی با کارایی بالا برای مخازن داده FAIR ملی، که به پژوهشگران اجازه میدهد مجموعه دادههای بزرگ را مستقیماً در جایی که ذخیره شدهاند تحلیل کنند و از پارادایم «محاسبه به داده» پیروی کنند.
- هوش مصنوعی/یادگیری ماشین به عنوان سرویس: رابط JupyterHub و بکاند مقیاسپذیر را میتوان با محیطهای گردآوری شده برای چارچوبهای تخصصی هوش مصنوعی/یادگیری ماشین (PyTorch، TensorFlow) و دسترسی به منابع GPU گسترش داد و هوش مصنوعی را برای علوم فیزیکی دموکراتیک کرد.
- گسترش به منابع بینالمللی: مدل فدراسیون را میتوان برای گنجاندن منابع از ابتکارات اروپایی مانند ابر علم باز اروپایی (EOSC) یا سایتهای شبکه محاسباتی LHC (WLCG) گسترش داد و یک زیرساخت پژوهشی واقعاً فرااروپایی ایجاد کرد.
نقشه راه به احتمال زیاد شامل استحکام بخشیدن به نمونه اولیه فعلی، مقیاسسازی تعداد منابع یکپارچه شده، پیادهسازی راهحلهای ارزیابی شده فراداده/کش و توسعه مکانیسمهای سیاست و حسابداری پیچیدهتر برای استفاده منصفانه از منابع در سراسر کنسرسیوم است.
9. مراجع
- کنسرسیوم PUNCH4NFDI. (۲۰۲۴). کتاب سفید PUNCH4NFDI. [سند داخلی کنسرسیوم].
- Thain, D., Tannenbaum, T., & Livny, M. (2005). Distributed computing in practice: the Condor experience. Concurrency and computation: practice and experience, 17(2-4), 323-356.
- Blomer, J., et al. (2011). The CernVM file system. Journal of Physics: Conference Series, 331(5), 052004.
- مستندات COBalD/TARDIS. (بدون تاریخ). بازیابی شده از https://tardis.readthedocs.io/
- همکاری dCache. (بدون تاریخ). dCache: یک سیستم ذخیرهسازی توزیعشده. https://www.dcache.org/
- همکاری XRootD. (بدون تاریخ). XRootD: دسترسی با کارایی بالا، مقیاسپذیر و تحمل خطا به داده. http://xrootd.org/
- Wilkinson, M. D., et al. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific data, 3(1), 1-9.
- ابر علم باز اروپایی (EOSC). (بدون تاریخ). https://eosc-portal.eu/
- شبکه محاسباتی جهانی LHC (WLCG). (بدون تاریخ). https://wlcg.web.cern.ch/