انتخاب زبان

زیرساخت فدرال محاسبات و ذخیره‌سازی ناهمگن برای PUNCH4NFDI

تحلیل مفاهیم Compute4PUNCH و Storage4PUNCH برای فدراسیون‌سازی منابع متنوع HPC، HTC و ذخیره‌سازی در مؤسسات تحقیقاتی آلمان.
computingpowertoken.net | PDF Size: 0.5 MB
امتیاز: 4.5/5
امتیاز شما
شما قبلاً به این سند امتیاز داده اید
جلد سند PDF - زیرساخت فدرال محاسبات و ذخیره‌سازی ناهمگن برای PUNCH4NFDI

1. مقدمه

PUNCH4NFDI (ذرات، کیهان، هسته‌ها و هادرون‌ها برای زیرساخت ملی داده‌های پژوهشی) یک کنسرسیوم بزرگ آلمانی است که توسط DFG (بنیاد پژوهشی آلمان) تأمین مالی می‌شود. این کنسرسیوم تقریباً ۹۰۰۰ دانشمند از جوامع فیزیک ذرات، اخترفیزیک، اخترذرات، هادرون و فیزیک هسته‌ای را نمایندگی می‌کند. هدف اصلی کنسرسیوم ایجاد یک پلتفرم علمی فدرال داده‌های FAIR (قابل کشف، قابل دسترسی، قابلیت همکاری، قابل استفاده مجدد) است. این سند به طور خاص به تشریح مفاهیم معماری — Compute4PUNCH و Storage4PUNCH — می‌پردازد که برای یکپارچه‌سازی دسترسی به منابع محاسباتی (HPC، HTC، ابری) و ذخیره‌سازی بسیار ناهمگن که توسط مؤسسات عضو در سراسر آلمان به صورت غیرنقدی تأمین شده‌اند، طراحی شده‌اند.

2. زیرساخت فدرال محاسبات ناهمگن – Compute4PUNCH

ابتکار Compute4PUNCH به چالش ارائه دسترسی یکپارچه به مجموعه‌ای متنوع از منابع محاسباتی موجود بدون تحمیل تغییرات عمده بر مدل‌های عملیاتی ارائه‌دهندگان منابع می‌پردازد.

2.1. معماری هسته و فناوری‌ها

این فدراسیون بر اساس یک سیستم دسته‌ای لایه‌ای مبتنی بر HTCondor ساخته شده است. نوآوری کلیدی استفاده از زمان‌بند فرامنبع COBalD/TARDIS است. TARDIS به عنوان یک کارگزار پویا عمل می‌کند و درخواست‌های انتزاعی منابع از استخر HTCondor را به اقدامات تأمین مشخص در سیستم‌های پشتی‌بان (مانند ایجاد ماشین‌های مجازی روی OpenStack، ارسال کارها به Slurm) ترجمه می‌کند. این یک لایه یکپارچه‌سازی پویا و شفاف ایجاد می‌کند. یک زیرساخت احراز هویت و مجوز (AAI) مبتنی بر توکن، دسترسی استاندارد را فراهم می‌کند.

2.2. دسترسی و رابط کاربری

کاربران عمدتاً از طریق دو نقطه ورود با سیستم فدرال تعامل می‌کنند:

  • گره‌های ورود سنتی: دسترسی شل به یک محیط یکپارچه را فراهم می‌کنند.
  • JupyterHub: یک محیط محاسباتی تعاملی مبتنی بر وب ارائه می‌دهد که به طور قابل توجهی مانع ورود برای تحلیل داده‌ها را کاهش می‌دهد.
از این نقاط ورود، کاربران می‌توانند کارها را به استخر HTCondor ارسال کنند، که سپس توسط COBalD/TARDIS در میان بک‌اندهای ناهمگن مدیریت می‌شوند.

2.3. مدیریت محیط نرم‌افزاری

برای مدیریت نیازهای نرم‌افزاری متنوع در جوامع مختلف، پروژه از موارد زیر استفاده می‌کند:

  • فناوری‌های کانتینر (مانند Docker، Singularity/Apptainer): برای کپسوله‌سازی محیط‌های کاربردی.
  • سیستم فایل ماشین مجازی CERN (CVMFS): یک سیستم فایل فقط خواندنی و توزیع‌شده جهانی برای ارائه پشته‌های نرم‌افزاری و داده‌های آزمایشی به روشی مقیاس‌پذیر. این امر توزیع نرم‌افزار را از زیرساخت زیرین جدا می‌کند.

3. زیرساخت فدرال ذخیره‌سازی – Storage4PUNCH

Storage4PUNCH با هدف فدراسیون‌سازی سیستم‌های ذخیره‌سازی جامعه، عمدتاً مبتنی بر فناوری‌های dCache و XRootD است که در فیزیک انرژی بالا (HEP) به خوبی جا افتاده‌اند.

3.1. استراتژی فدراسیون ذخیره‌سازی

استراتژی ایجاد یک سیستم ذخیره‌سازی یکپارچه و عظیم نیست، بلکه فدراسیون‌سازی سیستم‌های موجود است. تمرکز بر ارائه یک فضای نام یکپارچه و لایه پروتکل دسترسی است که ناهمگنی ذاتی ذخیره‌سازی زیرین را انتزاعی می‌کند. این امر امکان حفظ محلیت داده را فراهم می‌کند و در عین حال دسترسی جهانی را ممکن می‌سازد.

3.2. پشته فناوری و یکپارچه‌سازی

این فدراسیون از موارد زیر بهره می‌برد:

  • dCache: هم به عنوان بک‌اند ذخیره‌سازی و هم برای قابلیت‌های فدراسیون‌سازی آن استفاده می‌شود.
  • XRootD: به دلیل پروتکل‌های کارآمد دسترسی به داده و قابلیت‌های تغییر مسیر آن به کار گرفته می‌شود که برای ساخت فدراسیون‌های داده حیاتی است.
  • ارزیابی فناوری‌های کش و فراداده: پروژه به طور فعال فناوری‌هایی مانند Rucio (برای مدیریت داده) و لایه‌های کش را برای بهینه‌سازی الگوهای دسترسی به داده و امکان قرارگیری هوشمندانه‌تر داده ارزیابی می‌کند و به سمت یکپارچه‌سازی عمیق‌تر فراتر از فدراسیون ساده حرکت می‌کند.

4. جزئیات فنی و چارچوب ریاضی

منطق زمان‌بندی هسته در COBalD/TARDIS را می‌توان به عنوان یک مسئله بهینه‌سازی مدل کرد. فرض کنید $R = \{r_1, r_2, ..., r_n\}$ مجموعه درخواست‌های منابع از استخر HTCondor باشد و $B = \{b_1, b_2, ..., b_m\}$ مجموعه انواع منابع بک‌اند موجود (مانند گره HPC، ماشین مجازی ابری) باشد. هر درخواست $r_i$ الزاماتی (هسته، حافظه، نرم‌افزار) دارد. هر بک‌اند $b_j$ یک تابع هزینه $C_j(r_i)$ و یک زمان تأمین $T_j(r_i)$ دارد.

هدف زمان‌بند فرامنبع یافتن یک نگاشت $M: R \rightarrow B$ است که یک تابع هزینه کل، که اغلب مجموع وزنی هزینه مالی و زمان تکمیل است، را با در نظر گرفتن محدودیت‌هایی مانند سهمیه‌های بک‌اند و در دسترس بودن نرم‌افزار به حداقل برساند:

$$\min_{M} \sum_{r_i \in R} \left[ \alpha \cdot C_{M(r_i)}(r_i) + \beta \cdot T_{M(r_i)}(r_i) \right]$$

که در آن $\alpha$ و $\beta$ عوامل وزنی هستند. این امر چالش «یکپارچه‌سازی پویا و شفاف» را صوری می‌کند.

5. نتایج نمونه اولیه و عملکرد

مقاله به تجربیات اولیه با برنامه‌های علمی اجرا شده روی نمونه‌های اولیه موجود اشاره می‌کند. در حالی که معیارهای کمی خاص در بخش ارائه شده جزئیات داده نشده‌اند، اجرای موفقیت‌آمیز دلالت بر موارد زیر دارد:

  • یکپارچه‌سازی عملکردی: پشته HTCondor/COBalD/TARDIS با موفقیت کارها را به سیستم‌های بک‌اند مختلف (HTC، HPC، ابری) هدایت کرد.
  • تحویل نرم‌افزار: CVMFS و کانتینرها محیط‌های نرم‌افزاری لازم را در گره‌های کارگر ناهمگن به طور قابل اعتماد ارائه دادند.
  • دسترسی کاربر: JupyterHub و گره‌های ورود به عنوان نقاط ورود مؤثر برای پژوهشگران عمل کردند.

نمودار مفهومی: معماری سیستم را می‌توان به عنوان یک مدل سه لایه تجسم کرد:

  1. لایه دسترسی کاربر: JupyterHub، گره‌های ورود، AAI توکن.
  2. لایه فدراسیون و زمان‌بندی: استخر HTCondor + زمان‌بند فرامنبع COBalD/TARDIS.
  3. لایه منابع: بک‌اندهای ناهمگن (خوشه‌های HPC، مزرعه‌های HTC، ماشین‌های مجازی ابری) و ذخیره‌سازی فدرال (نمونه‌های dCache، XRootD).
داده‌ها و کارها از لایه بالا، از طریق لایه میانی زمان‌بندی هوشمند، به منبع مناسب در لایه پایین جریان می‌یابند.

6. چارچوب تحلیل: یک سناریوی کاربردی

سناریو: یک پژوهشگر فیزیک هسته‌ای نیاز به پردازش ۱۰۰۰۰ کار شبیه‌سازی مونت کارلو دارد که هر کدام به ۴ هسته CPU، ۱۶ گیگابایت RAM و یک پشته نرم‌افزاری خاص (Geant4، ROOT) نیاز دارند.

  1. ارسال: پژوهشگر وارد PUNCH JupyterHub می‌شود، یک اسکریپت تحلیل می‌نویسد و ۱۰۰۰۰ کار را به زمان‌بند محلی HTCondor ارسال می‌کند.
  2. زمان‌بندی فرامنبع: COBalD/TARDIS صف HTCondor را نظارت می‌کند. بک‌اندهای موجود را ارزیابی می‌کند: مزرعه HTC دانشگاه A (هزینه کم، زمان صف بالا)، خوشه HPC مؤسسه B (هزینه متوسط، سخت‌افزار تخصصی) و یک ابر تجاری (هزینه بالا، در دسترس بودن فوری).
  3. تصمیم‌گیری و اجرا: با استفاده از مدل هزینه خود، TARDIS ممکن است تصمیم بگیرد ۲۰۰۰ کار فوری را برای شروع سریع به ابر منتقل کند، در حالی که بقیه را به طور پیوسته روی مزرعه HTC ارزان‌تر تخلیه می‌کند. از AAI توکن برای احراز هویت در همه سیستم‌ها استفاده می‌کند.
  4. نرم‌افزار و داده: هر کار، صرف نظر از بک‌اند، محیط Geant4/ROOT خود را از CVMFS دریافت می‌کند. داده‌های ورودی از فضای نام فدرال Storage4PUNCH (مثلاً از طریق XRootD) واکشی می‌شوند و خروجی به یک نقطه پایانی ذخیره‌سازی تعیین شده بازنویسی می‌شود.
  5. تکمیل: پژوهشگر نتایج را از صف کار واحد HTCondor نظارت و جمع‌آوری می‌کند، بدون اطلاع از اجرای چند زیرساختی زیرین.
این سناریو شفافیت، کارایی و طراحی کاربرمحور زیرساخت فدرال را نشان می‌دهد.

7. تحلیل انتقادی و دیدگاه کارشناسی

بینش کلیدی: PUNCH4NFDI در حال ساخت یک ابر دیگر نیست؛ بلکه در حال مهندسی یک لایه فدراسیون با عمل‌گرایی سیاسی و فنی قابل توجه است. نوآوری واقعی آن در زمان‌بند فرامنبع COBalD/TARDIS نهفته است که به عنوان یک «مترجم دیپلماتیک» برای اشتراک‌گذاری منابع عمل می‌کند، نه یک یکپارچه‌کننده فاتح. این امر حاکمیت خوشه‌های مؤسساتی موجود — یک واقعیت غیرقابل مذاکره در آکادمی آلمان — را به رسمیت می‌شناسد و در عین حال یک ابرمنبع کاربردی ایجاد می‌کند.

جریان منطقی: منطق بی‌عیب است: شروع با کاربر (JupyterHub/ورود)، انتزاع آشفتگی از طریق یک زمان‌بند آزموده (HTCondor)، سپس استفاده از یک کارگزار هوشمند (TARDIS) برای نگاشت درخواست‌های انتزاعی روی بک‌اندهای مشخص و از نظر سیاسی امکان‌پذیر. اتکا به CVMFS و کانتینرها برای نرم‌افزار یک حرکت استادانه است که مشکل «جهنم وابستگی» را که بیشتر فدراسیون‌ها را آزار می‌دهد حل می‌کند. استراتژی ذخیره‌سازی به طور خردمندانه‌ای محافظه‌کارانه است و بر اساس دوگانه اثبات‌شده dCache/XRootD از HEP ساخته شده است و از ورطه تلاش برای تحمیل یک فناوری جدید واحد اجتناب می‌کند.

نقاط قوت و ضعف:

  • نقاط قوت: حداقل تهاجم ابرقدرت آن است. نیازی نیست ارائه‌دهندگان سیاست‌های محلی خود را تغییر دهند. استفاده از ابزارهای بالغ و جامعه‌محور (HTCondor، CVMFS، dCache) به شدت ریسک را کاهش می‌دهد و پایداری را افزایش می‌دهد، برخلاف پروژه‌هایی که بر اساس چارچوب‌های سفارشی ساخته شده‌اند. تمرکز بر اصول FAIR به طور کامل با دستورالعمل‌های تأمین مالی مدرن همسو است.
  • نقاط ضعف و ریسک‌ها: رویکرد زمان‌بند فرامنبع یک نقطه پیچیدگی و شکست بالقوه واحد را معرفی می‌کند. COBalD/TARDIS، اگرچه امیدوارکننده است، اما به اندازه سایر مؤلفه‌ها آزموده نشده است. «ارزیابی» فناوری کش/فراداده (مانند Rucio) به سخت‌ترین بخش پیش رو اشاره دارد: مدیریت هوشمند داده. بدون آن، این یک فدراسیون محاسباتی با یک دایرکتوری ذخیره‌سازی متصل است، نه یک پلتفرم منسجم داده‌محور. همچنین یک ریسک پنهان غیرقابل پیش‌بینی بودن عملکرد برای کاربران وجود دارد، زیرا کارهای آن‌ها بین معماری‌های اساساً متفاوت جابجا می‌شوند.

بینش‌های عملی:

  1. برای معماران PUNCH: بر قوی و قابل مشاهده کردن TARDIS تمرکز مضاعف کنید. معیارها و گزارش‌های تصمیم‌گیری آن برای بهینه‌سازی و ایجاد اعتماد طلا هستند. اولویت بعدی را به یکپارچه‌سازی یک لایه مدیریت داده (مانند Rucio) بدهید؛ محاسبه بدون داده هوشمند نیمی از راه حل است.
  2. برای سایر کنسرسیوم‌ها: این یک الگوی ارزشمند برای تقلید است، به ویژه فلسفه «یکپارچه‌سازی به جای جایگزینی». با این حال، ارزیابی کنید که آیا جامعه شما معادلی برای CVMFS دارد یا خیر — اگر نه، این اولین تصمیم ساخت/خرید شماست.
  3. برای ارائه‌دهندگان منابع: این مدل برای شما کم‌ریسک است. با آن درگیر شوید. AAI مبتنی بر توکن یک راه تمیز برای ارائه دسترسی بدون به خطر انداختن امنیت محلی است. این یک سود خالص برای قابلیت مشاهده و بهره‌وری است.
موفقیت پروژه نه با اوج FLOPS، بلکه با میزان نامرئی بودن آن در فعال‌سازی یک دانشجوی دکترا در توتنبرگ برای استفاده یکپارچه از چرخه‌های محاسباتی در بن و داده‌ها در کارلسروهه اندازه‌گیری خواهد شد. این هدفی بسیار بلندپروازانه‌تر — و ارزشمندتر — است.

8. کاربردهای آینده و نقشه راه توسعه

زیرساخت PUNCH4NFDI زمینه را برای چندین کاربرد پیشرفته و جهت‌گیری‌های پژوهشی فراهم می‌کند:

  • گردش کارهای بین‌حوزه‌ای: فعال‌سازی خطوط لوله تحلیل پیچیده و چندمرحله‌ای که به طور یکپارچه بین شبیه‌سازی (HPC)، پردازش رویداد با توان عملیاتی بالا (HTC) و آموزش یادگیری ماشین (GPUهای ابری) حرکت می‌کنند.
  • زمان‌بندی داده‌محور: یکپارچه‌سازی عمیق‌تر فدراسیون ذخیره‌سازی با زمان‌بند محاسبات. نسخه‌های آینده COBald/TARDIS می‌توانند محلیت داده (کاهش انتقال‌های WAN) و پیش‌مرحله‌سازی را در تابع هزینه خود لحاظ کنند و به سمت زمان‌بندی آگاه از داده حرکت کنند.
  • یکپارچه‌سازی با مخازن داده FAIR: خدمت به عنوان ستون فقرات محاسباتی با کارایی بالا برای مخازن داده FAIR ملی، که به پژوهشگران اجازه می‌دهد مجموعه داده‌های بزرگ را مستقیماً در جایی که ذخیره شده‌اند تحلیل کنند و از پارادایم «محاسبه به داده» پیروی کنند.
  • هوش مصنوعی/یادگیری ماشین به عنوان سرویس: رابط JupyterHub و بک‌اند مقیاس‌پذیر را می‌توان با محیط‌های گردآوری شده برای چارچوب‌های تخصصی هوش مصنوعی/یادگیری ماشین (PyTorch، TensorFlow) و دسترسی به منابع GPU گسترش داد و هوش مصنوعی را برای علوم فیزیکی دموکراتیک کرد.
  • گسترش به منابع بین‌المللی: مدل فدراسیون را می‌توان برای گنجاندن منابع از ابتکارات اروپایی مانند ابر علم باز اروپایی (EOSC) یا سایت‌های شبکه محاسباتی LHC (WLCG) گسترش داد و یک زیرساخت پژوهشی واقعاً فرااروپایی ایجاد کرد.

نقشه راه به احتمال زیاد شامل استحکام بخشیدن به نمونه اولیه فعلی، مقیاس‌سازی تعداد منابع یکپارچه شده، پیاده‌سازی راه‌حل‌های ارزیابی شده فراداده/کش و توسعه مکانیسم‌های سیاست و حسابداری پیچیده‌تر برای استفاده منصفانه از منابع در سراسر کنسرسیوم است.

9. مراجع

  1. کنسرسیوم PUNCH4NFDI. (۲۰۲۴). کتاب سفید PUNCH4NFDI. [سند داخلی کنسرسیوم].
  2. Thain, D., Tannenbaum, T., & Livny, M. (2005). Distributed computing in practice: the Condor experience. Concurrency and computation: practice and experience, 17(2-4), 323-356.
  3. Blomer, J., et al. (2011). The CernVM file system. Journal of Physics: Conference Series, 331(5), 052004.
  4. مستندات COBalD/TARDIS. (بدون تاریخ). بازیابی شده از https://tardis.readthedocs.io/
  5. همکاری dCache. (بدون تاریخ). dCache: یک سیستم ذخیره‌سازی توزیع‌شده. https://www.dcache.org/
  6. همکاری XRootD. (بدون تاریخ). XRootD: دسترسی با کارایی بالا، مقیاس‌پذیر و تحمل خطا به داده. http://xrootd.org/
  7. Wilkinson, M. D., et al. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific data, 3(1), 1-9.
  8. ابر علم باز اروپایی (EOSC). (بدون تاریخ). https://eosc-portal.eu/
  9. شبکه محاسباتی جهانی LHC (WLCG). (بدون تاریخ). https://wlcg.web.cern.ch/