انتخاب زبان

زیرساخت محاسباتی و ذخیره‌سازی فدرال ناهمگن برای PUNCH4NFDI

تحلیل مفاهیم Compute4PUNCH و Storage4PUNCH برای فدراسیون‌سازی منابع متنوع HPC، HTC و ذخیره‌سازی در مؤسسات تحقیقاتی آلمان.
computingpowertoken.net | PDF Size: 0.5 MB
امتیاز: 4.5/5
امتیاز شما
شما قبلاً به این سند امتیاز داده اید
جلد سند PDF - زیرساخت محاسباتی و ذخیره‌سازی فدرال ناهمگن برای PUNCH4NFDI

1. مقدمه

ذرات، کیهان، هسته‌ها و هادرون‌ها برای زیرساخت ملی داده‌های تحقیقاتی (PUNCH4NFDI) یک کنسرسیوم بزرگ آلمانی است که توسط بنیاد پژوهشی آلمان (DFG) تأمین مالی می‌شود. این کنسرسیوم تقریباً ۹۰۰۰ دانشمند از جوامع فیزیک ذرات، اخترفیزیک، اخترذرات، هادرون و فیزیک هسته‌ای را نمایندگی می‌کند. هدف اصلی کنسرسیوم ایجاد یک پلتفرم علمی داده‌ای فدرال و FAIR (قابل یافتن، قابل دسترسی، قابل تعامل، قابل استفاده مجدد) است. چالش اصلی مورد بررسی، فدراسیون‌سازی منابع محاسباتی (HPC، HTC، ابری) و ذخیره‌سازی بسیار ناهمگونی است که به صورت «غیرنقدی» توسط مؤسسات عضو در سراسر آلمان تأمین می‌شود و دسترسی یکپارچه و بی‌درز را برای پژوهشگران فراهم می‌کند.

2. زیرساخت محاسباتی فدرال ناهمگن – Compute4PUNCH

مفهوم Compute4PUNCH برای ارائه دسترسی شفاف به مجموعه‌ای متنوع از منابع محاسباتی طراحی شده است، بدون آنکه تغییرات عمده‌ای بر سیستم‌های عملیاتی موجود در سایت‌های ارائه‌دهنده تحمیل کند.

2.1. معماری هسته و فناوری‌ها

فدراسیون بر اساس یک سیستم دسته‌ای لایه‌ای مبتنی بر HTCondor ساخته شده است. نوآوری کلیدی استفاده از فراموقعه‌گذار منابع COBalD/TARDIS است. TARDIS به عنوان یک کارگزار پویا عمل می‌کند که نیازمندی‌های کار HTCondor را به رابط‌های برنامه‌نویسی خاص ارائه‌دهنده (مانند SLURM، Kubernetes) ترجمه کرده و چرخه عمر کارهای «پایلوت» یا کانتینرها را بر روی منابع راه‌دور مدیریت می‌کند. این امر یک مخزن منابع فدرال مجازی ایجاد می‌کند.

دسترسی از طریق یک زیرساخت احراز هویت و مجوز مبتنی بر توکن (AAI) ایمن می‌شود که یک اعتبارنامه استاندارد برای تمام منابع متصل فراهم می‌کند.

2.2. دسترسی کاربر و محیط نرم‌افزاری

کاربران از طریق نقاط ورودی آشنا با سیستم تعامل می‌کنند:

  • گره‌های ورود سنتی برای دسترسی خط فرمان.
  • یک سرویس متمرکز JupyterHub برای محاسبات تعاملی مبتنی بر وب.
قابلیت حمل محیط نرم‌افزاری با استفاده از فناوری‌های کانتینر (مانند Docker، Singularity/Apptainer) و سیستم فایل ماشین مجازی سرن (CVMFS) حل می‌شود که پشته‌های نرم‌افزاری را به طور کارآمد از طریق کش ارائه می‌دهد.

3. زیرساخت ذخیره‌سازی فدرال – Storage4PUNCH

Storage4PUNCH بر فدراسیون‌سازی سیستم‌های ذخیره‌سازی جامعه، عمدتاً مبتنی بر فناوری‌های dCache و XRootD متمرکز است که استانداردهایی در فیزیک انرژی بالا (HEP) هستند. هدف فدراسیون ارائه یک فضای نام و پروتکل دسترسی یکپارچه است. این مفهوم ارزیابی یکپارچگی عمیق‌تر را از طریق موارد زیر بررسی می‌کند:

  • پروتکل‌های فدراسیون ذخیره‌سازی (مانند مبتنی بر فدراسیون هدایت‌کننده XRootD یا مدیر مخزن dCache).
  • لایه‌های کش برای کاهش تأخیر و ترافیک شبکه گسترده.
  • مدیریت فراداده برای بهبود قابلیت کشف داده در سراسر فدراسیون.
این امر یک دریاچه داده ایجاد می‌کند که در کنار منابع محاسباتی فدرال قابل دسترسی است.

4. جزئیات فنی و چارچوب ریاضی

منطق زمان‌بندی هسته را می‌توان به عنوان یک مسئله بهینه‌سازی مدل کرد. فرض کنید $R = \{r_1, r_2, ..., r_n\}$ مجموعه منابع ناهمگن باشد که هر کدام دارای ویژگی‌هایی مانند معماری، هسته‌های در دسترس $c_i$، حافظه $m_i$ و عامل هزینه/اولویت $p_i$ هستند. یک کار $J$ دارای نیازمندی‌های $J_{req} = (c_{req}, m_{req}, arch_{req}, t_{req})$ است. هدف فراموقعه‌گذار بیشینه‌سازی کارایی یا توان عملیاتی کلی است.

یک تابع امتیازدهی ساده‌شده برای قرار دادن کار $J$ روی منبع $r_i$ می‌تواند به این شکل باشد: $$ S(J, r_i) = \begin{cases} 0 & \text{if } r_i \text{ does not match } J_{req} \\ \alpha \cdot \frac{c_i}{c_{req}} + \beta \cdot \frac{m_i}{m_{req}} - \gamma \cdot p_i & \text{otherwise} \end{cases} $$ که در آن $\alpha, \beta, \gamma$ ضرایب وزنی هستند. سیستم COBalD/TARDIS از ابتکارات و حلقه‌های بازخورد بلادرنگ برای تقریب پویای چنین بهینه‌سازی استفاده می‌کند و با در دسترس بودن منابع و وضعیت صف کارها سازگار می‌شود.

5. نتایج نمونه اولیه و عملکرد

توضیح نمودار (مفهومی): یک نمودار خطی که «ظرفیت محاسباتی تجمعی قابل دسترسی در طول زمان» را نشان می‌دهد. محور x زمان (ماه) است. دو خط نشان داده شده است: ۱) «مخازن منابع فردی (جدا شده)» – خطوط صاف و پلکانی که ظرفیت ثابت سایت‌های فردی را نشان می‌دهند. ۲) «مخزن فدرال از طریق Compute4PUNCH» – یک خط بالاتر و پویاتر که با ادغام سایت‌های بیشتر افزایش یافته و نوسانات کمتری را نشان می‌دهد و تعادل بار در سراسر فدراسیون را نشان می‌دهد. نمودار نتیجه کلیدی را نشان می‌دهد: سیستم فدرال یک مخزن منابع مجازی بزرگتر، مقاوم‌تر و با بهره‌وری بالاتر نسبت به مجموع اجزای جداگانه خود در اختیار کاربران قرار می‌دهد.

نمونه‌های اولیه با موفقیت ارسال کار از یک نقطه ورود واحد (JupyterHub) به چندین مخزن HTCondor و خوشه‌های HPC پشتیبان (مانند KIT، DESY) را نشان دادند. کارهایی که از محیط‌های کانتینری شده از طریق CVMFS استفاده می‌کردند، به طور شفاف بر روی معماری‌های مختلف اجرا شدند. معیارهای اولیه کاهش زمان انتظار کار برای کاربران با استفاده از چرخه‌های کم‌مصرف در سراسر فدراسیون را نشان می‌دهند، اگرچه تأخیر انتقال داده بین سایت‌ها همچنان یک عامل حیاتی برای بارهای کاری فشرده داده است.

6. چارچوب تحلیل: یک مطالعه موردی مفهومی

سناریو: یک تحلیل اخترفیزیک چندپیام‌رسان که داده‌های یک تلسکوپ نوترینو (IceCube) و یک رصدخانه پرتو گاما (CTA) را همبسته می‌کند.

گردش کار بدون فدراسیون: پژوهشگر باید: 1. برای تخصیص محاسباتی جداگانه روی یک خوشه HPC برای شبیه‌سازی و یک مزرعه HTC برای پردازش رویداد درخواست دهد. 2. به صورت دستی مجموعه داده‌های بزرگ (در مقیاس ترابایت) را بین سیستم‌های ذخیره‌سازی در مؤسسات مختلف منتقل کند. 3. محیط‌های نرم‌افزاری و روش‌های احراز هویت متفاوت را مدیریت کند.

گردش کار با Compute4PUNCH/Storage4PUNCH: 1. پژوهشگر با یک توکن واحد وارد PUNCH JupyterHub می‌شود. 2. گردش کار تحلیل تعریف می‌شود (مثلاً با استفاده از Snakemake یا مشابه). وظایف شبیه‌سازی (مناسب HPC) به طور خودکار از طریق TARDIS به منابع HPC مناسب هدایت می‌شوند. وظایف پردازش رویداد با توان عملیاتی بالا به مزرعه‌های HTC ارسال می‌شوند. 3. گردش کار به داده‌ها از طریق فضای نام ذخیره‌سازی فدرال ارجاع می‌دهد (مثلاً `punch://data/icecube/run_xyz.root`). فدراسیون زیربنایی XRootD/dCache مکان و انتقال را مدیریت می‌کند. 4. تمام کارها یک محیط نرم‌افزاری یکسان را از CVMFS دریافت می‌کنند. این مطالعه موردی پتانسیل تحول‌آفرین را نشان می‌دهد: پژوهشگر بر علم متمرکز می‌شود، نه بر لجستیک زیرساخت.

7. کاربردهای آینده و نقشه راه توسعه

زیرساخت PUNCH4NFDI زمینه را برای چندین کاربرد پیشرفته فراهم می‌کند:

  • آموزش یادگیری ماشین فدرال: بهره‌گیری از پردازنده‌های گرافیکی ناهمگن در سایت‌های مختلف برای آموزش مدل در مقیاس بزرگ، با استفاده بالقوه از چارچوب‌هایی مانند PyTorch یا TensorFlow با الگوریتم‌های یادگیری فدرال سازگار شده برای باطن HTCondor/TARDIS.
  • جای‌گذاری پویای بار کاری مبتنی بر سیاست: ادغام زمان‌بندی آگاه از کربن، که در آن کارها به سایت‌هایی با در دسترس بودن بالای انرژی تجدیدپذیر هدایت می‌شوند، مشابه مفاهیم بررسی شده توسط ابتکار الگوریتم‌های سبز.
  • فدراسیون بین کنسرسیومی: خدمت به عنوان یک الگو برای اتصال با سایر کنسرسیوم‌های NFDI یا ابتکارات اروپایی مانند ابر علم باز اروپایی (EOSC) و ایجاد یک زیرساخت تحقیقاتی فرااروپایی.
  • کش هوشمند داده و واکشی پیش‌دستانه: استفاده از سابقه گردش کار و تحلیل‌های پیش‌بینانه برای کش فعالانه مجموعه داده‌ها در سایت‌های محاسباتی، کاهش تأخیر شبکه گسترده، چالشی که در پروژه‌هایی مانند IRIS-HEP نیز محوری است.
نقشه راه شامل استحکام بخشیدن به سرویس تولید، گسترش مخزن منابع، ادغام خدمات مدیریت داده پیچیده‌تر و توسعه ابزارهای ارکستراسیون گردش کار سطح بالاتر است.

8. دیدگاه تحلیلگر: بینش کلیدی، جریان منطقی، نقاط قوت و ضعف، بینش‌های عملی

بینش کلیدی: PUNCH4NFDI در حال ساخت یک ابررایانه جدید نیست؛ در حال ساخت یک لایه مجازی‌سازی و ارکستراسیون است که چشم‌انداز محاسباتی تحقیقاتی تکه‌تکه و پراکنده آلمان را به یک سرویس منسجم و کاربرمحور تبدیل می‌کند. این یک استراتژی کلاسیک «فدراسیون به جای جایگزینی» است که اولویت را به پذیرش و افزایش تدریجی نسبت به تغییر انقلابی می‌دهد – حرکتی عملی و درخشان با توجه به واقعیت‌های سیاسی و عملیاتی مؤسسات تأمین‌شده با بودجه عمومی.

جریان منطقی: منطق آن مستحکم است: ۱) پذیرش ناهمگونی و مالکیت (منابع نزد مؤسسات باقی می‌مانند). ۲) تحمیل حداقل نیازمندی‌های جدید (استفاده از توکن، کانتینر). ۳) قرار دادن یک لایه میانی هوشمند و سازگار (COBalD/TARDIS) برای انتزاع پیچیدگی. ۴) ارائه رابط‌های کاربری ساده و مدرن (JupyterHub). ۵) فدراسیون‌سازی مشابه داده برای تکمیل حلقه. این یک کتابچه راهنمای یکپارچه‌سازی از پایین به بالا است که سایر کنسرسیوم‌ها باید آن را مطالعه کنند.

نقاط قوت و ضعف: نقاط قوت: استفاده از مؤلفه‌های آزموده شده (HTCondor، dCache، CVMFS) از جامعه HEP به شدت ریسک فنی را کاهش می‌دهد. تمرکز بر AAI و کانتینرها دو مانع بزرگ پذیرش را هدف قرار می‌دهد: دسترسی و نرم‌افزار. انتخاب COBalD/TARDIS الهام‌بخش است – این یک زمان‌بند سبک‌وزن و مبتنی بر پایتون است که دقیقاً برای این سناریوی ابری ترکیبی و فرصت‌طلب طراحی شده است. نقاط ضعف حیاتی: فیل در اتاق تحرک داده است. فدراسیون‌سازی محاسبات آسان‌تر از فدراسیون‌سازی ذخیره‌سازی است. مقاله به کش و ارزیابی فراداده اشاره می‌کند، اما مشکلات سخت عملکرد فضای نام جهانی یکپارچه، هزینه‌های انتقال داده شبکه گسترده و اجرای سیاست‌های داده بین سایت‌ها صرفاً اشاره شده‌اند. بدون یک راه‌حل قوی در اینجا، مخزن محاسباتی فدرال برای بارهای کاری فشرده داده فلج خواهد شد. علاوه بر این، موفقیت کاملاً وابسته به مشارکت‌های پایدار «غیرنقدی» اعضا است – یک مدل اقتصادی بالقوه شکننده.

بینش‌های عملی: 1. برای PUNCH4NFDI: بر لایه داده تمرکز مضاعف داشته باشید. با پروژه‌هایی مانند Rucio برای مدیریت داده و گرید علم باز برای تجربه عملیاتی همکاری تهاجمی داشته باشید. با ارائه‌دهندگان منابع، به ویژه در مورد هزینه‌های خروج داده، توافقنامه‌های سطح خدمات (SLA) واضحی تدوین کنید. 2. برای رقبا/تقلیدکنندگان: فقط معماری را کپی نکنید. درس واقعی در حاکمیت و مدل یکپارچه‌سازی سبک‌وزن است. با یک نمونه اولیه کارآمد روی چند سایت داوطلب شروع کنید و به صورت ارگانیک رشد کنید. 3. برای فروشندگان و آژانس‌های تأمین مالی: این مدل نشان می‌دهد که سرمایه‌گذاری آینده در محاسبات تحقیقاتی باید میانه‌افزار یکپارچه‌سازی و پایداری نرم‌افزار (مانند COBalD) را حداقل به اندازه سخت‌افزار خام، اگر نه بیشتر، تأمین مالی کند. «چسب» را تأمین مالی کنید.

در نتیجه، رویکرد PUNCH4NFDI یک کلاس استادانه در مهندسی زیرساخت سایبری عملی است. این رویکرد تشخیص می‌دهد که بزرگترین گلوگاه در محاسبات علمی اغلب FLOPS نیست، بلکه قابلیت استفاده و دسترسی است. اگر آنها بتوانند مشکل داده فدرال را حل کنند، مدلی با پتانسیل واقعی برای تغییر شکل نه تنها محاسبات تحقیقاتی آلمان، بلکه اروپا ایجاد کرده‌اند.

9. منابع

  1. کنسرسیوم PUNCH4NFDI. (2024). کتاب سفید PUNCH4NFDI. NFDI.
  2. Thain, D., Tannenbaum, T., & Livny, M. (2005). Distributed computing in practice: the Condor experience. Concurrency and Computation: Practice and Experience, 17(2-4), 323-356.
  3. Giffels, M., et al. (2023). COBalD/TARDIS - A dynamic resource overlay for opportunistic computing. Journal of Physics: Conference Series.
  4. Blomer, J., et al. (2011). The CernVM File System. Journal of Physics: Conference Series, 331(5), 052004.
  5. Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV). (به عنوان نمونه‌ای از یک روش محاسباتی تحول‌آفرین که می‌تواند از چنین زیرساخت فدرالی بهره‌برداری کند ذکر شده است).
  6. همکاری dCache. (2023). dCache: یک سیستم ذخیره‌سازی توزیع‌شده. https://www.dcache.org.
  7. همکاری XRootD. (2023). XRootD: دسترسی با کارایی بالا، مقیاس‌پذیر و تحمل‌پذیر خطا به داده. https://xrootd.slac.stanford.edu.
  8. ابر علم باز اروپایی (EOSC). (2024). https://eosc-portal.eu.