Infraestrutura Federada de Computação e Armazenamento Heterogênea para o PUNCH4NFDI

1. Introdução

O Particles, Universe, NuClei and Hadrons for the National Research Data Infrastructure (PUNCH4NFDI) é um grande consórcio alemão financiado pela DFG (Deutsche Forschungsgemeinschaft). Representa aproximadamente 9.000 cientistas das comunidades de física de partículas, astrofísica, astropartículas, física hadrónica e física nuclear. O objetivo principal do consórcio é estabelecer uma plataforma federada de dados científicos FAIR (Findable, Accessible, Interoperable, Reusable). Um desafio central abordado é a federação dos recursos de computação (HPC, HTC, Cloud) e armazenamento altamente heterogéneos, contribuídos "em espécie" pelas instituições membro em toda a Alemanha, permitindo um acesso unificado e transparente para os investigadores.

2. Infraestrutura Federada de Computação Heterogênea – Compute4PUNCH

O conceito Compute4PUNCH foi concebido para fornecer acesso transparente a um conjunto diversificado de recursos de computação sem impor alterações significativas nos sistemas operacionais existentes nos locais dos fornecedores.

2.1. Arquitetura Central & Tecnologias

A federação é construída sobre um sistema de lote overlay baseado em HTCondor. A inovação chave é a utilização do meta-agendador de recursos COBalD/TARDIS. O TARDIS atua como um intermediário dinâmico, traduzindo os requisitos dos trabalhos HTCondor para APIs específicas dos fornecedores (por exemplo, SLURM, Kubernetes) e gerindo o ciclo de vida de trabalhos ou contentores "piloto" em recursos remotos. Isto cria um conjunto de recursos federado e virtual.

O acesso é protegido através de uma Infraestrutura de Autenticação e Autorização (AAI) baseada em tokens, fornecendo uma credencial padronizada para todos os recursos conectados.

2.2. Acesso do Utilizador & Ambiente de Software

Os utilizadores interagem com o sistema através de pontos de entrada familiares:

Nós de login tradicionais para acesso por linha de comandos.
Um serviço centralizado JupyterHub para computação interativa baseada na web.

A portabilidade do ambiente de software é resolvida utilizando tecnologias de contentores (por exemplo, Docker, Singularity/Apptainer) e o CERN Virtual Machine File System (CVMFS), que fornece pilhas de software de forma eficiente através de cache.

3. Infraestrutura Federada de Armazenamento – Storage4PUNCH

O Storage4PUNCH foca-se na federação de sistemas de armazenamento da comunidade, baseados principalmente nas tecnologias dCache e XRootD, que são padrões na Física de Altas Energias (HEP). A federação visa fornecer um espaço de nomes e um protocolo de acesso unificados. O conceito avalia uma integração mais profunda através de:

Protocolos de federação de armazenamento (por exemplo, baseados na federação de redirecionadores do XRootD ou no gestor de pools do dCache).
Camadas de cache para reduzir a latência e o tráfego WAN.
Gestão de metadados para melhorar a descoberta de dados em toda a federação.

Isto cria um data lake acessível em conjunto com os recursos de computação federados.

4. Detalhes Técnicos & Enquadramento Matemático

A lógica central de agendamento pode ser modelada como um problema de otimização. Seja $R = \{r_1, r_2, ..., r_n\}$ o conjunto de recursos heterogéneos, cada um com atributos como arquitetura, núcleos disponíveis $c_i$, memória $m_i$ e fator de custo/prioridade $p_i$. Um trabalho $J$ tem requisitos $J_{req} = (c_{req}, m_{req}, arch_{req}, t_{req})$. O objetivo do meta-agendador é maximizar a utilidade ou o rendimento global.

Uma função de pontuação simplificada para colocar o trabalho $J$ no recurso $r_i$ poderia ser: $$ S(J, r_i) = \begin{cases} 0 & \text{se } r_i \text{ não corresponder a } J_{req} \\ \alpha \cdot \frac{c_i}{c_{req}} + \beta \cdot \frac{m_i}{m_{req}} - \gamma \cdot p_i & \text{caso contrário} \end{cases} $$ onde $\alpha, \beta, \gamma$ são coeficientes de ponderação. O sistema COBalD/TARDIS implementa heurísticas e ciclos de feedback em tempo real para aproximar dinamicamente tal otimização, ajustando-se à disponibilidade de recursos e aos estados das filas de trabalhos.

5. Resultados do Protótipo & Desempenho

Descrição do Gráfico (Conceptual): Um gráfico de linhas que mostra "Capacidade de Computação Agregada Acessível ao Longo do Tempo". O eixo dos x é o tempo (meses). São mostradas duas linhas: 1) "Conjuntos de Recursos Individuais (Desconectados)" – linhas planas e escalonadas que representam a capacidade estática de locais individuais. 2) "Conjunto Federado via Compute4PUNCH" – uma linha mais alta e dinâmica que aumenta à medida que mais locais são integrados e mostra flutuações menores, demonstrando o balanceamento de carga em toda a federação. O gráfico ilustra o resultado chave: o sistema federado fornece aos utilizadores um conjunto de recursos virtuais maior, mais resiliente e mais eficientemente utilizado do que a soma das suas partes isoladas.

Os protótipos iniciais demonstraram com sucesso a submissão de trabalhos a partir de um único ponto de entrada (JupyterHub) para múltiplos conjuntos HTCondor e clusters HPC de backend (por exemplo, no KIT, DESY). Trabalhos que utilizavam ambientes contentorizados via CVMFS foram executados de forma transparente em diferentes arquiteturas. Métricas iniciais indicam uma redução no tempo de espera dos trabalhos para os utilizadores, aproveitando ciclos subutilizados em toda a federação, embora a latência de transferência de dados entre locais permaneça um fator crítico para cargas de trabalho intensivas em dados.

6. Enquadramento de Análise: Um Estudo de Caso Conceptual

Cenário: Uma análise de astrofísica multi-mensageira que correlaciona dados de um telescópio de neutrinos (IceCube) e de um observatório de raios gama (CTA).

Fluxo de Trabalho sem Federação: O investigador deve: 1. Solicitar alocações de computação separadas num cluster HPC para simulação e numa farm HTC para processamento de eventos. 2. Transferir manualmente grandes conjuntos de dados (escala de TB) entre sistemas de armazenamento em diferentes institutos. 3. Gerir ambientes de software e métodos de autenticação díspares.

Fluxo de Trabalho com Compute4PUNCH/Storage4PUNCH: 1. O investigador faz login no PUNCH JupyterHub com um único token. 2. O fluxo de trabalho de análise é definido (por exemplo, usando Snakemake ou similar). As tarefas de simulação (adequadas a HPC) são automaticamente encaminhadas via TARDIS para recursos HPC apropriados. As tarefas de processamento de eventos de alto rendimento são enviadas para farms HTC. 3. O fluxo de trabalho referencia dados através do espaço de nomes de armazenamento federado (por exemplo, `punch://data/icecube/run_xyz.root`). A federação subjacente XRootD/dCache trata da localização e transferência. 4. Todos os trabalhos obtêm um ambiente de software consistente a partir do CVMFS. Este estudo de caso demonstra o potencial transformador: o investigador foca-se na ciência, não na logística da infraestrutura.

7. Aplicações Futuras & Roteiro de Desenvolvimento

A infraestrutura PUNCH4NFDI estabelece as bases para várias aplicações avançadas:

Treino Federado de Aprendizagem Automática: Aproveitar GPUs heterogéneas entre locais para treino de modelos em larga escala, potencialmente usando frameworks como PyTorch ou TensorFlow com algoritmos de aprendizagem federada adaptados para o backend HTCondor/TARDIS.
Colocação Dinâmica de Carga de Trabalho Orientada por Políticas: Integrar agendamento consciente do carbono, onde os trabalhos são encaminhados para locais com alta disponibilidade de energia renovável, semelhante aos conceitos explorados pela iniciativa Green Algorithms.
Federação Inter-Consórcio: Servir como um modelo para ligação com outros consórcios NFDI ou iniciativas europeias como a European Open Science Cloud (EOSC), criando uma infraestrutura de investigação pan-europeia.
Cache & Pré-busca Inteligente de Dados: Usar a proveniência do fluxo de trabalho e análise preditiva para armazenar em cache conjuntos de dados proativamente nos locais de computação, mitigando a latência WAN, um desafio também central a projetos como o IRIS-HEP.

O roteiro inclui consolidar o serviço de produção, expandir o conjunto de recursos, integrar serviços de gestão de dados mais sofisticados e desenvolver ferramentas de orquestração de fluxo de trabalho de nível superior.

8. Perspetiva do Analista: Ideia Central, Fluxo Lógico, Pontos Fortes & Fracos, Ideias Acionáveis

Ideia Central: O PUNCH4NFDI não está a construir um novo supercomputador; está a construir uma camada de virtualização e orquestração que transforma o panorama fragmentado e balcanizado da computação de investigação alemã num utilitário coeso e centrado no utilizador. Esta é uma clássica estratégia de "federação em vez de substituição", priorizando a adoção e o incrementalismo em vez da mudança revolucionária — um movimento pragmaticamente brilhante dadas as realidades políticas e operacionais das instituições financiadas publicamente.

Fluxo Lógico: A lógica é sólida: 1) Reconhecer a heterogeneidade e a propriedade (os recursos permanecem com os institutos). 2) Impor requisitos novos mínimos (usar tokens, contentores). 3) Inserir uma camada de middleware inteligente e adaptativa (COBalD/TARDIS) para abstrair a complexidade. 4) Fornecer interfaces de utilizador simples e modernas (JupyterHub). 5) Federar os dados de forma semelhante para completar o ciclo. É um manual de integração de baixo para cima que outros consórcios deveriam estudar.

Pontos Fortes & Fracos: Pontos Fortes: A utilização de componentes testados em batalha (HTCondor, dCache, CVMFS) da comunidade HEP reduz drasticamente o risco técnico. O foco na AAI e nos contentores aborda os dois maiores bloqueadores de adoção: acesso e software. A escolha do COBalD/TARDIS é inspirada — é um agendador leve, baseado em Python, concebido exatamente para este cenário oportunista de cloud híbrida. Fracos Críticos: O elefante na sala é a mobilidade de dados. Federar a computação é mais fácil do que federar o armazenamento. O documento menciona a avaliação de cache e metadados, mas os problemas difíceis do desempenho consistente do espaço de nomes global, dos custos de transferência de dados WAN e da aplicação de políticas de dados entre locais são apenas apontados. Sem uma solução robusta aqui, o conjunto de computação federado ficará limitado para cargas de trabalho intensivas em dados. Além disso, o sucesso depende totalmente de contribuições "em espécie" sustentadas dos membros — um modelo económico potencialmente frágil.

Ideias Acionáveis: 1. Para o PUNCH4NFDI: Reforçar a camada de dados. Parcerias agressivas com projetos como o Rucio para gestão de dados e a Open Science Grid para experiência operacional. Desenvolver SLAs claros com os fornecedores de recursos, especialmente em relação aos custos de saída de dados. 2. Para Concorrentes/Imitadores: Não copiar apenas a arquitetura. A verdadeira lição está no modelo de governança e integração leve. Começar com um protótipo funcional em alguns locais dispostos e crescer organicamente. 3. Para Fornecedores & Agências de Financiamento: Este modelo demonstra que o futuro investimento em computação de investigação deve financiar o middleware de integração e a sustentabilidade do software (como o COBalD) tanto quanto, se não mais, do que o hardware bruto. Financiar a "cola".

Em conclusão, a abordagem do PUNCH4NFDI é uma aula magistral em engenharia pragmática de ciberinfraestrutura. Reconhece que o maior gargalo na computação científica muitas vezes não são os FLOPS, mas a usabilidade e o acesso. Se conseguirem resolver o problema dos dados federados, terão criado um modelo com potencial genuíno para remodelar não apenas a computação de investigação alemã, mas europeia.

9. Referências

Consórcio PUNCH4NFDI. (2024). PUNCH4NFDI White Paper. NFDI.
Thain, D., Tannenbaum, T., & Livny, M. (2005). Distributed computing in practice: the Condor experience. Concurrency and Computation: Practice and Experience, 17(2-4), 323-356.
Giffels, M., et al. (2023). COBalD/TARDIS - A dynamic resource overlay for opportunistic computing. Journal of Physics: Conference Series.
Blomer, J., et al. (2011). The CernVM File System. Journal of Physics: Conference Series, 331(5), 052004.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV). (Citado como um exemplo de uma metodologia computacional transformadora que poderia aproveitar tal infraestrutura federada).
Colaboração dCache. (2023). dCache: A distributed storage system. https://www.dcache.org.
Colaboração XRootD. (2023). XRootD: High performance, scalable fault tolerant access to data. https://xrootd.slac.stanford.edu.
European Open Science Cloud (EOSC). (2024). https://eosc-portal.eu.