Nexus melhora o balanceamento de carga e aproxima o UEC da adoção

Em todos os setores, a inteligência artificial (IA) está otimizando fluxos de trabalho, aumentando a eficiência, impulsionando a inovação e estimulando investimentos em aceleradores, processadores de aprendizagem profunda e unidades de processamento neural (NPUs). Algumas organizações estão começando aos poucos com a geração de recuperação aumentada (RAG) para tarefas de inferência antes de expandirem progressivamente para acomodar mais usuários. As empresas que lidam com grandes volumes de dados privados podem preferir criar seus próprios clusters de treinamento para obter a precisão que os modelos personalizados baseados em dados selecionados podem oferecer. Esteja você investindo em um pequeno cluster de IA com centenas de aceleradores ou em uma grande configuração com milhares, você precisará de uma rede escalonável para conectar todos eles.

A chave? Planeje e projete essa rede adequadamente. Uma rede bem projetada garante que seus aceleradores alcancem desempenho máximo, concluam trabalhos com mais rapidez e mantenham a latência final no mínimo. Para agilizar a conclusão das obras, a rede deve evitar congestionamentos ou, pelo menos, detectá-los com antecedência. A rede também deve lidar com o tráfego sem problemas, mesmo durante cenários in-cast; em outras palavras, ele deve lidar prontamente com o congestionamento assim que ele ocorrer.

É aqui que entra a Notificação Quantizada de Congestionamento de Data Center (DCQCN). O conceito de DCQCN funciona melhor quando a notificação explícita de congestionamento (ECN) e o controle de fluxo prioritário (PFC) são usados ​​em combinação. O ECN reage oportunamente de acordo com o fluxo, enquanto o PFC atua como uma medida de mitigação para controlar o congestionamento e evitar a perda de pacotes. Nosso projeto de rede de data center para aplicações de IA/ML explica esses conceitos em detalhes. Também introduzimos modelos de malha Nexus Dashboard AI para facilitar a implementação de acordo com o projeto e as melhores práticas. Neste blog, explicaremos como os switches Cisco Nexus série 9000 usam uma abordagem de balanceamento de carga dinâmico para resolver congestionamentos.

Abordagens tradicionais e dinâmicas para balanceamento de carga

O balanceamento de carga tradicional usa ECMP (Equal Cost Multipath), uma estratégia de roteamento em que, uma vez que um fluxo escolhe um caminho, ele geralmente persiste durante a vida útil desse fluxo. Quando vários fluxos seguem o mesmo caminho persistente, alguns links podem ser superutilizados enquanto outros são subutilizados, criando congestionamento nos links superutilizados. Num cluster de formação de IA, isto pode aumentar os tempos de conclusão dos trabalhos e até levar ao aumento da latência da fila, comprometendo potencialmente o desempenho dos trabalhos de formação.

O balanceamento de carga dinâmico melhora o desempenho da rede

Como o estado da rede muda constantemente, o balanceamento de carga deve ser dinâmico e orientado por feedback em tempo real da telemetria da rede ou das configurações do usuário. O balanceamento de carga dinâmico (DLB) permite distribuir o tráfego de forma mais eficiente e dinâmica, considerando as mudanças na rede. Como resultado, o congestionamento pode ser evitado e o desempenho geral pode ser melhorado. Ao monitorar continuamente o estado da rede, ele pode adaptar o caminho de um fluxo, mudando para caminhos menos utilizados caso algum fique sobrecarregado.

Distribuição no modo de fluxo DLB

A série Nexus 9000 usa o uso do link como parâmetro ao decidir como usar o multipath. Como a utilização do link é dinâmica, o reequilíbrio dos fluxos com base na utilização do caminho permite um encaminhamento mais eficiente e reduz o congestionamento. Ao comparar o ECMP e o DLB, você precisa entender esta diferença fundamental: com o ECMP, depois que um fluxo quíntuplo é atribuído a um caminho específico, ele permanece nesse caminho, mesmo que o link fique congestionado ou muito utilizado. Por outro lado, o DLB começa colocando o fluxo quíntuplo no enlace menos utilizado. Se esse link se tornar mais usado, o DLB moverá dinamicamente o próximo conjunto de pacotes (conhecido como flowlet) para um link diferente e menos congestionado.

Distribuição de fluxo no modo de bloco estático DLB

Para quem gosta de estar no controle, o DLB da série Nexus 9000 permite otimizar o balanceamento de carga entre portas de entrada e saída. Ao configurar manualmente os emparelhamentos entre portas de entrada e saída, você pode obter maior flexibilidade e precisão no gerenciamento de tráfego. Isso ajuda a gerenciar a carga nas portas de saída e a reduzir o congestionamento. Essa abordagem pode ser implementada via interface de linha de comando (CLI) ou interface de programação de aplicativos (API), facilitando redes de grande escala e permitindo a distribuição manual de tráfego.

Modo DLB por pacote

A série Nexus 9000 pode distribuir pacotes pela malha usando balanceamento de carga por pacote, enviando cada pacote em um caminho diferente para otimizar o fluxo de tráfego. Isto deve fornecer uma utilização ideal do link, pois os pacotes são distribuídos aleatoriamente. Entretanto, é importante observar que os pacotes podem chegar fora de ordem no host de destino. O host deve ser capaz de reordenar os pacotes ou tratá-los à medida que chegam, mantendo o processamento adequado na memória.

Melhorias de desempenho em breve

Olhando para o futuro, os novos padrões irão melhorar ainda mais o desempenho. Os membros do Ultra Ethernet Consortium, incluindo a Cisco, trabalharam para desenvolver padrões que abrangem muitas camadas da pilha ISO/OSI para melhorar as cargas de trabalho de inteligência artificial e computação de alto desempenho (HPC). Aqui está o que isso pode significar para os switches da série Nexus 9000 e o que você pode esperar.

Cisco Nexus 9000 está pronto para Ultra Ethernet

Transporte escalável, melhor controle

Nós nos concentramos na criação de padrões para uma solução de transporte mais escalável, flexível, segura e integrada: Ultra Ethernet Transport (UET). O protocolo UET define um novo método de transporte como sem conexão, o que significa que não requer um «handshake» (termo para estabelecer um processo preliminar de configuração da conexão entre dispositivos de comunicação). O transporte começa quando uma conexão é estabelecida; a conexão é então excluída quando o transporte é concluído. Essa abordagem permite melhor escalabilidade e latência reduzida, além de poder reduzir o custo das placas de interface de rede (NICs).

O controle de congestionamento é integrado ao protocolo UET, direcionando as NICs para distribuir o tráfego por todos os caminhos disponíveis na malha. Opcionalmente, o UET pode usar telemetria leve (medições de atraso de ida e volta) para coletar informações sobre o uso e o congestionamento do caminho da rede, fornecendo esses dados ao receptor. O corte de pacotes é outro recurso opcional que ajuda a detectar congestionamentos antecipadamente. Ele funciona enviando apenas informações de cabeçalho para pacotes que serão descartados devido a buffers cheios. Isso fornece ao receptor um método claro para notificar o remetente sobre congestionamento, ajudando a reduzir atrasos na retransmissão.

O UET é um transporte ponta a ponta onde os terminais (ou NICs) participam igualmente da rede no transporte. O transporte sem conexão se origina e termina no remetente e no destinatário. A rede para este transporte requer duas classes de tráfego: uma para tráfego de dados e outra para tráfego de controle, que é utilizada para confirmar a recepção do tráfego de dados. Para tráfego de dados, a Notificação Explícita de Congestionamento (ECN) é usada para relatar congestionamento no caminho. O tráfego de dados também pode ser transportado por uma rede sem perdas, permitindo um transporte flexível.

Pronto para adoção do UET e muito mais

Os switches da série Nexus 9000 estão prontos para UEC, facilitando a adoção rápida e fácil do novo protocolo UET com infraestrutura nova e existente. Todos os recursos obrigatórios são suportados hoje. Recursos opcionais convenientes, como corte de pacotes, são suportados em produtos Nexus baseados em Cisco Silicon One. Recursos adicionais serão suportados nos switches da série Nexus 9000 no futuro.

Crie sua rede para máxima confiabilidade, controle preciso e desempenho máximo com o Nexus 9000 Series. Você pode começar hoje mesmo habilitando o balanceamento de carga dinâmico para suas cargas de trabalho de IA. Assim, assim que os padrões UEC forem ratificados, estaremos prontos para ajudá-lo na transição para NICs Ultra Ethernet, liberando todo o potencial da Ultra Ethernet e otimizando suas instalações para preparar sua infraestrutura para o futuro. Pronto para otimizar seu futuro? Comece a construí-lo com a série Nexus 9000.

Compartilhar:

. Não invente. Não escreva em outro idioma. Não fale sobre o autor do conteúdo. Concentre-se no conteúdo, não em outras páginas, como políticas de privacidade, política de cookies ou outras. Seja exaustivo na reescrita: pelo menos 300 palavras. Não traduza marcas, produtos ou nomes de empresas.

FONTE

Por Staff

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *