O mundo mudou drasticamente desde a introdução da inteligência artificial generativa. As empresas estão começando a utilizá-la para resumir avaliações online. Os consumidores resolvem problemas através de chatbots. Os funcionários realizam seu trabalho de forma mais rápida com assistentes de IA. O que essas aplicações de IA têm em comum é que são baseadas em modelos generativos de IA que foram treinados em redes back-end de alto desempenho no data center e servidos através de clusters de inferência de IA implantados nas redes front-end de dados.
Os modelos de treinamento podem usar bilhões ou até trilhões de parâmetros para processar conjuntos de dados massivos em clusters de inteligência artificial/aprendizado de máquina (AI/ML) de servidores baseados em unidades de processamento gráfico (GPU). Quaisquer atrasos, por exemplo devido a congestionamento da rede ou perda de pacotes, podem ter um impacto dramático na precisão e nos tempos de treino desses modelos de IA. À medida que os clusters de IA/ML ficam cada vez maiores, as plataformas usadas para construí-los devem suportar velocidades de porta mais altas, bem como raízes mais altas (como o número de portas). Uma raiz mais alta permite a criação de topologias mais planas, o que reduz camadas e melhora o desempenho.
Atendendo às necessidades de clusters de IA de alto desempenho
Nos últimos anos, temos visto aumentos na demanda de GPU por largura de banda escalável de 200G para 400G e para 800G, o que está acelerando os requisitos de conectividade em comparação com soluções de computação tradicionais baseadas em CPU. A densidade de folhas do data center deve aumentar de acordo, maximizando ao mesmo tempo o número de nós endereçáveis com topologias mais planas.
Para atender a essas necessidades, estamos introduzindo o Cisco 8122-64EH/EHF com suporte para 64 portas 800G. Esta nova plataforma é baseada no Cisco Silicon One G200, um processador 51.2T de 5nm que usa SerDes 512G x 112G, permitindo recursos de escalabilidade extremos em um único formato de unidade de dois racks (2RU) (veja a Figura 1). Com 64 interfaces QSFP-DD800 ou OSFP, o Cisco 8122 oferece suporte a opções de conectividade Ethernet 2x 400G e 8x 100G.
A arquitetura Cisco Silicon One, com seu buffer de pacotes totalmente compartilhado para controle de congestionamento e mecanismo de encaminhamento P4 programável, juntamente com o kit de desenvolvimento de software (SDK) Silicon One, é comprovada e confiável por hiperscaladores em todo o mundo. Graças a importantes inovações, o Cisco Silicon One G200 suporta o dobro do desempenho e da eficiência energética, bem como menor latência, em comparação com o dispositivo da geração anterior.
Com o lançamento do Cisco Silicon One G200 no ano passado, a Cisco foi a primeira a comercializar um sistema Radix de 512 larguras, que pode ajudar os provedores de nuvem a reduzir custos, complexidade e latência ao projetar redes com menos camadas, switches e óptica. Os avanços no balanceamento de carga, na prevenção de falhas de link e na resposta/evização de congestionamento ajudam a melhorar os tempos de conclusão de trabalhos e a confiabilidade em escala para melhorar o desempenho da carga de trabalho de IA (consulte Cisco Silicon One quebra a barreira de 51,2 Tbps para obter mais detalhes).
O Cisco 8122 suporta sistemas operacionais de rede aberta (NOS), como Software for Open Networking in the Cloud (SONiC) e outros NOS de terceiros. Através do amplo suporte à interface de programação de aplicativos (API), os provedores de nuvem podem usar ferramentas de gerenciamento e visibilidade para gerenciar a rede com eficiência. Com essas opções personalizáveis, tornamos mais fácil para os hiperescaladores e outros provedores de nuvem que estão adotando o modelo hiperescalador atender às suas necessidades.
Além de dimensionar redes back-end, o Cisco 8122 também pode ser usado para cargas de trabalho convencionais em redes front-end, como servidores web e de e-mail, bancos de dados e outros aplicativos tradicionais.
Melhore os resultados do cliente
Com essas inovações, os provedores de nuvem podem se beneficiar de:
- Simplificação: Os provedores de nuvem podem simplificar as redes reduzindo o número de plataformas necessárias para escalar com sistemas compactos e de alta capacidade, bem como dependendo de menos camadas de rede, óptica e menos cabos. A complexidade também pode ser reduzida reduzindo o número de plataformas a gerir, o que pode ajudar a reduzir os custos operacionais.
- Flexibilidade: O uso de uma plataforma aberta permite que os provedores de nuvem escolham o serviço de otimização de rede (NOS) que melhor atende às suas necessidades e lhes permite desenvolver ferramentas de automação personalizadas para gerenciar a rede por meio de APIs.
- Velocidade da rede: O dimensionamento eficiente da sua infraestrutura reduz possíveis gargalos e atrasos que poderiam levar a tempos de resposta mais lentos e resultados indesejáveis com cargas de trabalho de IA. Gerenciamento avançado de congestionamento, recursos aprimorados de confiabilidade e maior escalabilidade ajudam a permitir melhor desempenho de rede para clusters de IA/ML.
- Sustentabilidade: A eficiência energética do Cisco Silicon One G200 pode ajudar os provedores de nuvem a atingir as metas de sustentabilidade dos data centers. O raio maior ajuda a reduzir o número de dispositivos usando uma estrutura mais plana para controlar melhor o consumo de energia.
O futuro da infraestrutura de rede em nuvem
Estamos oferecendo aos provedores de nuvem a flexibilidade para atender aos requisitos críticos de infraestrutura de rede em nuvem para treinamento e inferência de IA com o Cisco 8122-64EH/EHF. Com esta plataforma, os provedores de nuvem podem controlar melhor os custos, a latência, o espaço, o consumo de energia e a complexidade nas redes front-end e back-end. Na Cisco, estamos investindo em silício, sistemas e óptica para ajudar a construir redes de data centers escalonáveis e de alto desempenho para provedores de nuvem, a fim de ajudar a fornecer rapidamente resultados e insights de alta qualidade com inteligência artificial e cargas de trabalho tradicionais.
A Reunião Global Summit do Open Compute Project (OCP) será realizada de 15 a 17 de outubro de 2024 em San Jose. Venha nos visitar no salão comunitário para saber mais sobre nossas inovações; os clientes podem se inscrever para ver uma demonstração aqui.
Compartilhar: