2024 foi um ano transformador para os aceleradores AMD Instinct™. Nos últimos 12 meses, entregamos com sucesso dezenas de plataformas Instinct MI300X ao mercado por meio de nossos parceiros OEM e de nuvem. Trouxemos vários clientes para a produção em volume, incluindo a Microsoft alcançando «preço-desempenho líder de mercado para inferência GPT4» e a Meta usando o MI300X como a «solução de inferência exclusiva para seu modelo de fronteira Llama 405B». É importante ressaltar que as implantações de produção e os compromissos de pré-produção continuam a crescer tanto entre clientes estabelecidos quanto entre startups emergentes de IA para aplicações de inferência e treinamento.
Apesar do progresso que fizemos com nosso hardware e plataformas, acelerar nosso roteiro de software continua sendo nossa principal prioridade. Nossa visão é que o AMD ROCm™ se torne a pilha de IA aberta líder do setor, permitindo escolha e inovação rápida. Este ano fizemos excelentes progressos a todos os níveis. Mais de 1 milhão de modelos no HuggingFace agora funcionam imediatamente na AMD, e nossas plataformas são bem suportadas em estruturas líderes como PyTorch e JAX, compiladores emergentes como OpenAI Triton e soluções de serviço como vLLM e SGLang. Também continuamos a fortalecer a pilha com suporte para bibliotecas importantes, tipos de dados e algoritmos como FlashAttentionv3, e demonstramos excelente desempenho de inferência com nosso primeiro envio de MLPerf no início deste ano. Para acelerar a cadência de atualizações de software para nossa crescente base de clientes, introduzimos lançamentos de contêineres otimizados quinzenais, além de lançamentos regulares de ROCm que incluem novos recursos e funcionalidades.
Ouvir os usuários sobre as verdadeiras capacidades dos produtos tem sido fundamental para o nosso sucesso. Acreditamos também que a colaboração aberta e o feedback são cruciais para promover a inovação e construir um ecossistema forte.
Embora tenhamos feito bons progressos em muitas áreas, a amplitude das cargas de trabalho de IA é ampla e está em constante evolução. Sabemos que ainda há muito trabalho a fazer para fornecer suporte abrangente a todo o ecossistema. Um artigo recente da SemiAnalysis destacou algumas lacunas no suporte do nosso ecossistema de treinamento e forneceu feedback construtivo sobre como melhorar a usabilidade. Acreditamos que um ecossistema de código aberto para IA é do interesse da indústria e sempre incentivamos o feedback da comunidade à medida que incorporamos melhorias em versões subsequentes do ROCm. Portanto, temos um ambicioso roteiro de software para 2025 que incorpora muitas melhorias que permitirão uma adoção mais fácil e um melhor suporte pronto para uso para aplicações de inferência e treinamento.
As principais prioridades para apoiar o ecossistema mais amplo incluem:
- Suporte expandido para treinamento em larga escala. Isso significa suporte e otimização para os algoritmos mais recentes, incluindo Expert Parallel (EP), Context Parallel (CP) e Flash Attention 3. Além disso, ofereceremos suporte aos mais recentes tipos de dados e coletivos em estruturas de ML, incluindo PyTorch, JAX e muito mais bibliotecas de treinamento populares como DeepSpeed e MaxText, começando no primeiro trimestre.
- Suporte de inferência expandido abrangendo modelos LLM, não LLM e multimodais. Isto inclui otimizações avançadas para estruturas populares e soluções de serviços emergentes (por exemplo, vLLM, SGLang), melhorias nas bibliotecas subjacentes (GEMM, heurística de seleção), introdução de operadores de IA de próxima geração (por exemplo, Enhanced Attention, Fused MoE) e melhorias adicionais – otimização de novos tipos de dados.
- Suporte mais completo e imediato entre operadores, coletivos e bibliotecas comuns para tornar a implementação das nossas soluções mais simples e rápida. Isso inclui ferramentas empacotadas, diversas opções de implantação e extensões de documentação contínuas.
- Atualizações de desempenho frequentes e fáceis de usar, mantendo versões ROCm estáveis e de alta qualidade. Começamos a oferecer essas atualizações de inferência quinzenais no início deste ano e estamos expandindo ativamente para cobrir atualizações de treinamento também. O primeiro módulo de treinamento foi lançado no dia 16 de dezembro e o próximo lançamento está previsto para 30 de dezembro.
Convidamos a comunidade a se juntar a nós nesta jornada para tornar o ROCm ainda melhor. Juntos, podemos construir um ecossistema robusto de código aberto para inteligência artificial e computação de alto desempenho.
Fique ligado para mais atualizações sobre o ecossistema ROCm, capacitação de desenvolvedores e avanços de desempenho em nossa comunidade ROCm, AMD Infinity Hub ou no Discord.
.
FONTE