Qual é o ROI? Maximizando a inferência do LLM

Grandes modelos de linguagem e os aplicativos que eles potencializam oferecem às organizações oportunidades sem precedentes para obter insights mais profundos de seus reservatórios de dados e criar classes inteiramente novas de aplicativos.

Mas as oportunidades muitas vezes vêm acompanhadas de desafios.

Seja no local ou na nuvem, os aplicativos que devem ser executados em tempo real impõem demandas significativas à infraestrutura do data center para fornecer simultaneamente alto rendimento e baixa latência com um investimento em uma única plataforma.

Para impulsionar melhorias contínuas de desempenho e melhorar o retorno sobre investimentos em infraestrutura, a NVIDIA otimiza regularmente modelos de comunidade de ponta, incluindo o Llama da Meta, o Gem do Google, o Phi da Microsoft e nosso recém-lançado NVLM-D-72B semanas atrás. atrás.

Melhorias contínuas

As melhorias de desempenho permitem que nossos clientes e parceiros sirvam modelos mais complexos e reduzam a infraestrutura necessária para hospedá-los. A NVIDIA otimiza o desempenho em todos os níveis da pilha de tecnologia, incluindo TensorRT-LLM, uma biblioteca desenvolvida especificamente para oferecer desempenho de ponta nos LLMs mais recentes. Com melhorias no modelo Llama 70B de código aberto, que oferece altíssima precisão, já melhoramos o desempenho da latência mínima em 3,5x em menos de um ano.

Melhoramos constantemente o desempenho da nossa plataforma e publicamos regularmente atualizações de desempenho. Aprimoramentos nas bibliotecas de software da NVIDIA são lançados semanalmente, permitindo que os clientes obtenham mais das mesmas GPUs. Por exemplo, em questão de meses, melhoramos o desempenho do nosso Llama 70B de baixa latência em 3,5x.

A NVIDIA aumentou o desempenho do Llama 70B em 3,5 vezes.

Na rodada mais recente do MLPerf Inference 4.1, apresentamos nossa primeira apresentação com a plataforma Blackwell. Oferece desempenho 4 vezes maior que a geração anterior.

Esta apresentação também foi a primeira apresentação do MLPerf a usar a precisão FP4. Formatos de precisão mais estreitos, como FP4, reduzem o consumo de memória e o tráfego, além de aumentar o rendimento computacional. O processo aproveita o Transformer Engine de segunda geração da Blackwell e, com as técnicas avançadas de quantização que fazem parte do TensorRT Model Optimizer, o produto da Blackwell atendeu às rigorosas metas de precisão do benchmark MLPerf.

MLPerf Inference v4.1 Fechado, Data Center. Resultados recuperados de www.mlperf.org em 28 de agosto de 2024. Resultados da Blackwell medidos em uma única GPU e recuperados da entrada 4.1-0074 na categoria Fechado, Visualização. H100 resulta da entrada 4.1-0043 na categoria Fechado, disponível no sistema 8x H100 e dividido pelo número de GPUs para comparação por GPU. A taxa de transferência por GPU não é uma métrica primária da inferência MLPerf. O nome e logotipo MLPerf são marcas registradas e não registradas da MLCommons Association nos Estados Unidos e em outros países. Todos os direitos reservados. O uso não autorizado é estritamente proibido. Consulte www.mlcommons.org para obter mais informações. — O Blackwell B200 oferece desempenho até 4x maior que a geração anterior na carga de trabalho Llama 2 70B do MLPerf Inference v4.1.

As melhorias na Blackwell não impediram a aceleração contínua de Hopper. No ano passado, o desempenho do Hopper aumentou 3,4x no MLPerf no H100 graças aos avanços regulares do software. Isso significa que o desempenho máximo da NVIDIA hoje no Blackwell é 10x mais rápido do que era há apenas um ano no Hopper.

MLPerf Inference v4.1 Fechado, Data Center. Resultados recuperados de www.mlperf.org de múltiplas datas e entradas. Os dados de outubro de 2023, dezembro de 2023, maio de 2024 e 24 de outubro vêm de medições internas. Os restantes dados provêm de comunicações oficiais. Todos os resultados usando oito aceleradores. O nome e logotipo MLPerf são marcas registradas e não registradas da MLCommons Association nos Estados Unidos e em outros países. Todos os direitos reservados. O uso não autorizado é estritamente proibido. Consulte www.mlcommons.org para obter mais informações. — Esses resultados acompanham o progresso no cenário MLPerf Inference Llama 2 70B Offline durante o ano passado.

Nosso trabalho contínuo é incorporado ao TensorRT-LLM, uma biblioteca desenvolvida especificamente para acelerar o LLM que contém otimizações de última geração para executar inferências com eficiência em GPUs NVIDIA. O TensorRT-LLM é baseado na biblioteca TensorRT Deep Learning Inference e aproveita muitas das otimizações de aprendizado profundo do TensorRT com aprimoramentos adicionais específicos do LLM.

Melhorando a lhama aos trancos e barrancos

Mais recentemente, continuamos a otimizar variações dos modelos Llama do Meta, incluindo as versões 3.1 e 3.2, bem como o modelo de tamanho 70B e o modelo maior, 405B. Essas otimizações incluem receitas de quantização personalizadas, bem como o uso eficiente de técnicas de paralelização para dividir o modelo com mais eficiência em várias GPUs, aproveitando as tecnologias de interconexão NVIDIA NVLink e NVSwitch. LLMs de última geração, como o Llama 3.1 405B, são muito exigentes e exigem o desempenho combinado de várias GPUs de última geração para respostas rápidas.

As técnicas de paralelismo requerem uma plataforma de hardware com uma estrutura robusta de interconexão GPU-GPU para atingir o desempenho máximo e evitar gargalos de comunicação. Cada GPU NVIDIA H200 Tensor Core possui NVLink de quarta geração, fornecendo uma enorme largura de banda de GPU para GPU de 900 GB/s. Cada plataforma HGX H200 de oito GPUs também vem com quatro switches NVLink, permitindo que cada GPU H200 se comunique com qualquer outra GPU H200 a 900 GB/s, simultaneamente.

Muitas implantações de LLM usam paralelismo em vez de optar por manter a carga de trabalho em uma única GPU, o que pode apresentar gargalos de computação. Os LLMs procuram equilibrar baixa latência e alto rendimento, com a técnica de paralelização ideal dependendo dos requisitos da aplicação.

Por exemplo, se a prioridade for a latência mais baixa, o paralelismo do tensor é crítico, pois o desempenho computacional combinado de múltiplas GPUs pode ser usado para entregar tokens aos usuários mais rapidamente. No entanto, para casos de uso em que o rendimento máximo de todos os usuários é priorizado, o paralelismo de pipeline pode aumentar com eficiência o rendimento geral do servidor.

A tabela a seguir mostra que o paralelismo de tensor pode fornecer uma taxa de transferência 5x maior em cenários de latência mínima, enquanto o paralelismo de pipeline fornece desempenho 50% maior para casos de uso de taxa de transferência máxima.

Para implantações de produção que buscam maximizar o rendimento dentro de um determinado orçamento de latência, uma plataforma deve fornecer a capacidade de combinar efetivamente ambas as técnicas, como no TensorRT-LLM.

Leia o blog técnico do Llama 3.1 405B Throughput Enhancement para saber mais sobre essas técnicas.

Esta tabela mostra que o paralelismo de tensor pode fornecer 5x mais rendimento em cenários de latência mínima, enquanto o paralelismo de pipeline fornece 50% mais desempenho para casos de uso de rendimento máximo. — Cenários diferentes têm requisitos diferentes e as técnicas de paralelismo garantem um desempenho ideal para cada um desses cenários.

O ciclo virtuoso

Ao longo do ciclo de vida de nossas arquiteturas, oferecemos melhorias significativas de desempenho por meio de ajuste e otimização contínuos de software. Estas melhorias traduzem-se em valor acrescentado para os clientes que treinam e implementam as nossas plataformas. Eles são capazes de criar modelos e aplicativos mais capazes e implementar modelos existentes usando menos infraestrutura, melhorando o ROI.

À medida que novos LLMs e outros modelos generativos de IA continuam a chegar ao mercado, a NVIDIA continuará a executá-los bem em suas plataformas e a torná-los mais fáceis de implantar com tecnologias como microsserviços NIM e NIM Agent Blueprints.

Saiba mais com estes recursos:

FONTE

Qual é o ROI? Maximizando a inferência do LLM

PorStaff

Melhorias contínuas

Melhorando a lhama aos trancos e barrancos

O ciclo virtuoso

Por Staff

Entrada relacionada

Introdução aos microsserviços NIM e projetos de IA

Desbloqueando dados de negócios com mecanismos de consulta de IA

NVIDIA lança projeto para agentes de IA que analisam vídeos

Deja una respuesta Cancelar la respuesta

Perdeu-se?

O que aguardar do evento de lançamento do Samsung Galaxy S25 Unpacked

Desenvolva um assistente digital duplo com tecnologias de IA da Oracle

Legion Pro 7i: laptop para jogos suporta gráficos até RTX 5090

Como remover o menu G-Invoicing no centro de trabalho do comprador