Microsoft e NVIDIA Power AI Development em PCs RTX AI

Laptops e PCs generativos alimentados por IA estão permitindo avanços em jogos, criação de conteúdo, produtividade e desenvolvimento. Hoje, mais de 600 aplicativos e jogos do Windows já usam IA localmente em mais de 100 milhões de PCs GeForce RTX AI em todo o mundo, proporcionando desempenho rápido, confiável e de baixa latência.

No Microsoft Ignite, a NVIDIA e a Microsoft anunciaram ferramentas para ajudar os desenvolvedores do Windows a criar e otimizar rapidamente aplicativos com tecnologia de IA em PCs com IA RTX, tornando a IA local mais acessível. Essas novas ferramentas permitem que os desenvolvedores de aplicativos e jogos aproveitem poderosas GPUs RTX para acelerar fluxos de trabalho complexos de IA para aplicações como agentes de IA, assistentes de aplicativos e humanos digitais.

Os PCs RTX AI capacitam humanos digitais com modelos multimodais de baixa linguagem

Conheça James, um humano digital interativo especialista em NVIDIA e seus produtos. James usa uma coleção de microsserviços NVIDIA NIM, NVIDIA ACE e tecnologias humanas digitais ElevenLabs para fornecer respostas naturais e envolventes.

NVIDIA ACE é um conjunto de tecnologias humanas digitais que dão vida a agentes, assistentes e avatares. Para alcançar um nível mais elevado de compreensão, para que possam responder com maior consciência contextual, os humanos digitais devem ser capazes de perceber visualmente o mundo como os humanos o fazem.

Melhorar as interações humanas digitais com maior realismo requer tecnologia que permita a percepção e compreensão do ambiente circundante com maiores nuances. Para conseguir isso, a NVIDIA desenvolveu pequenos modelos de linguagem multimodais que podem processar texto e imagens, se destacam na dramatização e são otimizados para tempos de resposta rápidos.

O modelo NVIDIA Nemovision-4B-Instruct, que estará disponível em breve, usa as mais recentes estruturas NVIDIA VILA e NVIDIA NeMo para destilação, poda e quantização para se tornar pequeno o suficiente para rodar em GPUs RTX com a precisão que os desenvolvedores precisam.

O modelo permite que humanos digitais entendam imagens visuais no mundo real e na tela para fornecer respostas relevantes. A multimodalidade serve como base para os fluxos de trabalho dos agentes e oferece uma prévia de um futuro onde os humanos digitais poderão raciocinar e agir com o mínimo de assistência do usuário.

A NVIDIA também apresentará em breve a família Mistral NeMo Minitron 128k Instruct, um conjunto de modelos de linguagem de grande escala e pequeno contexto projetados para interações humanas digitais otimizadas e eficientes. Disponíveis em versões de parâmetros 8B, 4B e 2B, esses modelos oferecem opções flexíveis para balancear velocidade, uso de memória e precisão em PCs RTX AI. Eles podem lidar com grandes conjuntos de dados em uma única etapa, eliminando a necessidade de segmentação e remontagem de dados. Construídos no formato GGUF, esses modelos melhoram a eficiência em dispositivos de baixo consumo de energia e oferecem suporte à compatibilidade com diversas linguagens de programação.

Turbocharge Gen AI com NVIDIA TensorRT Model Optimizer para Windows

Ao portar modelos para ambientes de PC, os desenvolvedores enfrentam o desafio de memória e recursos de computação limitados para executar IA localmente. E querem disponibilizar os modelos ao maior número de pessoas possível, com perda mínima de precisão.

Hoje, a NVIDIA anunciou atualizações para o NVIDIA TensorRT Model Optimizer (ModelOpt) para oferecer aos desenvolvedores do Windows uma maneira melhor de otimizar modelos para a implantação do ONNX Runtime.

Com as atualizações mais recentes, o TensorRT ModelOpt permite otimizar modelos em um ponto de verificação ONNX para implantação de modelo em ambientes de tempo de execução ONNX, usando provedores de execução de GPU como CUDA, TensorRT e DirectML.

TensorRT-ModelOpt inclui algoritmos de quantização avançados, como quantização com reconhecimento de peso INT4-Activation. Comparado a outras ferramentas como Olive, o novo método reduz o consumo de memória do modelo e melhora o desempenho de rendimento em GPUs RTX.

Durante a implantação, os modelos podem ocupar memória até 2,6 vezes menor que os modelos FP16. Isso resulta em um rendimento mais rápido, com degradação mínima na precisão, permitindo que sejam executados em uma variedade maior de PCs.

Saiba mais sobre como os desenvolvedores trabalham em sistemas Microsoft, desde PCs com IA com Windows RTX até NVIDIA BlackwellOs servidores Azure alimentados por IA estão transformando a maneira como os usuários interagem diariamente com a inteligência artificial.

FONTE

Por Staff

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *