O modelo de pesquisa da NVIDIA permite a reconstrução dinâmica de cenas

O streaming e o envolvimento de conteúdo estão entrando em uma nova dimensão com o QUEEN, um modelo de inteligência artificial da NVIDIA Research e da Universidade de Maryland que possibilita o streaming gratuito de vídeo do ponto de vista, permitindo que os espectadores experimentem uma cena 3D de qualquer ângulo.

O QUEEN pode ser usado para criar aplicativos de streaming envolventes que ensinam habilidades como culinária, equipam os fãs de esportes para assistirem seus times favoritos jogarem de qualquer ângulo ou trazem uma camada extra de profundidade às videoconferências no local de trabalho. Também poderia ser usado em ambientes industriais para ajudar a teleoperar robôs em um armazém ou fábrica.

O modelo será apresentado na NeurIPS, a conferência anual para pesquisa em inteligência artificial que começa terça-feira, 10 de dezembro, em Vancouver.

“Para transmitir vídeo de ponto de vista livre quase em tempo real, devemos reconstruir e compactar simultaneamente a cena 3D”, disse Shalini De Mello, diretor de pesquisa e pesquisador ilustre da NVIDIA. “QUEEN equilibra fatores incluindo taxa de compressão, qualidade visual, tempo de codificação e tempo de renderização para criar um pipeline otimizado que estabelece um novo padrão para qualidade visual e de streaming.”

Reduza, reutilize e recicle para um streaming eficiente

Vídeos de ponto de vista gratuitos normalmente são criados usando imagens de vídeo capturadas de diferentes ângulos de câmera, como uma configuração de estúdio de cinema com várias câmeras, um conjunto de câmeras de segurança em um armazém ou um sistema de câmeras de videoconferência em um escritório.

Os métodos anteriores de IA para gerar vídeo de ponto de vista gratuito exigiam muita memória para transmissão ao vivo ou sacrificavam a qualidade visual para tamanhos de arquivo menores. O QUEEN equilibra ambos para fornecer imagens de alta qualidade, mesmo em cenas dinâmicas com faíscas, chamas ou animais peludos, que podem ser facilmente transmitidas de um servidor host para um dispositivo cliente. Ele também renderiza imagens mais rapidamente do que os métodos anteriores, suportando casos de uso de streaming.

Na maioria dos ambientes do mundo real, muitos elementos de uma cena permanecem estáticos. Em um vídeo, isso significa que uma grande porcentagem de pixels não muda de quadro para quadro. Para economizar tempo de computação, o QUEEN rastreia e reutiliza renderizações dessas regiões estáticas, concentrando-se na reconstrução de conteúdo que muda com o tempo.

Usando uma GPU NVIDIA Tensor Core, os pesquisadores avaliaram o desempenho do QUEEN em vários benchmarks e descobriram que o modelo superou os métodos de última geração para vídeo online de ponto de vista livre em uma série de métricas. Considerando vídeos 2D da mesma cena capturados de ângulos diferentes, normalmente leva menos de cinco segundos de treinamento para renderizar vídeo de ponto de vista livre a aproximadamente 350 quadros por segundo.

Esta combinação de velocidade e qualidade visual pode suportar transmissões multimédia de concertos e jogos desportivos, oferecendo experiências imersivas de realidade virtual ou replays instantâneos de momentos importantes de uma competição.

Em ambientes de armazém, os operadores de robôs poderiam usar o QUEEN para medir melhor a profundidade ao manobrar objetos físicos. E em um aplicativo de videoconferência, como a demonstração de videoconferência 3D mostrada no SIGGRAPH e no NVIDIA GTC, isso poderia ajudar os apresentadores a demonstrar atividades como culinária ou origami, ao mesmo tempo que permite que os espectadores escolham o ângulo de visão que melhor apoia seu aprendizado.

O código do QUEEN será lançado em breve como código aberto e compartilhado na página do projeto.

QUEEN é um dos mais de 50 pôsteres e artigos NeurIPS de autoria da NVIDIA que apresentam pesquisas inovadoras em IA com aplicações potenciais em áreas como simulação, robótica e saúde.

Generative Adversarial Nets, o artigo que introduziu pela primeira vez os modelos GAN, ganhou o prêmio NeurIPS 2024 Test of Time. Citado mais de 85 mil vezes, o artigo foi escrito por Bing Xu, um renomado engenheiro da NVIDIA. Saiba mais com seu autor principal, Ian Goodfellow, pesquisador da DeepMind, no podcast de IA:

Saiba mais sobre a pesquisa da NVIDIA sobre NeurIPS.

Ver o último trabalho de Pesquisa NVIDIAQual tem centenas de cientistas e engenheiros em todo o mundo, com equipes focadas em temas como inteligência artificial, computação gráfica, visão computacional, carros autônomos e robótica.

Pesquisadores acadêmicos que trabalham em grandes modelos de linguagem, simulação e modelagem, IA de ponta e muito mais podem se inscrever em Programa de bolsas acadêmicas da NVIDIA.

Ver eu notifico em relação às informações do produto de software.

FONTE

Por Staff

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *