O novo modelo de vídeo de IA do Google é menos péssimo em física

O Google pode ter começado recentemente a lançar sua IA generativa Veo para clientes corporativos, mas a empresa não perde tempo em apresentar uma nova versão da ferramenta de vídeo aos primeiros testadores. Na segunda-feira, o Google anunciou uma prévia do Veo 2. Segundo a empresa, o Veo 2 «entende a linguagem da cinematografia». Na prática, isso significa que você pode se referir a um gênero de filme, efeito cinematográfico ou lente específico quando o modelo for solicitado.

Além disso, o Google afirma que o novo modelo compreende melhor a física do mundo real e o movimento humano. Modelar corretamente os humanos em movimento é algo que todos os modelos generativos lutam para fazer. Portanto, é digna de nota a afirmação da empresa de que o Veo 2 é melhor quando se trata de ambos os pontos problemáticos. É claro que as amostras fornecidas pela empresa não são suficientes para ter certeza; o verdadeiro teste das capacidades do Veo 2 virá quando alguém solicitar que ele gere um vídeo da rotina de uma ginasta. Ah, e falando em coisas que os modelos de vídeo enfrentam, o Google diz que o Veo produzirá artefatos como dedos extras «com menos frequência».

Separadamente, o Google está lançando melhorias no Imagen 3. Em seu modelo de texto para imagem, a empresa afirma que a versão mais recente gera imagens mais brilhantes e melhor compostas. Além disso, pode renderizar estilos de arte mais diversos com maior precisão. Ao mesmo tempo, ele também segue melhor as instruções com mais fidelidade. A integração oportuna foi um problema que destaquei quando a empresa disponibilizou o Imagen 3 para clientes do Google Cloud no início deste mês, portanto, pelo menos, o Google está ciente das áreas onde seus modelos de IA precisam ser trabalhados.

O Veo 2 será implementado gradualmente para usuários do Google Labs nos Estados Unidos. Por enquanto, o Google limitará os testadores a gerar até oito segundos de filmagem em 720p. Para contextualizar, Sora pode gerar até 20 segundos de filmagem em 1080p, embora isso exija uma assinatura ChatGPT Pro de US$ 200 por mês. Quanto às melhorias mais recentes do Imagen 3, elas estão disponíveis para usuários do Google Labs em mais de 100 países via ImageFX.

FONTE

Por Staff

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *