O novo modelo de vídeo de IA do Google é menos ruim em física

Por

16 Dezembro 2024

O Google pode ter começado apenas recentemente a lançar sua IA generativa Veo para clientes corporativos, mas a empresa não está perdendo tempo lançando uma nova versão da ferramenta de vídeo para os primeiros testadores. Na segunda-feira, o Google anunciou um prévia do Veo 2. Segundo a empresa, o Veo 2 “entende a linguagem da cinematografia”. Na prática, isso significa que você pode fazer referência a um gênero específico de filme, efeito cinematográfico ou lente ao solicitar o modelo.

Além disso, o Google afirma que o novo modelo compreende melhor a física do mundo real e o movimento humano. Modelar corretamente os humanos em movimento é algo que todos os modelos generativos lutam para fazer. Portanto, a afirmação da empresa de que o Veo 2 é melhor quando se trata de ambos os pontos problemáticos é notável. É claro que as amostras fornecidas pela empresa não são suficientes para ter certeza; o verdadeiro teste das capacidades do Veo 2 virá quando alguém solicitar gerar um vídeo da rotina de uma ginasta. Ah, e por falar em coisas com as quais os modelos de vídeo têm dificuldade, o Google diz que a Veo produzirá artefatos como dedos extras “com menos frequência”.

Uma imagem de amostra de um esquilo gerada pelo Imagen 3 do Google. — Google

Separadamente, o Google está lançando melhorias no Imagen 3. Em seu modelo de texto para imagem, a empresa afirma que a versão mais recente gera imagens mais brilhantes e melhor compostas. Além disso, pode renderizar estilos de arte mais diversos com maior precisão. Ao mesmo tempo, também é melhor seguir as instruções com mais fidelidade. A adesão imediata foi um problema que destaquei quando a empresa disponibilizou o Imagen 3 para clientes do Google Cloud no início deste mês, portanto, pelo menos, o Google está ciente das áreas onde seus modelos de IA precisam ser trabalhados.

O Veo 2 será implementado gradualmente para Laboratórios Google usuários nos EUA. Por enquanto, o Google limitará os testadores a gerar até oito segundos de filmagem em 720p. Para fins de contexto, Sora pode gerar até 20 segundos de filmagem em 1080p, embora isso exija uma assinatura ChatGPT Pro de US$ 200 por mês. Quanto às melhorias mais recentes do Imagen 3, elas estão disponíveis para usuários do Google Labs em mais de 100 países por meio ImagemFX.

Fonte

O novo modelo de vídeo de IA do Google é menos ruim em física

Último Artigo

8 Agentes livres defensivos Os comandantes de Washington devem ter como...

Americanos mais velhos que aceitam empregos de colarinho azul, desaceleração da...

Ilitch Sports + Entertainment, Fox 2 Detroit e Fanduel Sports Network...

Conferência de Atlanta realizada para discutir recursos de saúde mental na...

Meta e Salesforce apresentam agentes de IA para pequenas empresas

Categorias