CNN
–
A mais nova ferramenta de inteligência artificial do Google, “Whisk”, permite que as pessoas carreguem fotos para obter uma imagem combinada gerada por IA – mesmo sem que os usuários insiram qualquer texto para explicar o que desejam.
Os usuários podem inserir imagens representando assuntos, cenários e estilo antes que o Whisk combine tudo em uma imagem.
Whisk é uma “ferramenta criativa” para inspiração rápida, disse o Google em um postagem no blogem oposição a um “editor de imagens tradicional”. Em essência, o Whisk pretende ser um recurso divertido de IA, e não algo que deveria ser um trabalho profissional refinado.
Grandes empresas tecnológicas como a Google e a OpenAI estão a correr para lançar produtos de consumo que possam mostrar utilizações para a nova tecnologia moderna, mesmo quando os opositores alertam que a falta de barreiras de proteção em torno do desenvolvimento da IA representa perigos para a humanidade.
Desde que a OpenAI lançou inicialmente a sua ferramenta de criação de texto para imagem, Dall-E, em 2021, o conceito de arte gerada por IA inundou as redes sociais e tornou-se um foco de produtos de consumo. O Whisk do Google é um gerador de imagem para imagem, baseado no conceito popular de geradores de texto para imagem.
Pessoas que usam o Whisk podem “remixar” a imagem final editando suas entradas e misturando as categorias para produzir imagens diferentes como um brinquedo de pelúcia, alfinete esmaltado ou adesivo. Os usuários podem adicionar texto se quiserem direcionar determinados detalhes, mas não é necessário criar uma imagem.
“O Whisk foi projetado para permitir que os usuários remixem um assunto, cena e estilo de maneiras novas e criativas, oferecendo rápida exploração visual em vez de edições perfeitas”, disse Thomas Iljic, diretor de gerenciamento de produtos do Google Labs, em comunicado.
O Whisk do Google é baseado na IA generativa desenvolvida pela DeepMind, o laboratório de IA que o Google adquiriu em 2014.
Whisk funciona usando a principal oferta de IA do Google, Gemini, que estreou em dezembro de 2023, e combinando-a com Imagen 3, o mais recente gerador de texto para imagem lançado pela DeepMind em dezembro.
Quando os usuários carregam suas imagens, o Gemini gera uma legenda que é alimentada na Imagem 3. O processo captura a “essência” do assunto em oposição a uma réplica exata, o que permite remixar a imagem final, mas também significa que o produto final pode se desviar da imagem final. o prompt.
Por exemplo, a imagem gerada pode ter altura, penteado ou tom de pele diferente das imagens solicitadas, disse o Google em um comunicado. postagem no blog.
Quando o Google lançou pela primeira vez o criador de texto para imagem Gemini em fevereiro, a empresa enfrentou uma reação inicial porque a ferramenta produzia imagens historicamente imprecisas.
O Whisk está disponível pela primeira vez como um site no Google Labs para usuários nos EUA e está em seus estágios iniciais de desenvolvimento, disse a empresa.
OpenAI também recentemente lançado um gerador de texto para vídeo chamado Sora, destacando a concorrência por produtos de consumo.
Dan Ives, diretor administrativo e analista sênior de ações da Wedbush Securities, disse à CNN que Whisk é outro “momento de flexão dos músculos” para o Google na corrida de IA e tecnologia.
“DeepMind é um ativo fundamental para o Google”, disse Ives, observando que os produtos de IA fazem parte do “baú do tesouro” de novos produtos do Google para 2025, que também inclui um novo sistema operacional Android construído em colaboração com Samsung e Qualcomm.