Back

OpenAI, dona do ChatGPT, lança modelo que cria vídeos realistas com inteligência artificial a partir de textos

A OpenAI, criadora do robô ChatGPT, revelou nesta quinta-feira (15) um modelo de inteligência artificial que cria vídeos realistas a partir de texto curtos. Batizado de Sora, ele foi liberado para análises de especialistas e ainda não está disponível ao público.

Sora, que cria vídeos com IA a partir de textos, comete gafes; VÍDEO
“O Sora pode criar vídeos de até 60 segundos com cenas altamente detalhadas, movimentos de câmera complexos e vários personagens com emoções vibrantes”, explica a OpenAI.

“O modelo entende não apenas o que o usuário pediu no prompt [comando], mas também como essas coisas existem no mundo físico.”

Demonstrações de criações do Sora incluem tanto animações quanto imagens com estilo realista (veja exemplos). Nenhum vídeo foi gravado por humanos, e sim gerado pela inteligência artificial a partir de pequenos textos, segundo a OpenAI.

Por exemplo, o vídeo que mostra um grupo de mamutes caminhando no gelo foi criado com a seguinte descrição:

“Vários mamutes peludos gigantes se aproximam caminhando por um prado nevado, seu longo pelo lanoso balança levemente ao vento enquanto caminham, árvores cobertas de neve e montanhas dramáticas cobertas de neve ao longe, luz do meio da tarde com nuvens finas e um sol alto a distância cria um brilho quente, a visão baixa da câmera é impressionante, capturando o grande mamífero peludo com uma bela fotografia e profundidade de campo.”

Para diminuir riscos de uso indevido, a OpenAI promete adotar medidas de segurança antes de disponibilizar o Sora em seus produtos.
A empresa diz que o modelo está sendo analisado por pesquisadores em áreas como desinformação, conteúdo de ódio e preconceito. Um grupo de artistas visuais, como designers e cineastas, também recebeu acesso à ferramenta para indicar o que pode ser feito para torná-la útil em suas criações.

“O Sora serve de base para modelos que podem compreender e simular o mundo real, capacidade que acreditamos que será um marco importante para alcançar a AGI [Inteligência Artificial Geral]”, afirma a OpenAI.

Como funciona o Sora

O Sora usa uma técnica chamada “difusão”, que cria imagens a partir de pontos aleatórios. No começo do processo, o vídeo tem uma aparência de ruído estático, o efeito de TVs antigas que estão sem sinal. E, aos poucos, o visual é transformado em algo que pode ser reconhecido por um ser humano.

A técnica é parecida com a de robôs que conseguem criar fotos a partir de descrições dos usuários. Um deles é o DALL-E, que também foi criado pela OpenAI e serviu de base para o desenvolvimento do Sora.

“[O Sora] usa a técnica de recaptação do (robô) DALL-E 3, que envolve a geração de legendas altamente descritivas para os dados de treinamento visual. Como resultado, o modelo [Sora] é capaz de seguir com mais fidelidade as instruções de texto do usuário no vídeo gerado”, diz a OpenAI.

Nem tudo é perfeito
A empresa afirma que, além de criar vídeos do zero, seu novo modelo de inteligência artificial é capaz de criar continuações de vídeos existentes e gerar vídeos a partir de imagens estáticas. E admite que ele também tem “fraquezas”.

Segundo a OpenAI, o Sora pode ter dificuldade para reproduzir a física de uma cena complexa e pode não entender lógicas de causa e efeito. “Por exemplo, uma pessoa pode dar uma mordida em um biscoito, mas depois o biscoito não ter marca de mordida”, explica.

“O modelo também pode confundir detalhes espaciais de um ‘prompt’, por exemplo, misturando direita e esquerda, e pode ter dificuldades com descrições precisas de eventos que ocorrem ao longo do tempo, como seguir uma trajetória específica de câmera.”

Medidas de segurança
A OpenAI promete tomar várias medidas de segurança antes de disponibilizar o Sora em seus produtos. Ela diz que, na fase de testes, a ferramenta geradora de vídeos está sendo desafiada por especialistas em áreas como desinformação, conteúdo de ódio e vieses.

“Também estamos criando recursos que ajudem a detectar conteúdo enganoso”, afirma a empresa, que promete um detector de vídeos criados pelo Sora.

Segundo a OpenAI, o texto apresentador para encomendar um vídeo será verificado para identificar comandos que levem à violação da política de uso da companhia, como aqueles que requeiram violência extrema, conteúdo sexual, semelhança com celebridades etc.

“Não temos como prever todos os usos benéficos que as pessoas terão com a nossa tecnologia, nem todas as maneiras com as quais as pessoas abusarão dele”, diz a OpenAI. “É por isso que acreditamos que o aprendizado a partir do uso no mundo real é um componente crítico para criação e lançamento de sistemas de inteligência artificial cada vez mais seguros ao longo do tempo.”

Como funcionam os robôs que criam fotos

Fonte: G1