Artigos

DeepSeek Lança Janus-Pro: Uma Nova Era na Geração de Imagens com IA Multimodal

0

A empresa chinesa de inteligência artificial, DeepSeek, que recentemente ganhou destaque com seu chatbot, lançou o Janus-Pro, um modelo de IA multimodal que promete revolucionar a forma como as imagens são geradas e analisadas. O Janus-Pro se apresenta como um forte concorrente, com potencial para superar o DALL-E 3 da OpenAI em diversos testes. Este novo modelo é notável por sua arquitetura inovadora e pela capacidade de processar diferentes tipos de dados, como imagens e texto, de forma integrada.

O que é o Janus-Pro?

O Janus-Pro é um modelo de inteligência artificial multimodal desenvolvido pela DeepSeek. Modelos multimodais são capazes de compreender e conectar diferentes tipos de dados, como texto e imagem. O Janus-Pro se destaca por sua arquitetura autorregressiva, que permite processar informações sequencialmente, construindo a imagem passo a passo. Ele foi projetado para lidar tanto com a compreensão quanto com a geração de texto e imagens, usando aprimoramentos em relação ao seu antecessor.

Arquitetura Inovadora

Uma das características que diferencia o Janus-Pro é a sua codificação visual desacoplada. Em vez de usar um sistema único para interpretar e criar imagens, o Janus-Pro separa esses processos. Um sistema é usado para “ler” imagens e outro para gerar imagens a partir de descrições textuais. Essa separação permite que o modelo realize melhor ambas as tarefas, evitando os compromissos que ocorrem quando um sistema é forçado a lidar com tudo.

O treinamento do Janus-Pro é dividido em três etapas:

Aprendendo noções básicas de visual: Foco no reconhecimento de objetos, textos e padrões visuais.
Conectar visuais e textos: Integração de texto e imagens por meio de treinamento em conjuntos de dados descritivos de texto para imagem.
Ajuste final: Ajuste do equilíbrio dos dados de treinamento para otimizar o desempenho.

Além disso, o Janus-Pro utiliza dados do mundo real e dados sintéticos, melhorando a estabilidade e a qualidade das imagens geradas.

Principais Características

Multimodal: Processa diferentes tipos de dados, como imagens e texto, de forma integrada.
Eficiente: Apresenta alto desempenho mesmo com um número menor de parâmetros.
Flexível: Pode ser usado para diversas tarefas, desde a geração de imagens a partir de descrições textuais até a análise e edição de imagens existentes.
Código Aberto: Disponível para download na plataforma Hugging Face sob a licença MIT.

O modelo está disponível em diferentes tamanhos, variando de 1 bilhão a 7 bilhões de parâmetros. O Janus-Pro-7B, o maior da família, se destaca em testes como o GenEval e o DPG-Bench.

Aplicações do Janus-Pro

As aplicações do Janus-Pro são diversas:

Criação de conteúdo visual: Geração de imagens originais para publicidade, design, jogos e arte digital.
Edição de imagens: Aprimoramento e manipulação de imagens existentes, como restauração de fotos antigas e remoção de objetos.
Análise de imagens: Extração de informações relevantes de imagens, como reconhecimento de objetos e detecção de emoções.

Janus-Pro vs. DALL-E 3

Em testes de comparação, o Janus-Pro demonstrou resultados promissores. Em benchmarks de compreensão multimodal, o Janus-Pro-7B superou modelos como o LLaVA-v1.5-7B e o VILA-U. No GenEval, que avalia a capacidade de um modelo de seguir instruções de texto para gerar imagens, o Janus-Pro-7B obteve uma pontuação de 80,0%, superando o DALL-E 3 (67%) e o SD3-Medium (74%). No DPG-Bench, que testa a precisão na execução detalhada de prompts, o Janus-Pro-7B obteve uma pontuação de 84,2%, superando todos os outros modelos.

No entanto, em alguns testes práticos de geração de texto para imagem, o Janus-Pro apresentou alguns artefatos e inconsistências. Um exemplo fornecido mostrou que, embora o DALL-E 3 tenha gerado uma imagem com todos os elementos do prompt e em um estilo 3D, com algumas distorções, o Janus-Pro gerou uma imagem de qualidade inferior, com distorções e elementos mal formados. Apesar disso, o Janus-Pro se mostrou competitivo em tarefas de compreensão multimodal.

Como Acessar o Janus-Pro

O Janus-Pro pode ser acessado de diversas maneiras:

Demonstração online: Através do Hugging Face Spaces, onde é possível inserir prompts e gerar texto ou imagens diretamente no navegador.
https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B

GUI local com o Gradio: Uma demonstração baseada no Gradio permite interagir com o Janus-Pro através de uma interface web no seu computador.
https://huggingface.co/spaces/webml-community/janus-pro-webgpu

Download: Os modelos podem ser baixados da plataforma Hugging Face para uso e modificação.
https://github.com/deepseek-ai/Janus?tab=readme-ov-file#2-model-download

Ariel Cugenotta
Login/Sign up