A maioria das pessoas pede imagens pra IA e recebe resultados decepcionantes. O problema quase nunca é a IA: é a forma como o prompt foi escrito.
Descobri um método que muda completamente esse jogo: usar código JSON como prompt de imagem. E o melhor, funciona de graça com o Nano Banana, o modelo mais novo do Google. Minha esposa, que é criteriosa com essas coisas, deu nota 8 pra primeira imagem que gerei, sem ajuste nenhum no resultado.
Neste artigo você vai ver o processo completo, passo a passo, pra replicar isso com qualquer estilo visual que você queira.
O que é o Nano Banana e por que ele importa
Nano Banana é o nome do modelo de geração de imagens mais recente do Google. Ele está disponível gratuitamente no AI Studio (aistudio.google.com) e representa um salto real em qualidade em relação ao que existia antes.
O modelo entende melhor o que você pede, processa mais rápido e produz resultados visualmente mais elaborados. Não é marketing: é diferença perceptível na prática. Pra acessar, você entra no AI Studio, seleciona Nano Banana entre os modelos disponíveis e já pode começar a gerar sem pagar nada.
O que muda o resultado não é o modelo em si, mas a qualidade das instruções que você passa pra ele. E é aí que o JSON entra.
Por que prompt em JSON funciona muito melhor
A maioria das pessoas descreve o que quer em texto corrido: “uma foto minha num estilo cinematográfico, com luz dramática, fundo escuro”. O problema é que esse tipo de instrução deixa muito espaço pra interpretação. A IA “viaja” e preenche as lacunas com seus próprios critérios.
O JSON funciona diferente. Em vez de um parágrafo solto, você organiza cada instrução num campo específico: tipo de fotografia, enquadramento, iluminação, fundo, pose, vestimenta, referência facial. Cada coisa no seu lugar, sem margem pra ambiguidade.
O resultado é que a IA executa o que você pediu, não o que ela acha que você quis dizer. Imagens muito mais fiéis à referência, com muito menos tentativa e erro.
Como encontrar uma boa referência visual
O primeiro passo é não tentar descrever o estilo do zero. Encontre uma foto que já tem o estilo que você quer replicar, seja no Pinterest, no Google Imagens ou em qualquer lugar.
No meu caso, usei uma foto do Anthony Bourdain que eu encontrei no Pinterest. Não me interessava o modelo, mas o estilo: preto e branco, jogo forte de sombras, fundo cimentado, atmosfera meio rebelde. Era exatamente esse clima que eu queria na minha foto.
A referência serve de âncora visual pra IA. Em vez de você tentar explicar o que é “cinematográfico” ou “noir”, você mostra uma imagem que já tem essas características. A IA analisa e transforma em parâmetros técnicos.
Como gerar o JSON com outra IA
Com a referência em mãos, você usa o ChatGPT (ou qualquer IA de texto) pra fazer o trabalho pesado. O processo é simples:
Você anexa a foto de referência e pede pra IA: leia a imagem, descreva com o máximo de detalhes técnicos possíveis e transforme tudo num JSON que será enviado pra outra IA gerar uma nova imagem. Peça também que o JSON inclua um campo de referência facial instruindo a IA a usar fotos do seu rosto que você vai anexar.
Antes de continuar, peça que a IA explique o que entendeu. Isso evita gastar tempo com um resultado que não era o que você queria. Uma etapa de confirmação antes da execução economiza muito retrabalho.
Por que o JSON precisa estar em inglês
Depois de gerar o JSON, peça pra IA reescrever tudo em inglês, se ainda estiver em português.
Os modelos de geração de imagem foram treinados majoritariamente com dados em inglês. Eles interpretam instruções nesse idioma com mais precisão e consistência. É um detalhe técnico que faz diferença real no resultado final.
Um JSON bem estruturado em inglês vai ter campos como: photography type, framing, pose, lighting, background, color palette, clothing, e face reference. Cada campo com instruções diretas e sem redundância.
Como jogar o JSON no Nano Banana
Com o JSON pronto, você vai pro AI Studio, confirma que o modelo Nano Banana está selecionado, anexa de três a cinco fotos do seu rosto em ângulos variados, cola o prompt JSON e aguarda. Em torno de 20 segundos, a imagem está pronta.
A parte das fotos do rosto é importante: quanto mais ângulos você fornecer, melhor o resultado. Fotos frontais, de perfil, de três quartos, inclusive ângulos “esquisitos”. A lógica é parecida com o reconhecimento facial de aplicativos de banco, que pede pra você girar o rosto em círculo. A IA precisa de múltiplos pontos de referência pra entender todos os planos do seu rosto.
O que revisar no JSON pra melhorar o resultado
Fui honesto comigo mesmo sobre o que não ficou perfeito na minha primeira geração: o jogo de sombras não ficou tão dramático quanto o da referência. A foto do Bourdain tinha aquele charme de perder detalhes nas sombras, e na minha a IA preservou tudo.
Olhando o JSON, o problema estava no campo de iluminação: “strong shadows, but with preserved details”. O “preserved details” conflitava com o estilo que eu queria. Removê-lo provavelmente teria resolvido.
A lição é revisar o JSON com calma antes de submeter. Cada instrução conta, inclusive as contradições internas. Uma revisão atenciosa no prompt economiza várias tentativas de geração.
Como aplicar essa lógica em qualquer imagem
O processo que descrevi aqui não é exclusivo pra fotos de pessoas. Funciona pra qualquer imagem que você precise criar:
Primeiro, encontre uma referência que já tem o estilo que você quer. Depois, use uma IA de texto pra descrever a referência e transformar a descrição num JSON detalhado em inglês. Por último, jogue o JSON na IA de geração de imagens com as referências adicionais que você precisar.
Isso funciona pra carrosséis, thumbnails de YouTube, mockups de produto, artes para anúncios, qualquer coisa visual. A diferença entre um resultado mediano e um resultado que arranca um “uau” está na precisão das instruções. E o JSON é o formato mais preciso que existe pra dar instruções a uma IA de imagem.
Perguntas frequentes
O que é o Nano Banana do Google?
Nano Banana é o modelo de geração de imagens mais recente do Google, disponível gratuitamente pelo AI Studio (aistudio.google.com). Ele entende prompts com mais precisão, gera imagens mais rápido e produz resultados visualmente superiores ao que existia antes.
Por que usar prompt em JSON em vez de texto corrido?
O JSON elimina ambiguidade. Em texto corrido, a IA interpreta o que acha que você quer dizer. Em JSON, cada instrução é um campo separado, direto e sem margem pra interpretação. O resultado é uma imagem muito mais fiel ao que você pediu.
Preciso saber programar pra usar JSON com a IA?
Não. Você usa o ChatGPT (ou qualquer IA de texto) pra gerar o JSON automaticamente. Você fornece a imagem de referência, pede uma descrição técnica detalhada e pede pra transformar em JSON. A IA faz tudo isso por você.
Quantas fotos do meu rosto devo fornecer?
Quanto mais ângulos, melhor. Fotos frontais, de perfil, três quartos e até ângulos menos comuns ajudam a IA a entender todos os lados do seu rosto. A lógica é parecida com o reconhecimento facial de aplicativos bancários: mais pontos de referência, resultado mais fiel.
O prompt precisa estar em inglês?
Sim, e faz bastante diferença. Os modelos de imagem foram treinados principalmente em inglês, então tendem a interpretar instruções nesse idioma com mais precisão. Peça pra IA gerar o JSON em inglês antes de jogar no Nano Banana.
Essa técnica funciona só pra fotos de pessoas?
Não. Funciona pra qualquer tipo de imagem: carrosséis, thumbnails, mockups de produto, ilustrações, artes para anúncios. A lógica do JSON como formato de instrução se aplica a qualquer geração de imagem.
O Nano Banana é realmente gratuito?
Sim. O acesso pelo Google AI Studio não exige pagamento para começar. Você cria uma conta Google, entra em aistudio.google.com, seleciona o modelo Nano Banana e já pode gerar imagens sem custo.
