Recentemente tivemos um BOOM gigante no uso de inteligências artificiais que geram imagens. Primeiro tivemos os modelos da OpenAI, os famosos DALL-E e DALL-E 2, depois surgiram o Midjourney e oStable Diffusion. Por sua vez as BigTechs também não poderiam ficar de fora, com a Meta anunciando o Make-A-Video, que é semelhante aos outros modelos, mas dessa vez ele cria um vídeo a partir de uma imagem e a Google com o Stable DreamFusion, modelo que cria objetos em 3D. Realmente 2022 foi o ano da IA gerando arte.
A partir desses modelos e suas APIs, vários desenvolvedores começaram a fazer vários apps para smartphone que automatizam o uso dessas IAs. Nessa última semana de novembro de 2022, um app que ficou muito famoso foi o Lensa criado pela Prisma Labs
, mesma empresa que tem o app Prisma, que em suma tinha uma ideia semelhante ao Lensa
só que era mais voltado para a edição e não geração de imagens. Infelizmente o Lensa
é pago, mas se você também estava curioso para testar essa IA, fique calmo, a IA em si é open-source, gratuita e não precisa de tanto conhecimento para utilizá-la.
Mas, antes de botar a mão na massa, vamos primeiro conhecer alguns modelos e como você pode usá-los.
Se você não tem computador, ou ele não é muito potente, uma saída é utilizar os modelos em nuvem
da OpenAI
ou o Midjourney
.
Os modelos DALL-E
da OpenAI
estão agora abertos para o público, sendo assim, você pode entrar nesse site se registar e começar a usar, um único detalhe é que esse modelo possui algumas restrições em relação a rostos, marcas, etc. Sendo assim alguns prompts que você utilizar podem sair meio distorcidos de alguma forma. Além disso você não tem prompts ilimitados, a OpenAI
te dá um espécie de crédito todo mês(referente a quantidade de prompts disponíveis) e caso queira utilizar mais e não quiser esperar o próximo mês para recarregar você terá de pagar uma certa taxa. Para mais detalhes leia a documentação.
Já no caso do Midjourney
, ele é baseado em um bot de Discord
, sendo assim, crie uma conta no Discord
, entre no site deles siga as instruções que eles te passam e se divirta :)
Agora, se maquina disponível não é um problema para você, o recomendável é utilizar o StableDiffusion
, para mais detalhes de uma olhada no site deles e também no github da Stability-AI.
Agora que você conhece alguns do modelos que estão sendo usados hoje, vamos começar a criar alguns Avatares
.
Como citado antes, o Lensa
utiliza um modelo open-source, no caso o Stable Diffusion
, utilizando um técnica, chamada de DreamBooth, que de maneira resumida, pega algumas imagens de entrada e a classe dessas imagens, e a partir disso ele gera um modelo personalizado de text-to-image
, com isso você pode utilizar esse modelo para gerar imagens personalizadas a partir das entradas que você passou para ele antes.
Com isso então, podemos utilizar um modelo já treinado para fazer nossas imagens, aqui utilizaremos um fork
do modelo dísponivel no Github do huggingface criado pelo ShivamShrirao, do qual você pode encontrar aqui.
-
Antes de tudo, tire por volta de
20 fotos suas
, tente enriquecer os detalhes do seu rosto melhorando a iluminação, tirando fotos em vários ângulos, várias poses, etc. -
Com as fotos tiradas você deve padronizá-las em um tamanho de
512x512 px
, para deixá-las dessa forma você pode usar photoshop, gimp, imagemagick, ou quaisquer outros editores e ferramentas disponíveis, eu acabei usando um site chamado birme, por agilizar a centralização do rosto. -
Crie uma conta no HuggingFace
-
Crie uma token no HuggingFace, colocando um nome qualquer para ela e dando a permissão de
escrita(write)
(lembre-se de copiar a token e o nome dela, depois vamos usar essas informações no modelo)
-
Entre aqui e clique em aceitar, nessa parte você permite que o modelo interaja com sua conta do
HuggingFace
-
Abra o modelo no Google Colab clicando no botão ao lado
-
chegando nessa parte:
mude o código para esse abaixo (lembre de trocar o {NOME_DA_SUA_TOKEN_AQUI} para o nome que você colocou na sua token do HuggingFace
)
concepts_list = [
{
"instance_prompt": "{NOME_DA_SUA_TOKEN_AQUI}",
"class_prompt": "photo of a person",
"instance_data_dir": "/content/data/{NOME_DA_SUA_TOKEN_AQUI}",
"class_data_dir": "/content/data/person"
}
]
import json
import os
for c in concepts_list:
os.makedirs(c["instance_data_dir"], exist_ok=True)
with open("concepts_list.json", "w") as f:
json.dump(concepts_list, f, indent=4)
Você verá que do lado direito você tem algumas pastas, entre em data > {NOME_DA_SUA_TOKEN}
e aí dentro você arrasta todas aquelas fotos com 512 x 512 px
- Após adicionar as imagens na pasta coloque o nome da sua token neste local:
- Insira aqui o valor:
stable_diffusion_weights/zwx
- Na seção
Inference
, mude a variávelmodel_path
deWEIGHTS_DIR
para"stable_diffusion_weights/zwx/800"
-
Rode célula a célula até chegar na seção
Run for generating images.
-
Insira o prompt
vá nessa parte do arquivo
Adicione em prompt
o texto que você quer que vire uma imagem. Caso você esteja empolgado, comece a brincar com esses parâmetros.
Se não souber por onde começar use algum site, como o Lexica, para utilizar alguns prompts que a comunidade já usou.
OBS: lembre-se sempre de adicionar o nome da sua token no texto que você vai colocar como entrada(prompt), dessa forma ele vai, de fato, gerar uma imagem com você
- Na seção
Install xformers from precompiled wheel
, recentemente ocorreram vários erros na instalação, minha solução para esses problemas foi utilizar a versãonão compilada do xformers
, para isso adicione um#
no começo da primeira linha do seguinte bloco:
Depois remova o primeiro #
da última linha e adicione aspas ao redor do texto que segue à frente do install, exemplo:
%pip install "git+https://github.com/facebookresearch/xformers@1d31a3a#egg=xformers"
Após mudar o bloco e executar, o pip
irá instalar e compilar o pacote, esse processo pode demorar cerca de 40min
.
Caso no final da execução ainda ocorra um erro, abra uma ISSUE
, assim a comunidade pode tentar te ajudar.
obs: Coloquei esse código apenas como exemplo, não use essa versão, a não ser que você saiba o que está fazendo. Use o pacote sempre mais recente, ou seja aquele que vem com o código que você abre no Google Colab. Se alguns erros começarem à aparecer, tente clicar de novo no botão do Google Colab do passo 6 e abrir com uma nova versão do xformers. Caso, os erros continuem, abra uma ISSUE.
Caso você encontre alguma dificuldade na execução do tutorial, sinta-se à vontade para abrir uma nova ISSUE
.
Já se você encontrou algum problema e sabe como solucionar, também sinta-se à vontade para criar um PULL REQUEST
.
OBS: Tome cuidado para não criar duplicatas
Fiz esse tutorial após ver alguns stories da Gi Bordignon(aka spacecoding), por favor, dê uma olhada nos perfis dela, vale a pena ;)