A Stable Diffusion, uma alternativa de código aberto para geradores de imagens de IA como Midjourney e DALL-E, foi atualizada para a versão 3.5. O novo modelo busca corrigir alguns dos erros (que podem ser um eufemismo) do amplamente elogiado Meio de Difusão Estável 3. A Stability AI afirma que o modelo 3.5 adere melhor às sugestões do que outros geradores de imagem e compete com modelos muito maiores em termos de qualidade de saída. Além disso, ele é otimizado para uma maior diversidade de estilos, tons de pele e recursos, sem a necessidade de ser solicitado explicitamente.
O novo modelo está disponível em três versões. O Stable Diffusion 3.5 Large é o mais poderoso do trio, com a mais alta qualidade do grupo, ao mesmo tempo que lidera a indústria em aderência imediata. A Stability AI afirma que o modelo é adequado para uso profissional com resolução de 1 MP.
Por outro lado, o Stable Diffusion 3.5 Large Turbo é uma versão «destilada» do modelo maior, focando mais na eficiência do que na qualidade máxima. A Stability AI diz que a variante Turbo ainda produz «imagens de alta qualidade com adesão rápida e excepcional» em quatro passagens.
Por fim, o Stable Diffusion 3.5 Medium (2,5 bilhões de parâmetros) foi projetado para ser executado em hardware de consumo, equilibrando qualidade e simplicidade. Graças à maior facilidade de customização, o modelo consegue gerar imagens com resolução entre 0,25 e 2 megapixels. No entanto, ao contrário dos dois primeiros modelos, que já estão disponíveis, o Stable Diffusion 3.5 Medium não estará disponível antes de 29 de outubro.
O novo trio sucede o fracassado Stable Diffusion 3 Medium de junho. A empresa admitiu que o lançamento «não atendeu totalmente aos nossos padrões ou às expectativas da nossa comunidade», pois produziu um horror corporal ridiculamente grotesco em resposta a pedidos que não exigiam nada disso. As repetidas menções da Stability AI à adesão excepcional e oportuna no anúncio de hoje provavelmente não são uma coincidência.
Embora a Stability AI tenha mencionado isso apenas brevemente na postagem do blog de anúncio, a série 3.5 possui novos filtros para refletir melhor a diversidade humana. A empresa descreve os resultados humanos dos novos modelos como «representativos do mundo, não apenas um tipo de pessoa, com diferentes tons e características de pele, sem a necessidade de muita orientação».
Esperamos que seja sofisticado o suficiente para levar em conta sutilezas e sensibilidades históricas, ao contrário do desastre do Google no início deste ano. Sem que lhe fosse pedido, o Gemini produziu coleções de «fotografias» históricas vergonhosamente imprecisas, como a de nazistas etnicamente diversos e dos Pais Fundadores dos Estados Unidos. A reação foi tão intensa que o Google só restabeleceu o Human Generations seis meses depois.
FONTE