Melhoria na Diversidade de Pessoas com Stable Diffusion 3.5

A Stable Diffusion, uma alternativa de código aberto para geradores de imagens de IA como Midjourney e DALL-E, foi atualizada para a versão 3.5. O novo modelo busca corrigir alguns dos erros (que podem ser um eufemismo) do amplamente elogiado Meio de Difusão Estável 3. A Stability AI afirma que o modelo 3.5 adere melhor às sugestões do que outros geradores de imagem e compete com modelos muito maiores em termos de qualidade de saída. Além disso, ele é otimizado para uma maior diversidade de estilos, tons de pele e recursos, sem a necessidade de ser solicitado explicitamente.

O novo modelo está disponível em três versões. O Stable Diffusion 3.5 Large é o mais poderoso do trio, com a mais alta qualidade do grupo, ao mesmo tempo que lidera a indústria em aderência imediata. A Stability AI afirma que o modelo é adequado para uso profissional com resolução de 1 MP.

Por outro lado, o Stable Diffusion 3.5 Large Turbo é uma versão «destilada» do modelo maior, focando mais na eficiência do que na qualidade máxima. A Stability AI diz que a variante Turbo ainda produz «imagens de alta qualidade com adesão rápida e excepcional» em quatro passagens.

Por fim, o Stable Diffusion 3.5 Medium (2,5 bilhões de parâmetros) foi projetado para ser executado em hardware de consumo, equilibrando qualidade e simplicidade. Graças à maior facilidade de customização, o modelo consegue gerar imagens com resolução entre 0,25 e 2 megapixels. No entanto, ao contrário dos dois primeiros modelos, que já estão disponíveis, o Stable Diffusion 3.5 Medium não estará disponível antes de 29 de outubro.

O novo trio sucede o fracassado Stable Diffusion 3 Medium de junho. A empresa admitiu que o lançamento «não atendeu totalmente aos nossos padrões ou às expectativas da nossa comunidade», pois produziu um horror corporal ridiculamente grotesco em resposta a pedidos que não exigiam nada disso. As repetidas menções da Stability AI à adesão excepcional e oportuna no anúncio de hoje provavelmente não são uma coincidência.

Embora a Stability AI tenha mencionado isso apenas brevemente na postagem do blog de anúncio, a série 3.5 possui novos filtros para refletir melhor a diversidade humana. A empresa descreve os resultados humanos dos novos modelos como «representativos do mundo, não apenas um tipo de pessoa, com diferentes tons e características de pele, sem a necessidade de muita orientação».

Esperamos que seja sofisticado o suficiente para levar em conta sutilezas e sensibilidades históricas, ao contrário do desastre do Google no início deste ano. Sem que lhe fosse pedido, o Gemini produziu coleções de «fotografias» históricas vergonhosamente imprecisas, como a de nazistas etnicamente diversos e dos Pais Fundadores dos Estados Unidos. A reação foi tão intensa que o Google só restabeleceu o Human Generations seis meses depois.

FONTE

Melhoria na Diversidade de Pessoas com Stable Diffusion 3.5

PorStaff

Por Staff

Entrada relacionada

O que aguardar do evento de lançamento do Samsung Galaxy S25 Unpacked

Legion Pro 7i: laptop para jogos suporta gráficos até RTX 5090

Citizen Sleeper 2: como manter nossa humanidade em um futuro desolador

Deja una respuesta Cancelar la respuesta

Perdeu-se?

O que aguardar do evento de lançamento do Samsung Galaxy S25 Unpacked

Desenvolva um assistente digital duplo com tecnologias de IA da Oracle

Legion Pro 7i: laptop para jogos suporta gráficos até RTX 5090

Como remover o menu G-Invoicing no centro de trabalho do comprador