Inteligência Artificial

Por causa dos humanos, autodiagnóstico médico com IA está errado em quase 66% dos casos

Modelos funcionam bem quando processam dados de forma isolada, mas interações com humanos, que frequentemente omitem informações ou descrevem sintomas de maneira vaga, dificultam a precisam dos resultados

Estudo da Universidade de Oxford utilizou três IAs: GPT-4o, da OpenAI, Llama 3, da Meta, e Command R+, da Cohere (Freepik)

Estudo da Universidade de Oxford utilizou três IAs: GPT-4o, da OpenAI, Llama 3, da Meta, e Command R+, da Cohere (Freepik)

Publicado em 16 de junho de 2025 às 10h18.

Apesar dos avanços significativos, um estudo recente revela que o uso de grandes modelos de linguagem (LLMs) para diagnóstico médico ainda não é ideal, principalmente quando operado por humanos para autodiagnóstico. Em um experimento realizado pela Universidade de Oxford, a performance de participantes humanos usando LLMs foi significativamente mais baixa do que o esperado, apontando as limitações do modelo no contexto prático.

Embora possam identificar condições médicas corretamente em 94,9% dos cenários apresentados, os participantes humanos que usaram IAs para se autodiagnosticar erraram em quase 66% dos casos. Essa discrepância destaca um problema comum: os modelos funcionam bem quando processam dados de forma isolada, mas as interações com humanos, que frequentemente omitem informações ou descrevem sintomas de maneira vaga, dificultam os resultados.

Utilizando umas das IAs analisadas – GPT-4o, da OpenAI, Llama 3, da Meta, ou Command R+, da Cohere –, pacientes do estudo tiveram desempenho pior do que o grupo de controle, instruído apenas a usar “qualquer método que normalmente usariam em casa”. Com 76% mais chances de acertar o próprio diagnóstico sem IA, o estudo demonstrou que, apesar do vasto acesso a dados médicos, a eficácia dos modelos depende da clareza e precisão das informações fornecidas pelos usuários, o que nem sempre ocorre.

Quando as próprias IAs foram testadas em um ambiente controlado, com interações simuladas, a taxa de acerto foi de 60,7%, significativamente superior aos 34,5% dos participantes humanos. Isso indica que, quando os LLMs interagem entre si, seu desempenho é muito melhor do que nas interações com humanos.

Desafios para a IA

Esse estudo levanta questões cruciais sobre a real aplicabilidade dos LLMs na área da saúde, principalmente sem a supervisão de profissionais. Embora sejam eficazes para processar grandes volumes de dados, a interação com os usuários humanos ainda precisa ser aprimorada para garantir diagnósticos precisos e confiáveis.

Portanto, antes de serem amplamente adotados em diagnósticos médicos, as IAs devem ser melhor adaptadas para levar em conta as nuances e complexidades das interações humanas, garantindo que possam fornecer resultados confiáveis e úteis para os usuários.

Acompanhe tudo sobre:Inteligência artificialOpenAIChatGPTMeta

Mais de Inteligência Artificial

Essa empresa levantou US$ 200 mi e quer criar gadgets com inteligência artificial já 'de fábrica'

Google anuncia investimento de US$ 6,7 bilhões no Reino Unido para expandir infraestrutura de IA

OpenAI contrata ex-diretor financeiro da xAI para supervisionar gastos com infraestrutura

Startup de Elon Musk demite 500 funcionários em um dia