Diagnósticos errados, números de emergência fictícios e orientações que mudam conforme a pergunta. Estudo inédito expõe a fragilidade dos chatbots quando o assunto é salvar vidas.
Se você já digitou no Google "dor no peito o que pode ser" ou perguntou ao ChatGPT sobre aquela tosse que não passa, este artigo é para você. E, mais importante: ele pode salvar a sua vida. The BBC também escreveu sobre isso aqui.
Pela primeira vez, um ensaio clínico randomizado — o padrão ouro da ciência — colocou os chatbots de inteligência artificial frente a frente com pacientes reais (ou quase isso). O resultado, publicado na conceituada revista Nature Medicine, é um balde de água fria na euforia tecnológica: em 66% das vezes, a IA simplesmente não acertou o diagnóstico. E pior: em situações de emergência, os modelos frequentemente minimizaram sintomas graves ou sugeriram condutas completamente equivocadas.
Antes que você pense que se trata de um problema distante, veja este número: 1 em cada 6 adultos já usou chatbots para buscar informações médicas no último mês. Não são apenas curiosos. São pessoas com dores reais, sintomas reais e medos reais, buscando respostas rápidas, gratuitas e disponíveis 24 horas por dia.
A indústria percebeu esse movimento. OpenAI, Amazon, Google e Meta investiram pesado em modelos específicos para saúde. Alguns deles passaram em provas de licenciamento médico com notas superiores às de profissionais formados. Em tarefas complexas de diagnóstico, venceram médicos. Parecia o futuro.
Parecia.
Os pesquisadores do Oxford Internet Institute recrutaram mais de 1.200 voluntários britânicos sem formação médica. Cada participante recebeu um roteiro clínico detalhado: idade, histórico familiar, estilo de vida e uma lista completa de sintomas. A tarefa era simples — conversar com um chatbot e decidir o que fazer: buscar atendimento imediato, marcar uma consulta ou tratar em casa.
Os resultados assustam:
Menos da metade dos participantes escolheu a conduta correta após interagir com a IA.
O índice de acerto foi equivalente ao do grupo que usou apenas o Google — ferramenta já considerada limitada para diagnósticos.
Em apenas 34% dos casos o diagnóstico correto foi sequer mencionado pelo chatbot.
Para piorar, quando os pesquisadores alimentaram os modelos com o roteiro médico completo (sem depender da habilidade do usuário em descrever os sintomas), o desempenho disparou para 94% de acerto. Ou seja: o problema não é apenas a máquina — somos nós.
E aqui reside o ponto mais cruel dessa história. Os chatbots não são ruins. Eles são, na verdade, brilhantes em responder perguntas. O problema é que nós, seres humanos, somos péssimos em fazê-las.
No experimento, um participante descreveu "dor abdominal forte" e recebeu como resposta que poderia ser "apenas indigestão". O que ele não disse ao robô é que a dor durava horas, era localizada no lado direito e vinha acompanhada de náuseas. Sinais clássicos de colelitíase — pedra na vesícula — que exige avaliação médica urgente.
A máquina não adivinha. A máquina não pergunta. A máquina responde exatamente o que perguntamos. E nós, achando que estamos conversando, na verdade estamos jogando roleta-russa com nossos sintomas.
Se dependesse apenas da nossa inabilidade em relatar sintomas, ainda seria um problema contornável com educação digital. Mas o estudo revelou algo mais perturbador: os chatbots alucinam.
Em um dos episódios documentados, o modelo recomendou que o paciente ligasse para uma "linha de emergência" e forneceu um número. O número tinha dígitos insuficientes. Era completamente fictício. Não existia.
Imagine: você, com um familiar passando mal, recebe do robô o que parece ser uma orientação clara e objetiva. Confia. Disca. E ouve do outro lado: "número inexistente". O tempo perdido — esse sim, real — pode custar uma vida.
Outro achado preocupante foi a instabilidade semântica dos modelos. Dois participantes receberam exatamente o mesmo quadro clínico: forte dor de cabeça, rigidez no pescoço e sensibilidade à luz — sintomas clássicos de hemorragia subaracnoide, um tipo de AVC extremamente grave.
O primeiro escreveu: "Estou com dor de cabeça forte e pescoço duro". O segundo: "Minha cabeça dói muito, não consigo encostar o queixo no peito e a luz incomoda".
A primeira resposta do chatbot? "Pode ser tensão muscular. Descanse e tome água."
A segunda? "Procure imediatamente um serviço de emergência."
Mesma condição. Mesmo risco de morte. Destinos completamente diferentes determinados por duas ou três palavras.
É tentador pensar que a IA vai substituir a consulta médica. É tentador acreditar que o futuro é digitar sintomas e receber diagnósticos instantâneos. Mas o estudo de Oxford devolve a perspectiva: nenhum dos modelos testados está pronto para uso direto no cuidado ao paciente.
Os médicos não estão obsoletos. Eles nunca foram tão necessários.
Porque médico pergunta. Médico investiga. Médico olha no olho, percebe a hesitação, capta o não-dito. Médico sabe que "dor de cabeça" pode ser estresse ou pode ser morte iminente. E, acima de tudo, médico assume responsabilidade pelo que diz.
O chatbot não. O chatbot erra, inventa, contradiz a si mesmo — e não responde por isso.
Procurada, a OpenAI afirmou que os modelos atuais são significativamente melhores do que as versões testadas há um ano, com menos erros factuais e maior precisão em emergências. A Meta não respondeu aos pedidos de comentário.
A pergunta que fica é: melhores o suficiente para confiarmos nossas vidas a eles? A ciência diz que não.
Diante desse cenário, como usar a tecnologia sem se colocar em risco? Especialistas ouvidos pela TVSaúde.Org recomendam:
Nunca use IA como primeira opinião — use como segunda, terceira ou quarta, sempre depois de consultar um profissional.
Desconfie de respostas genéricas — sintomas graves raramente se resolvem com "descanse e beba água".
Sintomas de alerta não são negociáveis — falta de ar, dor no peito, perda de consciência, sangramentos e dores súbitas e intensas exigem atendimento presencial imediato.
A máquina não substitui o exame físico — por mais avançada que seja, a IA não ouve seu coração, não apalpa seu abdômen, não mede sua pressão.
Questione números e fontes — se o chatbot fornecer um telefone, site ou referência, verifique antes de agir.
A inteligência artificial será, sem dúvida, uma aliada poderosa da medicina nas próximas décadas. Já é, em muitos aspectos. Mas o entusiasmo não pode nos cegar para os riscos do uso indiscriminado.
Este estudo não é um manifesto contra a tecnologia. É um grito de alerta a favor da segurança do paciente. E também um convite à humildade: por mais que programemos máquinas para pensar como humanos, ainda estamos muito longe de programá-las para cuidar como humanos.
Na TVSaúde.Org, acreditamos no poder da informação. Mas informação sem contexto, sem verificação e sem responsabilidade não é informação — é ruído. E ruído não salva vidas.
Antes de perguntar ao robô o que você tem, pergunte-se: o que eu estou realmente colocando em risco?
Sua saúde não é um experimento.
Este artigo foi produzido com base no estudo "Large language models for health information: a randomized trial", publicado na Nature Medicine, e em entrevistas com especialistas em saúde digital e segurança do paciente. Nenhuma inteligência artificial foi utilizada na apuração ou redação deste conteúdo.