ChatGPT tem taxa de erro de 83% ao diagnosticar casos médicos em crianças

De acordo com pesquisadores, chatbot pareceu ter dificuldade em identificar relações conhecidas entre condições que um médico experiente poderia perceber; entre os 100 desafios submetidos, apenas 17 estavam corretas

By - Liliane Nakagawa, 9 janeiro 2024 às 15:26

Embora a área médica tem sido uma das primeiras a adotar tecnologias baseadas em inteligência artificial (IA), o uso do ChatGPT e versões dele na tentativa de diagnosticar casos médicos desafiadores se mostrou ainda mais decepcionante, especialmente com crianças, com taxa de erro de 83%, segundo uma análise publicada no JAMA Pediatrics em dezembro.

Um novo estudo conduzido por pesquisadores do Cohen Children’s Medical Center apontou que a versão 4 do GPT, da OpenAI, não está pronto para se tornar uma ferramenta útil para diagnósticos complexos em crianças. Em um teste contra 100 desafios de casos pediátricos, publicados no JAMA Pediatrics e no NEJM entre 2013 e 2023, o chatbot apresentou uma taxa de precisão de apenas 17%.

ChatGPT tem taxa de erro de 83% ao diagnosticar casos médicos em crianças

Imagem: ktsdesign/Shutterstock.com

Os pesquisadores observam, no entanto, que os casos pediátricos exigem mais consideração com a idade do paciente em comparação aos casos gerais, visto que é especialmente difícil a identificação ou articulação dos sintomas apresentados.

Além de “ressaltar o o papel inestimável da experiência clínica”, como os autores disseram, o estudo também identifica pontos fracos que levaram à alta taxa de erros do GPT-4 e formas de transformá-lo em uma ferramenta para atendimento clínico, já que há muito interesse e experimentos nesse sentido, levando médicos e pediatras considerarem a integração algo inevitável.

A depender da aplicação e uso de grandes modelos de linguagem (LLMs) na área médica, pode se obter fracassos notáveis como a criação de preconceito racial algorítmico, sucessos com a automação de tarefas administrativas e auxílio nas tarefas de interpretação de exames de tórax e imagens de retina, bem como resultados intermediários.

ChatGPT contra desafios pediátricos

No estudo, os pesquisadores inseriram o texto relevante de casos médicos no prompt e, em seguida, as respostas geradas pelo chatbot foram classificadas como corretas, incorretas ou “não capturaram totalmente o diagnóstico” por dois médicos-pesquisadores.

Para esta última classificação, a IA apresentou uma condição clínica relacionada que era muito inespecífica ou ampla para ser considerada como diagnóstico correto. Entre os 100 casos, 11 deles não foram captados totalmente o diagnóstico, sendo 72 claramente incorretos e apenas 17 com resposta correta. Dos 83 diagnósticos que o ChatGPT errou, 47 se encontravam no mesmo sistema de órgãos.

Imagem: Mojahid Mottakin/Unsplash

Nesses casos de fracassos, os pesquisadores observaram que o ChatGPT parecia ter dificuldade em identificar relações conhecidas entre condições, o que um médico experiente poderia perceber. Em um caso médico, por exemplo, a IA não estabeleceu conexão entre autismo e escorbuto (deficiência de vitamina C), de forma que condições neuropsiquiátricas podem levar a dietas restritas e, que por sua vez, a deficiências desses compostos no organismo. Portanto, os médicos devem ficar atentos a essa relação entre condições neuropsiquiátricas e desenvolvimento de deficiências de vitaminas em crianças. Para o ChatGPT, se tratava de uma doença autoimune rara.

Condições para se tornar uma ferramenta útil na área médica

Para os pesquisadores, o chatbot pode melhorar se treinado — especifica e seletivamente — com literatura médica precisa e confiável. O acesso em tempo real a dados médicos, refinando a precisão (“ajuste”), também foi sugerida como forma de aperfeiçoamento.

“Isso representa uma oportunidade para os pesquisadores investigarem se o treinamento e o ajuste de dados médicos específicos podem melhorar a precisão do diagnóstico de chatbots baseados em LLM”, concluíram os autores do estudo.

Atualmente, bots com inteligência artificial generativa são treinados com material da internet, o que pode incluir informações imprecisas e desinformação, com implicações sérias a depender do objetivo do uso.

Via Ars Technica