‘Sou o que menos confia nas respostas que saem do ChatGPT’, diz Altman

Fala do CEO da OpenAI explicita um dos grandes problemas de sistemas de inteligência artificial generativos: a alucinação. Embora a correção pareça um caminho ideal, profissionais da área discutem impossibilidade e insuficiência por trás da 'solução'

By - Liliane Nakagawa, 10 setembro 2023 às 15:33

“Provavelmente, eu sou o que menos confia nas respostas que saem do ChatGPT”.

A fala é a de Sam Altman, CEO da OpenAI, empresa por trás do popular ChatGPT, hoje largamente usado por diversas empresas, organizações e alunos do ensino médio para inúmeras tarefas, além daquelas com potencial para consequências de alto risco. Embora a resposta do criador do chatbot com inteligência artificial tenha levado à plateia de uma universidade ao riso, um dos principais problemas com os sistemas de IA generativa — alucinação, confabulação ou conhecido simplesmente por inventar ou produzir mentiras — é preocupante. Enquanto a correção é apontada como solução, a medida divide opiniões entre estudiosos e profissionais da área.

A invenção de fatos é uma das características presentes não apenas em chatbots com inteligência artificial como o ChatGPT, mas também de Claude 2, Bard do Google e os demais dessa última safra. A alucinação presente nesses modelos levanta grandes preocupações, principalmente ao ser designado para diversas atividades, incluindo com potencial para consequências de alto risco — da psicoterapia até pesquisa, além da redação de resumos jurídicos— nas quais empresas responsáveis não recomendam.

A correção, apontada como solução para tais erros em sistemas generativos pelas empresas e por alguns estudiosos da área, é apontada como impossível, já que essa a característica de alucinação é intrínseca à forma como eles são projetados. “Acho que não existe nenhum modelo atual que não sofra de alguma alucinação”, diz Daniela Amodei, cofundadora e presidente da Anthropic, fabricante do chatbot Claude 2. “Eles são realmente projetados para prever a próxima palavra”, “e, portanto, haverá alguma taxa em que o modelo fará isso de forma imprecisa.”

Assim como a OpenAI, a Anthropic e outros grandes desenvolvedores de sistemas de IA conhecidos como grandes modelos de linguagem dizem estar trabalhando para torná-los mais verdadeiros, embora não haja alguma previsão para que isso ocorra e se algum dia serão, de fato, confiáveis o suficiente.

Imagem: Production/Shutterstock.com

No entanto, para Emily Bender, professora de linguística e diretora do Laboratório de Linguística Computacional da Universidade de Washington, “isso não pode ser consertado”. “É inerente à incompatibilidade entre a tecnologia e os casos de uso propostos.”, diz a docente.

A confiabilidade da tecnologia de IA generativa carrega muitas expectativas. De acordo com a projeção da McKinsey Global Institute, ela acrescentará o equivalente a US$ 2,6 trilhões a US$ 4,4 trilhões à economia global. Os chatbots são apenas uma parte desse frenesi, que também inclui tecnologia que pode gerar novas imagens, vídeos, músicas e códigos de computador. Quase todas as ferramentas incluem algum componente de linguagem.

‘Sou o que menos confia nas respostas que saem do ChatGPT’, diz Altman

Em junho, Sam Altman, CEO da OpenAI, passou por Nova Délhi durante a sua turnê mundial. Ao visitar a Índia, o executivo norte-americano visitou o Indraprastha Institute of Information Technology Delhi, onde falou a um auditório lotado do campus.

“Acho que as alucinações no ChatGPT ainda são aceitáveis, mas quando uma receita sai alucinada, isso se torna um problema sério”, disse o professor Bagler a Altman. “Qual é a sua opinião sobre isso?”, perguntou ao empresário.

'Sou o que menos confia nas respostas que saem do ChatGPT', diz Altman

Imagem: TechCrunch, CC BY 2.0 <https://creativecommons.org/licenses/by/2.0>, via Wikimedia Commons

“Provavelmente, eu sou o que menos confia nas respostas que saem do ChatGPT”, respondeu o executivo à plateia em risos.

“Acho que levaremos o problema da alucinação a um lugar muito, muito melhor”, disse Altman, expressando otimismo, senão um compromisso definitivo. “Acho que levaremos um ano e meio, dois anos. Algo assim. Mas, nesse ponto, não continuaremos a falar sobre isso. Há um equilíbrio entre criatividade e precisão perfeita, e o modelo precisará aprender quando você quer uma coisa ou outra.”

Alucinação: melhorias em sistemas de inteligência artificial generativas “não serão suficientes”

Entretanto, para alguns especialistas que estudaram a tecnologia, como o linguista Bender, da Universidade de Washington, essas melhorias não serão suficientes.

Nas palavras dele, um modelo de linguagem é como um sistema para “modelar a probabilidade de diferentes sequências de formas de palavras”, com base em alguns dados escritos com os quais foi treinado.

O caso é semelhante ao de verificadores ortográficos enquanto capazes de detectar quando o usuário digita uma palavra incorretamente. Ao mesmo tempo, eles ajudam a alimentar os serviços de tradução e transcrição automáticas, “suavizando o resultado para que se pareça mais com o texto típico do idioma de destino”, explica Bender. Muitas pessoas confiam em uma versão dessa tecnologia sempre que usam o recurso “autocompletar” ao redigir mensagens de texto ou e-mails.

ChatGPT, Claude 2 ou Bard do Google, além de outros da última safra, tentam levar isso ao próximo nível, gerando passagens de texto totalmente novas. Entretanto, segundo Bender, eles ainda estão apenas selecionando repetidamente a próxima palavra mais plausível em uma sequência.

Imagem: cybermagician/Shutterstock.com

Quando usados para gerar texto, os modelos de linguagem “são projetados para inventar coisas. É só isso que eles fazem”, disse o linguista à Associated Press. Eles são bons em imitar formas de escrita, como contratos legais, roteiros de televisão ou sonetos. “Mas, como eles só inventam coisas, quando o texto que eles extraem pode ser interpretado como algo que consideramos correto, isso acontece por acaso”, acrescentou.

“Mesmo que eles possam ser ajustados para estarem certos na maior parte do tempo, eles ainda terão modos de falha – e provavelmente as falhas serão nos casos em que é mais difícil para uma pessoa que está lendo o texto perceber, porque eles são mais obscuros.”