Como a IA generativa pode distorcer crenças humanas

Modelos de IA generativa conseguem transmitir preconceitos e estereótipos para usuários por meio dos seus resultados, de acordo com pesquisa

By - Liliane Nakagawa, 13 agosto 2023 às 15:33

As consequências da adoção e do uso regular de modelos de inteligência artificial generativa por um número cada vez maior de pessoas e entre uma variedade de profissionais, particularmente em relação à transmissão de informações falsas e preconceitos aos usuários, têm sido objeto de estudo na Universidade de Berkeley. A pesquisa, recentemente publicada na revista Science, aponta que uma dessas consequências atinge diretamente à formação de crenças com alta certeza em humanos, as quais podem se tornar difíceis de serem revisadas.

Como a IA generativa pode distorcer crenças humanas

Imagem: Local Doctor/Shutterstock.com

Os modelos de IA generativa, incluindo variantes do GPT e DALL-E da OpenAI, o Bard do Google, o Stable Diffusion e o Midjourney, conquistaram o público e inspiraram uma adoção generalizada. A partir desse cenário, as pesquisadoras Celeste Kidd, da Universidade de Berkeley, na Califórnia, e Abeba Birhane, da Mozilla Foundation, sustentam no trabalho ‘How AI can distort human beliefs’ (‘Como a IA pode distorcer crenças humanas’, em tradução livre) que a formação de crenças humanas podem ser distorcidas a partir dos fenômenos estabelecidos como fabricação e o viés em modelos de inteligência artificial (IA) generativa, visto que seres humanos formam crenças por meio da amostragem de um pequeno subconjunto dos dados disponíveis no mundo.

Para chegar à conclusão, as pesquisadoras se apoiaram em outros estudos em torno do tema, nas quais apontam:

Os resultados dos modelo contendo estereótipos e vieses raciais, de gênero e de classe, conhecidos de seus dados de treinamento e de outros fatores estruturais, não apenas afetam grupos marginalizados, como também fabricam informações regularmente.
Embora alguns desenvolvedores reconheçam esses problemas, eles sugerem que usuários usem o sistema para revelar tendências em resultados problemáticos a fim de corrigi-los, no entanto, ignoram o fato de que as distorções nas crenças humanas causadas por modelos de IA generativa não podem ser facilmente corrigidas depois que os problemas são descobertos.
Tal abordagem não se reconhece a incapacidade da arquitetura dos atuais sistemas de IA de distinguir fato de ficção.

Elas conectaram também três princípios fundamentais da psicologia humana, que podem ajudar a construir uma ponte de entendimento sobre o que está em jogo quando se discute opções de regulamentação e políticas, como ligar a outros campos que estão considerando o impacto do viés e da desinformação sobre as crenças em nível populacional.

Ao fazer a conexão, as autoras afirmam a “falta de sinais de incerteza nos modelos generativos pode causar maior distorção em comparação com as entradas humanas”. Isso acontece porque as pessoas comunicam regularmente a incerteza por meio de frases como “eu acho”, atrasos nas respostas, correções e disfluências na fala. Por outro lado, os modelos generativos geram unilateralmente respostas confiantes e fluentes, sem representações de incerteza nem a capacidade de comunicar sua ausência.

Embora os seres humanos às vezes comuniquem informações falsas ou tendenciosas, a taxa de erros humanos seria uma linha de base inadequada para julgar a IA devido às diferenças fundamentais nos tipos de trocas entre a IA generativa e as pessoas e entre pessoas e pessoas.

Além disso, as pessoas atribuem agência e intencionalidade prontamente. Em um estudo clássico, as pessoas leem a intencionalidade nos movimentos de formas geométricas simples e animadas. Da mesma forma, é comum que as pessoas leiam intencionalidade – e inteligência semelhante à humana ou senciência emergente – em modelos generativos, mesmo que esses atributos não sejam comprovados. Essa prontidão para perceber os modelos generativos como agentes intencionais e com conhecimento implica uma prontidão para adotar as informações que eles fornecem mais rapidamente e com mais certeza. Essa tendência pode ser ainda mais fortalecida porque os modelos suportam interações multimodais que permitem aos usuários solicitar aos modelos que executem ações como “ver”, “desenhar” e “falar”, que estão associadas a agentes intencionais.

A possível influência dos resultados problemáticos dos modelos sobre as crenças humanas excede, portanto, o que é normalmente observado para a influência de outras formas de sugestão de conteúdo algorítmico, como a pesquisa.

O número de exposições a informações fabricadas prevê o grau de enraizamento da crença nessas informações. A maior repetição prevê maior força na crença de uma pessoa em uma afirmação falsa – mesmo quando a afirmação contradiz o conhecimento prévio da pessoa. As tendências que aumentam a exposição das pessoas a fabricações consequentemente aumentam a força das crenças das pessoas em informações falsas. A tendência de integrar modelos generativos de IA às tecnologias existentes – por exemplo, mecanismos de busca e smartphones – quase certamente significará uma maior exposição às fabricações e vieses dos modelos.

Da mesma forma, a exposição repetida a vieses em sistemas algorítmicos transmite esses vieses aos usuários humanos ao longo do tempo.

Os modelos de IA generativos têm o potencial de ampliar ainda mais os problemas de exposição repetida tanto para fabricações quanto para viés devido à sua influência esperada sobre o conteúdo da World Wide Web – uma fonte primária de dados de treinamento para os modelos.

A ampliação do impacto das distorções e vieses sistêmicos no futuro em um ciclo de feedback contínuo também foi tema de um estudo que noticiamos recentemente, no qual sustenta que os erros em dados gerados por modelos generativos se agravam com o passar dos anos, forçando os modelos que aprendem com tais dados a perceberem a realidade de forma ainda mais equivocada.

Quanto mais rapidamente esses sistemas forem usados e adotados, e quanto mais forem incorporados ao backend dos sistemas usados em todos os setores, maior será a influência dos sistemas sobre as crenças humanas.

Vale lembrar também que os usuários de modelos conversacionais de IA generativa solicitam informações em momentos específicos – quando estão incertos e, portanto, mais abertos a aprender algo novo. “Depois que uma pessoa recebe uma resposta, sua incerteza diminui, sua curiosidade diminui e ela não considera nem pesa as evidências subsequentes da mesma forma que quando estava nos estágios iniciais de sua decisão”, explica o artigo.

Esse aspecto da curiosidade humana tem implicações de longa data sobre como esses sistemas afetam as crenças humanas. “Isso significa que as informações transmitidas de um modelo de linguagem em larga escala para uma pessoa incerta serão difíceis de atualizar após o fato – porque as informações fornecidas pelo modelo resolverão a incerteza da pessoa, mesmo que estejam incorretas”. “Uma vez que uma crença errônea é fixada em uma pessoa – especialmente se a mesma fabricação ou preconceito for transmitido e depois se fixar em muitas pessoas que usam o mesmo sistema – ela pode ser transmitida perpetuamente entre as pessoas da população”.

Portanto, os vieses transmitidos ou as informações fabricadas não são facilmente corrigíveis após o fato, seja em indivíduos ou em nível populacional. “A quantidade de informações necessárias para atingir esse limiar de certeza será menor no contexto em que elas forem fornecidas por um agente aparentemente confiante e experiente, especialmente se forem apresentadas de forma mais humana, como no contexto de uma conversa. Assim, as alegações dos desenvolvedores em torno de seu sistema de IA generativa podem afetar o quanto os resultados defeituosos distorcem as crenças humanas”.

Como evitar a distorção de crenças humanas provocadas por modelos de IA generativa

De acordo com o estudo, são necessários recursos para a educação do público, dos formuladores de políticas e dos cientistas interdisciplinares, a fim de fornecer visões realistas e informadas sobre como funcionam os modelos de IA generativa e corrigir a desinformação e o exagero existentes em torno dessas novas tecnologias. A ação colaborativa exige que todos aprendam a distinguir os recursos reais dos imaginados das novas tecnologias para que possam se concentrar em enfrentar juntos desafios reais e concretos.

Além disso, auditorias independentes devem incluir não apenas avaliações de fabricação e distorção, mas também medições do grau de conhecimento dos usuários sobre os sistemas e o quanto eles confiam nos resultados. Esses dados podem ser usados para estimar tanto a taxa de resultados problemáticos do modelo para os usuários quanto a gravidade com que esses resultados influenciam as crenças humanas antes da transmissão real. Os campos da psicologia e do aprendizado de máquina poderiam se unir para voltar sua atenção, suas capacidades de colaboração e seus recursos para a realização desse trabalho.

Os estudos e as intervenções subsequentes se concentrariam de forma mais eficaz nos impactos sobre as populações marginalizadas que são afetadas de forma desproporcional por fabricações e estereótipos negativos nos resultados dos modelos.