Brave extrai e vende conteúdos protegidos por direitos autorais para treinamento de IA

Com lógica próxima da política do Google, Brave afirma ter direito sobre conteúdos de usuários porque opera como mecanismo de busca, fornecendo link do local onde as informações foram retiradas

By - Liliane Nakagawa, 18 julho 2023 às 13:37

No início do mês, o Google atualizou detalhes dos termos de privacidade do motor de busca, no qual reserva-se o direito de usar dados disponíveis da web pública para treinar as próprias ferramentas de IA. Embora incomum para uma política de uso, a prática parece ter encorajado outros concorrentes, como a Brave, a seguir pelo mesmo caminho.

De acordo com o desenvolvedor Alex Ivanovs, do site Stack Diary, a Brave estaria vendendo inadvertidamente conteúdo protegido por direitos autorais para treinamento de inteligência artificial por meio da API de busca. Assim como no caso do Google, não há uma resposta legal clara para isso, porém pairam sérias questões éticas em relação a tais práticas, particularmente porque a empresa se reserva no direito de vender o conteúdo de usuários da web porque é um mecanismo de busca.

Brave extrai e vende conteúdos protegidos por direitos autorais para treinamento de IA

Imagem: Brave

O problema estaria no recurso “Extra Snippets”, presente na API de busca da Brave e voltado para produtos de IA, responsável por extrair informações de sites que requerem atribuição. Segundo Ivanovs, que fez o registro na API para verificar quais tipos de dados a ferramenta coletava, o recurso é muito similar ao Snippets do Google.

Enquanto “os snippets em destaque do Google tendem a ser bastante curtos (não mais do que 50 palavras), o que, do ponto de vista dos direitos autorais, pode ser classificado como uso justo”, algumas consultas com a API de pesquisa da Brave, “fiquei bastante surpreso ao ver como os snippets são generosos; neste exemplo abaixo, os “extra_snippets” variam de 150 a 260 palavras”, relata o desenvolvedor.

Brave extrai e revende conteúdos protegidos por direitos autorais para treinamento de IA

Imagem: reprodução/Stack Diary

Embora o exemplo dado com a Wikipédia não tenha sido tão válido, visto que o enciclopédia tem uma licença branda que a Brave pode contornar dando “atribuição”, Ivanovs lembra que quando uma IA como ChatGPT está sendo treinado, não existe essa atribuição para cada consulta que o usuário faz.

“É legal fazer o que a Brave faz? Não há uma resposta clara para isso, mas, no mínimo, há sérias considerações éticas, principalmente reconhecendo o fato de que a Brave acha que tem o direito de vender o conteúdo das pessoas porque é um mecanismo de pesquisa, palavras deles, não minhas. E, para completar, você não pode bloquear o rastreador deles, mesmo se descobrir que a Brave está extraindo explicitamente dados do seu site que você preferiria que não fossem extraídos. A Brave opera sob a noção de que, se o Google tem permissão para fazer isso, eles também têm permissão para fazê-lo. Novamente, palavras deles, não minhas.” — Alex Ivanovs

API de pesquisa da Brave é desenhada para fornecer mais dados

Ao consultar “brave search”, Ivanovs conta que o total de palavras de uma página inteira chegou a aproximadamente 500, com trechos básicos prováveis que um mecanismo de busca mostraria.

Imagem: reprodução/Stack Diary

Ao fazer a mesma consulta por meio da API Data para IA, o resultado ultrapassa as 1.600 palavras.

Imagem: reprodução/Stack Diary

Para visualizar a resposta em JSON: brave_search.json

“A API do Brave Search foi projetada especificamente para fornecer mais conteúdo (dados) do que seria possível com o mecanismo de pesquisa comum. Uma única solicitação à API pode retornar até mil palavras de cada vez e possivelmente mais, dependendo da consulta que você enviar”, diz o desenvolvedor.

Em um exemplo de conteúdo licenciado, o teste de Ivanovs indica que o recurso “Extra Snippets” pode extrair dados além do que é exibido em tela.

Imagem: reprodução/Stack Diary

O JSON completo pode ser visto em bqprime.json

Planos premium da Brave oferecem consultas ilimitadas por mês

Embora não tenha feito milhares de consultas, indexando e analisando os dados com base nas licenças, o desenvolvedor observa que isso pode ser abusado em planos premium da Brave, os quais oferecem “consultas ilimitadas por mês”.

Se o Google tem permissão, então nós também temos

Ao trabalhar com a noção de possibilidade e permissão de se apropriar do conteúdo como fez o Google, a Brave parece conceder essa mesma “permissão” pra si.

“A API do Brave Search não respeita o licenciamento do site, e a Brave supõe que, 1) por ser um mecanismo de pesquisa e 2) por atribuir o URI dos dados, isso a deixa livre para extrair e revender dados palavra por palavra”, afirma Ivanovs.

Em resposta aos questionamentos de Ivanovs, o chefe de pesquisa da Brave Josep M. Pujol enviou um e-mail sobre o assunto levantado, que pode ser lido logo abaixo, na íntegra.

Olá, Alex,

Obrigado por entrar em contato para comentar sobre seu artigo, mas, no futuro, gostaríamos que entrasse em contato conosco antes de publicar seu artigo para verificar suas suposições. Há vários itens em seu artigo que são imprecisos e que geram confusão desnecessária.

Os direitos mencionados não são direitos sobre o conteúdo, com ou sem direitos autorais, como o artigo parece sugerir de forma enganosa. Os direitos são sobre a saída da solicitação da API, que é um conjunto de resultados para uma consulta enviada pelo usuário da API. A Brave Search tem o direito de monetizar e colocar termos de serviço no resultado de seu mecanismo de busca. O “conteúdo da página da Web” é sempre um trecho que depende da consulta do usuário, sempre com atribuição ao URI do conteúdo. Esse é um recurso padrão e esperado de todos os mecanismos de pesquisa.

Enquanto você vê a Brave Search API como uma forma de ganhar dinheiro vergonhosamente, nós a vemos como um serviço para todas as pessoas que querem inovar em pesquisa e LLMs, que poderiam usar apenas a API de pesquisa do Microsoft Bing, que na realidade é um monopólio (a API de pesquisa do Google não é de acesso aberto). Essa é uma visão bem diferente, mas não tão clickbait.

Há também algumas dúvidas sobre como o rastreamento é feito, o que poderia ter sido resolvido perguntando antes de publicar.

O Brave Search tem um rastreador que é parcialmente alimentado por informações fornecidas por usuários inscritos na opção Web Discovery Project (WDP) nas configurações de pesquisa do navegador Brave, que é um sistema de preservação de privacidade desativado por padrão, também conhecido como opt-in, com vários mecanismos para impedir que o Brave saiba quem está contribuindo com o quê (o WDP é de código aberto para inspeção por qualquer pessoa).

O motivo pelo qual não expomos um agente de usuário de rastreamento é prático: não temos os recursos para entrar em contato com todos os proprietários de domínios, que, com ou sem razão, discriminam qualquer pessoa, exceto o Google. Se um domínio ou página não puder ser rastreado por nenhum mecanismo de pesquisa (ele tem uma tag no-index), ou se não puder ser rastreado pelo googlebot, o bot do Brave Search também não o rastreará.

A justificativa da Brave, no entanto, foram insuficientes para sanar questões importantes, segundo o autor do texto.

“Esse e-mail inicial não responde muito bem a questões como:

Como a Brave lida com várias licenças? Existe um sistema automatizado para verificar a licença de um site e, em seguida, ignorar coisas como mostrar trechos de 260 palavras de conteúdo copiado/colado palavra por palavra? Por exemplo, se eu adicionasse uma licença CC BY-NC-ND a este site, como o Brave lidaria com isso? Essa licença específica afirma claramente que o conteúdo não pode ser usado para fins comerciais.

A justificativa da Brave para não divulgar seu Search Crawler é que isso se deve a “razões práticas”, pois eles não têm recursos para entrar em contato com todos os proprietários de domínios que os “bloqueiam” ou “discriminam”. Isso não faz o menor sentido e parece um sinal de alerta para contornar sites que bloqueiam explicitamente seu rastreador. A menos, é claro, que você opte por bloquear o rastreador do Google, o que deixará a Brave feliz.

E quanto a chamar meu artigo de suposição, ele diz literalmente na página da API do Brave Search que você obtém “Direitos de uso de dados para inferência de IA”. Essa mesma página não explica as licenças, como está – a API deles é um pipeline que você pode usar para coletar dados refinados.”, questiona.

Para Ivanovs, “a Brave não se importa se os dados são licenciados de uma forma ou de outra; aparentemente, eles podem monetizar o conteúdo licenciado de outras pessoas porque são um mecanismo de busca”.