Google é processado por roubar dados de usuários para treinar suas ferramentas de IA

CNN

3 anos atrás

O Google foi atingido por um amplo processo nesta terça-feira (11), alegando que a gigante da tecnologia extraiu dados de milhões de usuários sem o consentimento deles e violou as leis de direitos autorais para treinar e desenvolver seus produtos de inteligência artificial (IA).

A ação coletiva proposta contra o Google, sua controladora Alphabet e a subsidiária de inteligência artificial da empresa, DeepMind, foi apresentada em um tribunal federal na Califórnia na terça-feira pela Clarkson Law Firm.

A empresa já entrou com uma ação semelhante contra a OpenAI, fabricante do ChatGPT, no mês passado. (A OpenAI não respondeu anteriormente a um pedido de comentário sobre o processo.)

A denúncia alega que o Google “tem roubado secretamente tudo o que já foi criado e compartilhado na internet por centenas de milhões de americanos” e usado esses dados para treinar seus produtos de IA, como seu chatbot Bard.

A reclamação também afirma que o Google tomou “praticamente toda a nossa pegada digital”, incluindo “trabalhos criativos e escritos” para construir seus produtos de IA.

Representantes do Google, Alphabet e DeepMind não responderam imediatamente a um pedido de comentário.

A reclamação aponta para uma atualização recente da política de privacidade do Google que afirma explicitamente que a empresa pode usar informações acessíveis ao público para treinar seus modelos e ferramentas de IA, como o Bard.

Em resposta a um relatório anterior da Verge sobre a atualização, a empresa disse que sua política “há muito tempo é transparente de que o Google usa informações disponíveis publicamente na web aberta para treinar modelos de linguagem para serviços como o Google Tradutor. Esta atualização mais recente simplesmente esclarece que serviços mais recentes, como o Bard, também estão incluídos.”

O processo ocorre quando uma nova safra de ferramentas de IA ganhou grande atenção nos últimos meses por sua capacidade de gerar trabalho escrito e imagens em resposta às solicitações do usuário.

Os grandes modelos de linguagem que sustentam essa nova tecnologia são capazes de fazer isso treinando em vastos bancos de dados online.

No processo, no entanto, as empresas também estão atraindo crescente escrutínio legal sobre questões de direitos autorais de obras varridas nesses conjuntos de dados, bem como seu uso aparente de dados pessoais e possivelmente confidenciais de usuários comuns, incluindo dados de crianças, de acordo com o Google ação judicial.

“O Google precisa entender que ‘disponível ao público’ nunca significou livre para usar para qualquer finalidade”, disse Tim Giordano, um dos advogados da Clarkson que moveu o processo contra o Google, em entrevista à CNN.

“Nossas informações pessoais e nossos dados são nossa propriedade e são valiosos, e ninguém tem o direito de simplesmente pegá-los e usá-los para qualquer finalidade”, afirmou.

O processo busca uma medida cautelar na forma de um congelamento temporário do acesso comercial e do desenvolvimento comercial das ferramentas de IA generativas do Google, como o Bard.

Também está buscando indenizações e pagamentos não especificados como compensação financeira para pessoas cujos dados foram supostamente desviados pelo Google. A empresa diz que alinhou oito queixosos, incluindo um menor.

Giordano comparou os benefícios e supostos danos de como o Google normalmente indexa dados online para dar suporte ao seu principal mecanismo de busca com as novas alegações de que coleta dados para treinar ferramentas de IA.

Com seu mecanismo de busca, disse ele, o Google pode “fornecer um link atribuído ao seu trabalho que pode realmente levar alguém a comprá-lo ou se envolver com ele”.

A extração de dados para treinar ferramentas de IA, no entanto, está criando “uma versão alternativa do trabalho que altera radicalmente os incentivos para que qualquer pessoa precise comprar o trabalho”, acrescentou Giordano.

Embora alguns usuários da Internet possam ter se acostumado com seus dados digitais sendo coletados e usados para resultados de pesquisa ou publicidade direcionada, o mesmo pode não ser verdade para o treinamento de IA.

“As pessoas não poderiam imaginar que suas informações seriam usadas dessa forma”, disse Giordano.

Ryan Clarkson, sócio do escritório de advocacia, disse que o Google precisa “criar uma oportunidade para que as pessoas optem por não usar” seus dados para treinamento de IA, mantendo a capacidade de usar a Internet para suas necessidades diárias.