Empresas de tecnologia utilizam métodos sofisticados de coleta de dados na internet para desenvolver modelos de inteligência artificial. Este processo envolve o uso de robôs, conhecidos como crawlers ou spiders, que navegam pelos sites para extrair e categorizar informações. Embora essa prática seja essencial para o avanço da IA, ela levanta questões legais e éticas, especialmente no que diz respeito aos direitos autorais e à privacidade.
Crawlers são programas automatizados que percorrem a web para coletar dados. Eles enviam um sinal aos servidores dos sites, solicitando o código HTML que compõe as páginas. Com base nesses códigos, os crawlers extraem metadados, textos, imagens, vídeos e outros elementos.
Os crawlers tradicionais, como os usados pelo Google e Bing, indexam conteúdos para que possam ser facilmente encontrados pelos mecanismos de busca. Eles seguem links de página em página, coletando informações que ajudam a categorizar e listar os conteúdos disponíveis online.
Já os rastreadores utilizados para treinamento de IA vão além, raspando todo o conteúdo das páginas para criar bases de dados massivas que alimentam modelos de machine learning. Isso significa que, em vez de coletar apenas metadados, eles extraem todos os dados disponíveis em um site.
A raspagem de sites, também conhecida como web scraping, é uma técnica amplamente utilizada pelas empresas de tecnologia para o treinamento de modelos de IA. A raspagem pode ser realizada de diversas maneiras, desde o uso de ferramentas prontas até a programação de scripts personalizados em linguagens como Python.
Para realizar a raspagem de dados, utiliza-se geralmente bibliotecas e frameworks como BeautifulSoup, Scrapy e Selenium. Essas soluções permitem navegar por páginas web, identificar e extrair elementos específicos, como textos, imagens e links. Os dados coletados são então limpos e organizados, removendo duplicatas e irrelevâncias, antes de serem utilizados no treinamento de modelos de aprendizado de máquina.
A vantagem dessa abordagem é a capacidade de coletar dados atualizados e variados, essenciais para treinar modelos de IA que precisam lidar com uma ampla gama de informações e contextos.
Big Techs como Google e OpenAI divulgam informações sobre seus rastreadores e permitem que os sites bloqueiem o acesso a seus conteúdos através de arquivos “robots.txt”. No entanto, nem todas as empresas têm a mesma prática, e muitas vezes, programadores encontram maneiras de driblar essas restrições.
Para lidar com sites dinâmicos e mudanças frequentes na estrutura das páginas, algumas empresas de tecnologia utilizam ferramentas de web scraping baseadas em IA para realizar a coleta de dados.
Diferente dos métodos tradicionais, essa abordagem emprega aprendizado de máquina e processamento de linguagem natural para interpretar e extrair dados complexos de páginas web. Além disso, essas ferramentas empregam métodos para resolver CAPTCHAs, rotacionar endereços IP e imitar o comportamento humano para evitar detecções e bloqueios.
A mineração de dados na internet para treinamento de IA é uma prática controversa e sujeita a diferentes interpretações legais ao redor do mundo. Em alguns países, como o Japão, o uso de dados para treinamento de IA é frequentemente considerado “uso justo”, o que significa que não é necessário pagar direitos autorais para o uso de dados públicos.
No entanto, em outras regiões, como na União Europeia, a legislação exige que os donos de sites sejam consultados antes da coleta de dados e que tenham o direito de recusar a utilização de seu conteúdo.
Alguns casos práticos ilustram a complexidade que envolve o uso de dados da web. O projeto Google Books, por exemplo, envolveu a digitalização de milhões de livros sem permissão explícita dos detentores de direitos autorais. O caso gerou uma longa batalha judicial, com a decisão final de que a digitalização e exibição limitada de trechos é considerada “uso justo”, permitindo ao Google continuar o projeto sob certas condições.
Outro exemplo é o caso da Microsoft, que enfrentou críticas em 2021 por usar imagens da web para treinar seus modelos de reconhecimento facial sem permissão dos proprietários das imagens. A empresa ajustou suas práticas em resposta às críticas, demonstrando a necessidade de maior transparência e consentimento.
No Brasil, a regulamentação sobre IA está em desenvolvimento e segue modelos semelhantes aos da UE. O projeto de lei em discussão propõe a proibição da coleta de dados sem consentimento e prevê a remuneração pelo uso de conteúdos protegidos por direitos autorais.
Fonte: Canaltech