Pesquisadores de segurança descobriram que milhares de repositórios GitHub, que antes eram acessíveis publicamente, mas desde então se tornaram privados, permanecem acessíveis por meio de ferramentas alimentadas por IA, como o GitHub Copilot. Esta questão destaca a natureza persistente da exposição de dados na Internet, onde a informação, mesmo que brevemente pública, pode ser retida e utilizada por sistemas generativos de IA muito depois de ter sido restringida.
GitHub Copilot, desenvolvido pelo GitHub em colaboração com OpenAI e Microsoft, é um assistente de codificação baseado em IA que sugere trechos de código e conclusões para desenvolvedores. Ele foi treinado em um vasto corpus de código disponível publicamente, o que lhe permite fornecer sugestões contextualmente relevantes. No entanto, esses dados de treinamento incluem código de repositórios que eram públicos no momento do treinamento, mas que desde então se tornaram privados. Como resultado, o Copilot ainda pode gerar sugestões de código com base no conteúdo desses repositórios agora privados.
Esta situação levanta preocupações significativas sobre a privacidade e segurança dos dados. Os desenvolvedores que expuseram inadvertidamente informações confidenciais em repositórios públicos, mesmo que por um curto período, podem descobrir que esses dados foram ingeridos por modelos de IA e ainda podem ser acessados indiretamente por meio de ferramentas como o Copilot. Isto sublinha a importância de ter cautela ao partilhar código publicamente e os desafios de retirar completamente a informação depois de exposta online.
Em resposta a essas preocupações, o GitHub implementou recursos para aumentar a transparência e o controle sobre sugestões de código geradas por IA. Por exemplo, o Visual Studio agora oferece suporte a referência de código para conclusões do GitHub Copilot, permitindo que os desenvolvedores verifiquem se as sugestões são baseadas em código público, o que pode ter implicações de licenciamento. Este recurso fornece informações detalhadas sobre quaisquer correspondências de código público encontradas, permitindo que os desenvolvedores tomem decisões informadas sobre a incorporação de código sugerido em seus projetos.
Apesar destas medidas, o incidente serve como um lembrete da natureza duradoura dos dados, uma vez tornados públicos. Os desenvolvedores são aconselhados a revisar minuciosamente seu código em busca de informações confidenciais antes de torná-lo público e a estar cientes de que, mesmo depois de tornar um repositório privado, os dados previamente expostos ainda podem ser acessíveis por meio de ferramentas de IA treinadas em dados públicos anteriores.
Veja também:Copilot para Windows 11 obtém pesquisa de arquivos aprimorada e Copilot Vision
Fonte:Techcrunch
