Los investigadores de seguridad han descubierto que miles de repositorios de GitHub, que alguna vez fueron de acceso público pero que ahora se han hecho privados, siguen siendo accesibles a través de herramientas impulsadas por inteligencia artificial como GitHub Copilot. Este problema pone de relieve la naturaleza persistente de la exposición de datos en Internet, donde la información, incluso si es pública brevemente, puede ser retenida y utilizada por sistemas generativos de IA mucho después de haber sido restringida.
GitHub Copilot, desarrollado por GitHub en colaboración con OpenAI y Microsoft, es un asistente de codificación basado en IA que sugiere fragmentos de código y su finalización a los desarrolladores. Ha sido entrenado en un vasto corpus de código disponible públicamente, lo que le permite proporcionar sugerencias contextualmente relevantes. Sin embargo, estos datos de capacitación incluyen código de repositorios que eran públicos en el momento de la capacitación pero que desde entonces se hicieron privados. Como resultado, Copilot aún puede generar sugerencias de código basadas en el contenido de estos repositorios ahora privados.
Esta situación plantea importantes preocupaciones sobre la privacidad y la seguridad de los datos. Los desarrolladores que sin darse cuenta expusieron información confidencial en repositorios públicos, incluso por un período breve, pueden descubrir que estos datos han sido ingeridos por modelos de IA y aún se puede acceder a ellos indirectamente a través de herramientas como Copilot. Esto subraya la importancia de tener precaución al compartir código públicamente y los desafíos de retractar completamente la información una vez que ha sido expuesta en línea.
En respuesta a estas preocupaciones, GitHub ha implementado funciones para mejorar la transparencia y el control sobre las sugerencias de código generadas por IA. Por ejemplo, Visual Studio ahora admite referencias de código para las completaciones de GitHub Copilot, lo que permite a los desarrolladores verificar si las sugerencias se basan en código público, lo que podría tener implicaciones de licencia. Esta característica proporciona información detallada sobre cualquier coincidencia de código público encontrada, lo que permite a los desarrolladores tomar decisiones informadas sobre la incorporación del código sugerido en sus proyectos.
A pesar de estas medidas, el incidente sirve como recordatorio de la naturaleza duradera de los datos una vez que se hacen públicos. Se recomienda a los desarrolladores que revisen minuciosamente su código en busca de información confidencial antes de hacerlo público y que sean conscientes de que, incluso después de hacer que un repositorio sea privado, los datos previamente expuestos aún pueden ser accesibles a través de herramientas de inteligencia artificial entrenadas en datos públicos anteriores.
Ver también:Copilot para Windows 11 obtiene búsqueda de archivos mejorada y Copilot Vision
Fuente:Crunch tecnológico
