La investigación revela el contenido de los datos que alimentan a la IA

The Washington Post investigó una base de datos pública de Google utilizada para entrenar inteligencia artificial. Con contenido procedente de 15 millones de sitios, los analistas han encontrado una gran cantidad de contenido problemático, que los chatbots podrían regurgitar en los textos que generan…

también te interesará

[EN VIDÉO] ¿Cómo definir la relevancia de la inteligencia artificial? La inteligencia artificial (IA), cada vez más presente en nuestro mundo, permite a las máquinas imitar…

Si bien OpenAI no proporciona detalles sobre las fuentes utilizadas para entrenar ChatGPTChatGPT, otros investigadores de inteligencia artificial utilizan bases de datos de acceso abierto. Así, el Washington Post, en colaboración con el Instituto Allen para la IA, analizó la base de datos C4 de Google, utilizada en particular para entrenar el Transformador de transferencia de texto a texto (T5) de IA de Google, y el lenguaje LLaMA modelo grande de FacebookFacebook.

La base de datos C4 se compone de información de 15 millones de sitios y se ha filtrado para evitar contenido problemático. Aun así, los filtros utilizados para eliminar fuentes no deseadas han tenido resultados muy discutibles.

Mucho contenido racista, transfóbico y conspirativo.

El filtro que utiliza Google elimina determinados contenidos basándose en una lista de 402 palabras a evitar en inglés. Según el Washington Post, este enfoque no solo tiende a eliminar las fuentes de contenido LGBT no sexual, sino que también se han preservado muchos sitios problemáticos. En cuanto a los sitios de noticias, el medio estatal ruso RT.com (anteriormente Russia Today), el sitio de extrema derecha breitart.com y vd.com, un sitio antiinmigración con enlaces a los movimientos supremacistas blancos, se encuentran entre los sitios que han contribuido con la la mayoría a C4 (clasificados 65, 159 y 993 de 15 millones, respectivamente).

También están presentes otros sitios igualmente problemáticos, como 4Chan, un foro muy controvertido, Stormfront, un sitio supremacista blanco, o Kiwifarms, un sitio anti-trans. Los analistas han encontrado sitios de conspiración, cientos de sitios de pornografía, y la palabra esvástica, la esvástica, está presente 72.000 veces a pesar de ser una de las palabras filtradas. También encontraron un sesgo en los 20 principales sitios religiosos, 14 de los cuales son sitios cristianos. El primero pertenece a una megaiglesia evangélica que recientemente fue noticia luego de aconsejar a las mujeres que se sometan a sus esposos o padres abusivos y no le digan a las autoridades…

Contenido protegido usado sin permiso

The Washington Post señaló con el dedo el uso de contenidos protegidos por derechos de autor, en particular el símbolo © que aparece más de 200 millones de veces en la base de datos. El sitio que más ha contribuido a la base de datos de C4 es patents.google.com, el motor de búsqueda de patentes. Kickstarter y Patreon, dos sitios para financiar a los creadores, también están entre los primeros puestos de la clasificación. Por lo tanto, las IA serían entrenadas en sus ideas, sin su consentimiento. Google C4 también contiene información personal, incluidos sitios que contienen copias de datos de registro de votantes de varios estados de EE. UU. y blogs personales.

También en 540 está Reddit, uno de los foros públicos más grandes ampliamente utilizado para la capacitación en IA y que anunció esta semana que las empresas tendrán que pagar para acceder a los datos del sitio. La enciclopedia libre Wikipedia ocupa el segundo lugar. Y, como era de esperar, los medios representan la mitad de los 10 sitios principales, y el contenido se usa nuevamente sin compensación ni autorización.

Este tipo de análisis de datos de entrenamiento plantea preguntas reales sobre los datos utilizados para entrenar modelos de lenguaje grandes y su impacto en las inteligencias artificiales resultantes y las respuestas que pueden dar. La base de datos utilizada por OpenAI para entrenar GPT-3 sería 40 veces más grande y, por lo tanto, tendría el potencial de ser aún más problemática. Esto probablemente explica por qué sigue siendo confidencial…

Deja un comentario