Resulta un verdadero reto hacerse una idea de la verdadera dimensión de los datos con los que trabajan las compañías que trabajan en el desarrollo de algoritmos de inteligencia artificial generativa, y algunos artículos recientes pueden servir de guía para ello.
En
The Verge, este artículo titulado «OpenAI transcribed over a million hours of
YouTube videos to train GPT-4» ayuda a entender el nivel de desesperación que una compañía puede lograr a la hora de intentar lograr más y más colecciones de datos cuando ya prácticamente la totalidad de la internet considerada aprovechable ha sido incorporada de alguna manera a los datasets de entrenamiento: dedicarse a transcribir más de un millón de horas de vídeos de
YouTube, una conducta, según la compañía, probablemente contraria a sus términos de servicio.
¿Dónde está el problema? Que en este momento, dadas las prisas por disponer de modelos bien entrenados y con cada vez más prestaciones, las compañías dedicadas a su desarrollo prefieren una aproximación del tipo «mejor pedir perdón que pedir permiso», es decir, optan por tomar todos los datos que puedan de todas las fuentes que puedan y llegar posteriormente a acuerdos económicos o a pagar multas cuando ya los modelos están razonablemente bien entrenados.