OpenAI y Google entrenan sus modelos de IA con transcripciones de videos de YouTube, según NYT


OOpenAI y Google han sido señaladas por utilizar transcripciones de videos de YouTube para entrenar sus sistemas de IA, según informa ‘The New York Times’. Estas prácticas podrían estar rozando las fronteras de las violaciones de derechos de autor, desafiando las políticas establecidas por los servicios digitales de los que extraen los datos.

La demanda de grandes volúmenes de datos para el entrenamiento de modelos de IA ha llevado a estas compañías a buscar en los rincones más recónditos de internet, incluyendo plataformas como YouTube, donde la cantidad y diversidad de contenido es prácticamente ilimitada. Sin embargo, el uso de estos datos plantea serias preguntas sobre la legalidad y ética de tales prácticas.

Según fuentes internas, OpenAI desarrolló una herramienta denominada Whisper específicamente para transcribir videos de YouTube. Estas transcripciones habrían sido utilizadas para perfeccionar GPT-4, uno de los modelos de lenguaje más sofisticados hasta la fecha. Este hecho iría en contra de las políticas de YouTube, como ya ha confirmado recientemente el director ejecutivo de la plataforma, Neal Mohan, en referencia a un supuesto entrenamiento de otra IA de OpenAI, Sora.

Fuentes conocedoras de un debate interno han compartido que la firma que dirige Sam Altman creó una herramienta llamada Whisper para transcripción los videos de esta plataforma propiedad de Google.

Foto:iStock

El caso de Sora, una herramienta de IA generativa de OpenAI capaz de crear videos realistas a partir de textos descriptivos, también ha estado bajo el foco. 

Desde la compañía se ha mantenido cierta ambigüedad sobre las fuentes de datos utilizadas para su entrenamiento. La directora de Tecnología, Mira Murati, no fue capaz de confirmarlo, y se limitó a indicar que los datos que utilizan para entrenar a Sora son “datos disponibles públicamente y datos con licencia”.

Sin embargo, la controversia no se limita solo a OpenAI. Fuentes internas indican que Google también habría empleado transcripciones de videos de YouTube para perfeccionar sus propios modelos de IA, especialmente después de un cambio en los términos de uso introducido el año pasado. 

Meta, conocida por sus avances en modelos de lenguaje grande e IA, no se queda atrás en esta búsqueda de datos masivos. La compañía también ha recurrido a Internet para recopilar información necesaria para el entrenamiento de sus modelos, enfrentándose al riesgo de acciones legales por el uso de contenidos protegidos, como se recoge en grabaciones internas a las que ha tenido acceso el medio citado.

YouTube advierte sobre uso indebido de sus videos para entrenar Sora, la IA de OpenAI

El director ejecutivo de YouTube, Neal Mohan, hizo una advertencia sobre el posible uso de videos de la plataforma para entrenar el modelo de Inteligencia Artificial (IA) conocido como Sora, desarrollado por OpenAI. Según Mohan, tal acción constituiría una “clara violación” de las políticas de YouTube.

Sora, presentado por OpenAI en febrero pasado, es un modelo de IA capaz de generar escenas de video realistas a partir de instrucciones de texto, con detalles precisos, movimientos de cámara complejos e incluso la inclusión de múltiples personajes con emociones. 

Sin embargo, la preocupación surge en relación con los datos utilizados para entrenar a Sora. Mira Murati, directora de tecnología de OpenAI, señaló en una entrevista reciente con ‘The Wall Street Journal’ que se utilizan “datos disponibles públicamente y datos con licencia”.

Dentro de este contexto, al ser consultada sobre si los datos mencionados abarcaban videos provenientes de YouTube, Instagram o Facebook, Murati afirmó no tener información al respecto.

Según lo explicado por el CEO de YouTube en una entrevista con ‘Bloomberg’, en este momento no hay información confirmada sobre si OpenAI ha utilizado efectivamente contenido de videos de YouTube para el entrenamiento de Sora.

No obstante, afirmó que, de haber ocurrido en algún momento, sería una violación de los términos de uso de YouTube por parte de la compañía dirigida por Sam Altman. Esto se debe a que los creadores de contenido que publican en la plataforma confían en que su trabajo esté protegido por dichos términos.

Inteligencia artificial para todos: el libro de un doctor en neurociencia

Más noticias en EL TIEMPO

Este contenido fue reescrito con la asistencia de una inteligencia artificial, basado en información de Europa Press, y contó con la revisión de la periodista y un editor.



Fuente