top of page
  • bambarito59

Herramienta de OpenAI se toma apenas unos segundos de audio para clonar una voz


La Inteligencia Artificial debe utilizarse con cuidado y mucho juicio, o al menos eso se intuye cada vez que las empresas que desarrollan la herramienta dan cuenta de su utilidad y avances.

 

 OpenAI, la empresa norteamericana creadora del ChatGPT, dio a conocer los más recientes avances de su herramienta Voice Engine, la cual tiene la capacidad de crear voces sintéticas a partir de muestras de audio de solo 15 segundos de duración.

 

La compañía señala en su blog que el 'software' puede clonar "voces emotivas y realistas" mediante la inteligencia artificial. La voz generada podrá leer indicaciones de texto según se le ordene en el mismo idioma que el usuario o en otra lengua deseada.

 

Jeff Harris, miembro del equipo de producto de OpenAI para Voice Engine, comentó que la tecnología que comenzó a desarrollarse a fines de 2022, se encuentra con un acceso de vista previa limitada disponible para unos 10 desarrolladores, la empresa no ha revelado si planea lanzarla como un servicio accesible a todo el mundo al estilo de ChatGPT.

 

Según OpenAI, "estas implementaciones a pequeña escala están ayudando a informar nuestro enfoque, salvaguardas y pensamiento sobre cómo Voice Engine podría usarse para el bien en varias industrias".

 

El sintetizador de voz podría ayudar a personas con discapacidades en el habla a expresarse con más facilidad, así como permitir la reproducción de manera casi automática de versiones dobladas en distintos idiomas de productos de audio. Esto es muy bueno sin duda alguna.

 

Sin embargo, la firma es consciente de los riesgos que puede conllevar poner una tecnología de este tipo al alcance de cualquiera, en un contexto del auge de los 'deepfakes' en la Red, por lo que explica que se implementó "una serie de medidas de seguridad, incluida una marca de agua para rastrear el origen de cualquier audio generado por Voice Engine, así como un monitoreo proactivo de cómo se usa el modelo".

 

Añade Open AI que acepta “que generar un discurso que se asemeje a las voces de las personas conlleva serios riesgos, que son especialmente importantes en un año electoral" en Estados Unidos por lo que tendrán en cuenta las recomendaciones del Gobierno, medios de comunicación y el sector de educación, entre otros.

 

El riesgo no es solo para las elecciones en Estados Unidos como lo asegura esta empresa: es para todas las sociedades.

logotipo.png
cartel-de-los-juegos-olimpicos-de-paris-2.jpg
bottom of page