La casa creadora del ChatGPT anunció que está añadiendo capacidades de voz e imagen a esa plataforma de inteligencia artificial (IA) generativa, por largo tiempo limitada a indicaciones escritas. Las funcionalidades, que están siendo agregadas a las versiones de pago de este servicio, permiten a los usuarios tener conversaciones con la IA e incluso “mostrarle” de lo que están hablando, de acuerdo con la empresa OpenAI.
“La voz y la imagen te dan más formas de usar ChatGPT en tu vida. Toma una foto de un punto de referencia mientras viajas y ten una conversación en vivo sobre lo que es interesante.
“Cuando estés en casa, toma fotos de tu nevera y despensa para averiguar qué hay para cenar (y haz preguntas de seguimiento para una receta paso a paso). Después de la cena, ayuda a tu hijo con un problema de matemáticas tomando una foto, dando vueltas alrededor del conjunto de problemas y haciendo que comparta pistas con ambos”, explica OpenAI.
VOZ E IMAGEN, SOLO DISPONIBLES PARA CHATGPT PLUS
La nueva capacidad de voz está impulsada por un nuevo modelo de texto a voz, capaz de generar audio similar al humano a partir de solo texto y unos pocos segundos de muestra de voz. La empresa, indica, colaboró con actores de voz profesionales para crear cada una de las voces. También utilizaron Whisper, su sistema de reconocimiento de voz de código abierto, para transcribir las palabras habladas en texto.
La comprensión de la imagen está impulsada por GPT-3.5 y GPT-4 multimodales. Estos modelos aplican sus habilidades de razonamiento lingüístico a una amplia gama de imágenes, como fotografías, capturas de pantalla y documentos que contienen tanto texto como imágenes.
Las funciones de voz e imagen se implementarán para usuarios de ChatGPT Plus y Enterprise en las próximas semanas y, eventualmente, se desarrollarán para los sistemas operativos móviles de Apple y Google, de acuerdo con OpenAI.
GOOGLE, META Y MICROSOFT EN COMPETENCIA
Los programas de inteligencia artificial generativa, llamados así por su capacidad de crear texto, imágenes o contenidos complejos a partir de datos existentes, saltaron a la fama el año pasado con la habilidad de ChatGPT para generar ensayos, poemas y conversaciones a partir de breves indicaciones.
Los gigantes de la tecnología como Google, Meta y Microsoft compiten para entrar en la era de la inteligencia artificial generativa, mientras tratan de evitar los potenciales peligros de esta tecnología, como la desinformación y el cibercrimen. N