ChatGPT: Ahora es posible usarlo con imágenes y comandos de voz

ChatGPT: Ahora es posible usarlo con imágenes y comandos de voz

El popular chatbot de inteligencia artificial ha sido tradicionalmente una interfaz de texto. Sin embargo, ChatGPT ahora está evolucionando para comprender sus consultas de maneras totalmente nuevas: con imágenes y comandos de voz.

ChatGPT evoluciona

ChatGPT: Ahora es posible usarlo con imágenes y comandos de voz

OpenAI ha introducido una serie de cambios en ChatGPT que abarcan sus capacidades de respuesta, acceso a información y mejoras en sus modelos subyacentes. En esta ocasión, el enfoque está en cómo puede interactuar de manera más versátil.

La compañía está presentando una versión actualizada del servicio que permite comunicarse con el chatbot de IA no solo mediante texto, sino también a través de comandos de voz o cargando imágenes. Estas nuevas características estarán disponibles para los usuarios que adquieran el servicio de pago en las próximas dos semanas, mientras que los demás podrán acceder a ellas en un futuro cercano, según lo anunciado por OpenAI.

La capacidad de interactuar por voz es bastante intuitiva: simplemente presione un botón y formule su pregunta verbalmente. La aplicación convertirá su pregunta en texto, la someterá al modelo de lenguaje avanzado, recibirá una respuesta y luego la transformará nuevamente en voz para comunicar la respuesta de manera audible.

Esto debería brindar una experiencia similar a conversar con asistentes virtuales como Alexa o el Asistente de Google, con la diferencia de que OpenAI promete respuestas de mayor calidad gracias a sus mejoras tecnológicas subyacentes. Parece que la mayoría de los asistentes virtuales están migrando hacia la dependencia de Modelos de Lenguaje Grande (LLM), y OpenAI está liderando esta tendencia.

El modelo de conversión de voz a texto de OpenAI, denominado Whisper, desempeña un papel fundamental en esta transición, y la compañía está presentando un nuevo modelo de conversión de texto a voz que tiene la capacidad de generar un “audio similar al humano“. Además, los usuarios podrán elegir entre cinco opciones de voz para ChatGPT.

También están explorando asociaciones, como la colaboración con Spotify, para traducir podcasts a otros idiomas, manteniendo el estilo de voz original del presentador. Estas voces sintéticas ofrecen numerosas aplicaciones interesantes y OpenAI podría desempeñar un papel destacado en esta industria emergente.

Futuros problemas a solventar

ChatGPT: Ahora es posible usarlo con imágenes y comandos de voz

No obstante, la capacidad de crear voces sintéticas con solo unos segundos de audio plantea preocupaciones potenciales, como la posibilidad de que individuos malintencionados se hagan pasar por figuras públicas o cometan fraudes. La empresa es consciente de estos riesgos y, por lo tanto, ha anunciado que el modelo no estará ampliamente disponible, sino que se controlará cuidadosamente y se restringirá a asociaciones y casos de uso específicos.

En cuanto a la búsqueda de imágenes, funciona de manera similar a Google Lens. Puede tomar una fotografía de cualquier objeto o escena que le interese, y ChatGPT intentará entender su consulta y proporcionar una respuesta adecuada. También puede utilizar herramientas de dibujo para aclarar su pregunta o incluso formular preguntas verbales o escritas que complementen la imagen. Esta capacidad de diálogo bidireccional resulta valiosa, ya que permite refinar la consulta de manera continua, en lugar de realizar una serie de búsquedas separadas, como sucede con la búsqueda multimodal de Google.

Es importante señalar que la búsqueda de imágenes también conlleva desafíos potenciales. Uno de ellos está relacionado con la privacidad y la precisión al analizar y proporcionar información sobre personas en imágenes. OpenAI ha abordado esta preocupación al limitar la capacidad de ChatGPT para analizar y emitir declaraciones directas sobre personas. Esto significa que la visión de IA que nos permita preguntar “¿Quién es esta persona?” a partir de una imagen aún no está al alcance. Esta precaución es importante para mantener un equilibrio adecuado entre la utilidad de la tecnología y la protección de la privacidad.

Casi un año después de su lanzamiento inicial de, se sigue trabajando en ampliar las capacidades del chatbot sin introducir nuevos problemas y desafíos. Con estos nuevos lanzamientos, la compañía se ha esforzado por limitar deliberadamente las funcionalidades de sus modelos para abordar preocupaciones de seguridad y privacidad. Pero, a medida que más personas adopten las nuevas funciones, y ChatGPT se convierta en un asistente virtual verdaderamente multimodal y útil, será cada vez más desafiante mantener estas barreras de seguridad en su lugar.


Por favor síguenos en Google News:


Acerca de Erick Sumoza

Suscríbete a nuestro Boletín Semanal