Smartphones

Análisis de vídeo en Gemini: así mejora el chatbot de Google

Google incorpora análisis de vídeo en Gemini, acercándose a ChatGPT con funciones multimodales que permiten interpretar clips de hasta cinco minutos directamente desde el móvil.

Google sigue actualizando las capacidades de su modelo Gemini con una de las funciones más demandadas por los usuarios de inteligencia artificial conversacional: el análisis de vídeo. Según se ha podido conocer tras el desmontaje de la última versión beta de la aplicación por parte de Android Authority, el chatbot de la compañía incluirá la opción de subir vídeos para su interpretación, una herramienta que hasta ahora había mantenido en exclusiva ChatGPT de OpenAI.

Análisis de video en Gemini. Imagen: Google
Análisis de video en Gemini. Imagen: Google

Gemini se actualiza, ahora ya es capaz de analizar vídeos

El acceso a esta funcionalidad, de momento esta restringido a la versión beta mediante ajustes avanzados, permite a los usuarios subir un clip directamente desde la galería de su dispositivo, acompañarlo de una pregunta o comentario y obtener una respuesta generada por la IA. El proceso es similar al que ya se emplea con imágenes o textos, pero aplicado al contenido audiovisual, abriendo así nuevas posibilidades para la interacción con el modelo de Google.

Esta novedad es un paso importante para Gemini en la carrera por conseguir ser una alternativa real a ChatGPT. Hasta la ahora, el hecho de no poder analizar vídeos colocaba a la propuesta de Google en desventaja frente al servicio de OpenAI, especialmente entre los usuarios que buscan una herramienta integral capaz de interpretar diferentes tipos de medios.

En las pruebas realizadas por Android Authority, el rendimiento del análisis de vídeo en Gemini ha demostrado ser preciso y eficiente. En uno de los ejemplos, el modelo fue capaz de identificar correctamente el lugar donde se había grabado un vídeo basándose en el entorno y las referencias cruzadas con Google Maps. Asimismo, se ha confirmado que es posible pedir descripciones detalladas de la escena o verificar si una acción específica se está ejecutando de manera adecuada dentro del clip.

El sistema, por ahora, contempla un límite de cinco minutos por vídeo, una duración que permite trabajar con una amplia variedad de contenidos sin excesivas restricciones. Además, el código de la aplicación ha dejado entrever que se está explorando la opción de subir varios vídeos de forma simultánea, lo que permitiría realizar comparaciones o consultas conjuntas, algo especialmente útil en entornos profesionales o educativos.

Aunque Google aún no ha confirmado la fecha oficial del lanzamiento de esta función, varias fuentes apuntan a que la compañía podría aprovechar el próximo Google I/O para realizar el anuncio. Sin embargo, existe la posibilidad de que el análisis de vídeo quede reservado a los usuarios de la versión Advanced del servicio, lo que limitaría su acceso a quienes opten por las suscripciones de pago.

Este movimiento de Google refuerza la tendencia actual en el desarrollo de modelos de lenguaje hacia una mayor integración de capacidades multimodales, donde texto, imágenes, vídeos y otros formatos conviven en una misma plataforma para ofrecer una experiencia de usuario más rica y versátil. El despliegue de esta herramienta en Gemini representa, además, una respuesta directa a la presión competitiva ejercida por OpenAI, que hasta ahora había mantenido cierta ventaja gracias a la amplitud de funciones disponibles en ChatGPT.

La introducción del análisis de vídeo en Gemini es una evolución de los chatbots de inteligencia artificial, consolidando un escenario en el que la capacidad de interpretar múltiples formatos será clave para atraer y fidelizar a los usuarios. Con esta mejora, Google busca reducir distancias y posicionar a su modelo entre las opciones preferidas del mercado en un contexto donde la innovación y la versatilidad son las principales armas para destacar.