A principios de febrero de 2024, Google anunció un cambio importante para su chatbot y rival jurado de ChatGPT, ahora Bard pasaría a llamarse Gemini, pero lejos de ser un simple cambio de marca, estamos presenciando el siguiente paso evolutivo de la IA conversacional de Google, la cual trae a la mesa nuevas posibilidades y una mejora significativa a las capacidades de procesamiento y razonamiento del modelo de inteligencia artificial.
Por si fuera poco, la actualización fue acompañado por el lanzamiento de una aplicación para móviles y la revelación de Gemini Advanced, la versión premium del chatbot, por así decirlo, la cual brinda acceso a Ultra 1.0, el modelo de IA más avanzado de Google hasta la fecha. Para los que sientan curiosidad de las novedades y posibilidades que llegan con Google Gemini, les invitamos a que nos acompañen en esta oportunidad.
Google Gemini ¿Qué hay de nuevo, viejo?
Con Google Gemini el chatbot Bard ha recibido mejoras a sus capacidades existentes. El modelo en el que está basado (Pro 1.0) ya consta de la capacidad de procesar información en diversos formatos como lo pueden ser textos, imágenes, audios y códigos.
No obstante, la atracción principal es Gemini Advanced, pues nos brinda acceso al modelo IA más avanzado, Ultra 1.0, la pega es que dicho modelo tiene un precio de 19.99 dólares al mes y por ahora solo está disponible en inglés, así que no hemos podido usarlo en español.
Con Gemini Advanced hay beneficios que no podemos negar, empezando por respuestas más precisas y mejor desempeño en tareas complejas, como por ejemplo razonamiento lógico, seguimiento de instrucciones y programación. Naturalmente, el chatbot puede analizar conjuntos de datos más grandes que en su versión gratuita, así como también generar informes más detallados de lo que le pidamos.
Una de las mayores novedades de Gemini Advanced es su integración con Google Workspace, lo que puede ayudar con la colaboración y productividad. En este sentido, podemos permitirle que acceda a nuestro Gmail, calendario, Google Drive, Mapas y Documentos para que nos ofrezca respuestas más relevantes, incluso podemos ordenarle que programe reuniones y envíe correos electrónicos por nosotros.
Adicionalmente, Gemini ahora tiene una aplicación móvil, aunque en el caso de iOS tenemos que usarlo mediante la app de Google, dónde básicamente reemplaza a Google Assistant, lo que honestamente no nos parece una solución ideal.
Si descargamos la aplicación o accedemos mediante Google Assistant, podemos accionar el chatbot con el botón power o deslizando el dedo hacia la esquina en algunos teléfonos. Decir “Hola Google” también funciona. Sea como sea, esto habilita una experiencia superpuesta que ofrece fácil acceso a Gemini, así como ayuda contextual directamente en pantalla.
¿Qué podemos hacer con el nuevo Gemini?
Gemini es el nuevo Bard, así que todo lo que podía hacer dicho Chatbot su nueva versión lo puede hacer y mejor. Naturalmente, le podemos pedir que investigue por nosotros, que nos traduzca información en diferentes lenguajes, que componga un poema, redacte un escrito, nos de ideas de cómo escribir o nos brinde un tutorial; también podemos pedirle que haga comparativas o que simplemente nos de la estructura de un texto a componer. Nuevamente, puede hacer todo aquello que los chatbots de hoy en día pueden hacer, pero con ciertas ventajas que no vemos en todos sus rivales.
En este sentido, podemos verificar los resultados mediante una función incorporada llamada “Comprobar respuesta”, la cual lleva a cabo una búsqueda en Internet del texto generado con el propósito de corroborar que haya fuentes creíbles de la información que nos presenta la IA.
También encontramos útil la función de modificar la respuesta, pues nos permite ajustar las respuestas en términos de longitud y estilo de redacción, a veces queremos respuestas que suenen más informales o que sean breves y concisas, así que esta característica resulta útil.
Otra característica interesante es la de pedirle al chatbot que nos explique las cosass como si tuviésemos 5 años, personalmente la encuentro graciosa.
Una función recientemente añadida al chatbot de Google es la generación de imágenes con IA en base a texto. Por alguna razón solo aceptó mi Prompts en inglés, pero al fin y al cabo hizo su trabajo. Al igual que el generador de imágenes gratuito de Bing, éste nos ofrece 4 versiones de la imagen solicitada, de manera que podemos elegir la que nos guste más. Dicho eso, los resultados no son la gran cosa en comparación a lo que podemos conseguir con modelos más avanzados como Stable Difussion y DALL-E 3.
Ejecutar y editar código Python
Con Gemini Advanced las posibilidades se expanden todavía más, y este 20 de febrero de 2024 aterrizó una nueva función exclusiva de la versión de pago del chatbot, la cual nos permite editar y ejecutar código Python en tiempo real desde la interfaz de Google. Seguramente los programadores encontrarán útil la posibilidad de realizar experimentos con su código y ver cómo los cambios afectan el resultado en un entorno de pruebas aislado.
Según Google, esto se presta para una experiencia de aprendizaje interactiva que puede ayudar a los estudiantes a entender conceptos de programación. Considerando que el chatbot ya contaba con la habilidad de escribir código Python y explicarnos lo que hace cada línea de código, diríamos que ahora se perfila como un buen asistente a la hora de aprender programación.
Un potencial reemplazo para al asistente del móvil
Hace tiempo atrás los asistentes de voz como Google Assistant, Siri y Alexa eran tuteados como el futuro, la nueva manera de interactuar con el móvil y de controlar nuestros dispositivos, pero como bien sabrán, eventualmente su progreso se estancó y no todo el mundo quedó convencido de usarlos diariamente, y es aquí donde creemos que entran en juego las inteligencias artificiales como Gemini, pues vemos mucho potencial en la aplicación de Gemini para móviles, ya que le podemos encontrar más casos de uso que al propio asistente de Google, aunque eso sí, quedan aspectos por pulir.
Con eso en mente, encontramos conveniente que Gemini pueda acceder a Google Workspace y otras apps de la compañía, pues le podemos pedir por ejemplo que escriba y envíe un correo por nosotros, así como también que elabore un resumen de los documentos que tenemos en Drive. El contenido que genere puede exportarse directamente a Google Drive o Gmail. Por ejemplo, si le pedimos que nos haga una lista de recomendaciones o nos consiga una receta, podemos guardar esa información directamente en una nota o documento de Google Docs, y este es un aspecto que le falta a ChatGPT y otros chatbots, pues si bien pueden darnos buena información, ésta queda flotando el vacío hasta que hagamos algo manualmente.
La integración con Google Maps también es de aplaudirse, puesto que podemos pedirle al bot que nos encuentre una ruta para llegar a casa en autobús o tren y el asistente encontrará la mejor ruta posible. En conclusión, esta IA ya se perfila como una manera óptima de lidiar con los quehaceres digitales del día a día, así que no nos sorprendería si de aquí a 5 años Gemini se convierte en el asistente por defecto de Android.
El chatbot no es perfecto y esto es lo que Google debe mejorar
Ninguna IA ni chatbot es perfecto, eso lo sabemos con certeza, y en el caso de Gemini, podemos decir que todavía queda un largo camino por recorrer hasta que esté listo para su adopción masiva, quizás esto ocurra más rápido de lo que creemos en vista de lo acelerado que está marchando todo en el campo de la inteligencia artificial, pero de igual manera nuestras quejas son válidas por ahora.
Entrando en materia, la precisión de la información y respuestas del chatbot son lo primero que deben mejorar, pues como sabrán, la IA “alucina” o genera información que no es real.
Aquí le pregunte al chatbot la razón detrás del cambio de nombre de Bard, y si bien su respuesta suena muy convincente, la verdad del asunto es que nadie nunca dijo eso, una rápida búsqueda de Google usando la función “Comprobar respuesta” del chatbot así lo revela.
Igualmente, cuestionamos su capacidad de comprender fotos y vídeos, pues en el ejemplo de abajo le solicité a Gemini identificar el animal de la foto; y aunque acertó con que es un gato, no sé de dónde se saca que es un gato atigrado de ojos verdes, pues, salvo que me falle la visión, le envíe la foto de un gato siamés con ojos azules.
Cuando se trata de usarlo en el móvil, la experiencia nos maravilla y decepciona por igual. En este sentido, reconocemos que es útil integrarse con Gmail y otras aplicaciones de la compañía, pues puede ponerse al servicio de nuestras necesidades y tareas, pero le falta aprender a contextualizar las cosas y ser práctico, pues resulta extraño que nos sugiera practicar buceo o montarnos en un globo aerostático cuando solo queremos actividades para hacer en el parque.
Gemini 1.5 Pro, un atisbo al futuro
Puede que el momento de la presentación de Gemini 1.5 Pro no haya sido el más oportuno, pues actualmente el modelo Sora de OpenAI tiene la atención de todos debido a sus impresionantes capacidades de generación de vídeo a partir de texto, pero el nuevo modelo de Google ya se perfila como de uno de los mayores avances de la historia en materia de modelos de lenguaje.
Con eso en mente, Gemini 1.5 Pro es la siguiente versión del modelo IA de Google, la cual desafortunadamente todavía no está disponible al público, así que no podemos probarla por cuenta propia, pero los afortunados que han tenido acceso a una prueba temprana nos hablan maravillas de este modelo.
Sin lugar a duda su rasgo más destacado es que puede ejecutar hasta 1 millón de tokens en producción. Como comparativa, Gemini 1.0 Pro solo puede procesar 32 mil, mientras que GPT-4 Turbo alcanza 128 mil. Esta es una diferencia de la noche al día y, en términos prácticos, esto significa que Gemini 1.5 Pro puede procesar grandes cantidades de información; estamos hablando de vídeos de hasta 1 hora, audios de 11 horas de duración, hasta 30.000 líneas de código y más de 700.000 palabras. Como resultado, se logra la ventana de contexto más grande que hayamos visto hasta la fecha en un modelo IA de gran escala.
Por ende, el modelo puede llevar a cabo tareas de compresión y razonamiento sofisticadas, cómo analizar la trama de una película, analizar el contenido de una imagen, comparar documentos extensos y más. Para contextualizar sus capacidades, es mejor si lo vemos en práctica.
¿Qué puede hacer Gemini 1.5 Pro?
En el vídeo que encontraremos a continuación, el fundador de Rundown AI le envío el vídeo de una competencia de clavadas de la NBA con 14 minutos de duración y le dio la tarea de identificar la clavada con mayor puntuación. Como podrán imaginar, Gemini 1.5 efectivamente logró señalar y dar detalles de la mejor clavada del evento.
1. Breaking down + understanding a long video
I uploaded the entire NBA dunk contest from last night and asked which dunk had the highest score.
Gemini 1.5 was incredibly able to find the specific perfect 50 dunk and details from just its long context video understanding! pic.twitter.com/01iUfqfiAO
— Rowan Cheung (@rowancheung) February 18, 2024
Otra increíble prueba es como en base al transcrito de los guiones de las películas Interestelar y Ad Astra, la IA puede realizar comparativas de ambas obras y sugerir al usuario cual ver. Lo verdaderamente interesante aquí es como puede procesar grandes volúmenes de información a la vez, pues cada uno de los transcritos constituye más de 40.000 tokens.
3. Translating language into a language spoken by less than 2000 people.
Gemini 1.5 was able to translate English to Saterlandic (spoken by less than 2000 people) following a full linguistic manual at inference time.
Absolutely incredible. pic.twitter.com/kDCOpbqyD3
— Rowan Cheung (@rowancheung) February 18, 2024
Hablando de Sora, es curioso ver a una IA tratando de detectar contenido generado por una IA, y en el siguiente ejemplo vemos como el modelo de Google identifica positivamente como generado por IA uno los clips virales creados por Sora de OpenAI. Lo más sorprendente del asunto es el análisis que provee del clip, señalando los detalles que lucen antinaturales, como por ejemplo el tamaño de los ojos y lo prístino que luce el pelaje del felino.
5. Finding, understanding, and explaining a small figure in a long paper.
Gemini 1.5 was able to extract "table 8" from the Gemini 1.5 Pro paper by DeepMind and explain what the table meant.
Again, note the details here. pic.twitter.com/gqh4lYYUgb
— Rowan Cheung (@rowancheung) February 18, 2024
En el siguiente vídeo publicado por la propia Google podemos ver una aplicación experimental en modelado 3D. En este sentido, la IA puede identificar las partes del código que controlan ciertos parámetros de la escena, en este caso en particular, se le pidió a la IA escribir un código para controlar la velocidad de la animación, lo cual hizo exitosamente.
Por último, Gemini 1.5 Pro aún no está disponible para todos los usuarios en el momento de publicación de esta nota, pero podemos apuntarnos a la lista de espera en AI Studio de Google.