El año 2023 será recordado como un punto de inflexión en la historia de la inteligencia artificial, donde la competencia entre gigantes y startups ha finalizado con la llegada de Google Gemini.
Lo cierto es que esta gran compañía durante 2023 se ha quedado algo rezagada en este campo pese a grandes lanzamientos como Google Bard, pero parece que tenía reservada una última sorpresa para el final.
Gemini se presenta como una familia de modelos que prometen superar incluso al renombrado GPT-4 en diversos aspectos, especialmente en la integración multimodal. Puede generar y procesar texto, imágenes y otros tipos de datos como gráficos y mapas.
Sin embargo, y por muy impresionantes que puedan parecer estas herramientas hoy en día, Google cree que están lejos de maximizar todo el potencial de la tecnología. Entonces, en este artículo, se analizará lo que el gigante de las búsquedas pretende lograr con Gemini, cómo funciona y por qué indican que será el futuro de la IA, reseñó el portal Computer Hoy.
¿Qué es Google Gemini?
Gemini es un nuevo y potente modelo de inteligencia artificial de Google, al estilo GPT-4 que, al igual que este, no se puede acceder directamente. Más bien, actúa como una base que Google y, en última instancia, otros desarrolladores pueden utilizar para crear productos sobre ella. Por ejemplo, GPT-4 ha servido para crear un ChatGPT más potente. Con Gemini ocurre lo mismo.
Según Dennis Hassabis, director ejecutivo y cofundador de Google DeepMind, «fue construido desde cero para ser multimodal, lo que significa que puede generalizar y comprender, operar y combinar sin problemas diferentes tipos de información, incluidos texto, código, audio, imagen y video».
Puede comprender no solo texto, sino también imágenes, vídeos y audio. Como modelo multimodal, Gemini se describe como capaz de completar tareas complejas en matemáticas, física y otras áreas, además de comprender y generar código de alta calidad en varios lenguajes de programación.
Si bien esto por sí solo no es algo que llame demasiado la atención, ya que actualmente se cuenta con modelos similares, la versatilidad de Gemini es un factor clave porque es más que un solo modelo y puede ejecutarse en todo, desde centros de datos hasta móviles.
Se lanzó el 6 de diciembre con demostraciones que le muestran escribiendo código, explicando problemas matemáticos, encontrando similitudes entre dos imágenes, convirtiendo imágenes en código, entendiendo emojis y más, aunque es cierto que hubo polémicas acerca de cuanto se habían falsificado estas pruebas.
Estará disponible en tres modelos
Google describe a Gemini como un modelo flexible que es capaz de ejecutarse en todo, desde los centros de datos de Google hasta dispositivos móviles. Para lograr esta escalabilidad, Gemini se lanza en tres tamaños: Gemini Nano, Gemini Pro y Gemini Ultra.
1. Gemini Nano: el tamaño del modelo Gemini Nano está diseñado para ejecutarse en smartphones, específicamente Google Pixel 8. Está diseñado para realizar tareas en el dispositivo que requieren un procesamiento eficiente de IA sin conectarse a servidores externos, como sugerir respuestas dentro de aplicaciones de chat o resumir texto.
La ventaja de que todo se quede en tu móvil y no vaya a servidores externos es esa privacidad y seguridad de la que muchos hablan al referirse a estas herramientas de IA. Sin embargo, no esperes la misma velocidad de respuesta y es cierto que consumen bastante batería y espacio de almacenamiento.
- Gemini Pro: Gemini Pro, que se ejecuta en los centros de datos de Google, está diseñado para impulsar la última versión del chatbot de inteligencia artificial de la compañía, Bard. Es capaz de ofrecer tiempos de respuesta rápidos y comprender consultas complejas. En este caso se elimina el anterior modelo, que era PaLM 2, para dar la bienvenida a Gemini Pro.
- Gemini Ultra: aunque todavía no está disponible para un uso generalizado, Google describe a Gemini Ultra como su modelo más capaz, superando los «resultados actuales de última generación en 30 de los 32 puntos de referencia académicos ampliamente utilizados en la investigación de modelos de lenguaje grande (LLM) y desarrollo.» Está diseñado para tareas altamente complejas y se lanzará después de finalizar su fase actual de prueba —se espera de cara a principios de este 2024