Mi primera vez en Google I/O 2024

Recientemente tuve la increíble oportunidad de asistir a Google I/O 2024 por primera vez en persona!

Google I/O es un conferencia anual organizado por Google conocido por su enfoque a desarrolladores de todo el mundo. Profesionales en tecnología como programadores, científicos e ingenieros asisten a esta conferencia para conocer los avances más recientes que Google ofrece en Android, Chrome, Cloud Platform y una amplia gama de otras herramientas para desarrolladores, así como para hacer networking y aprender de los expertos de la compañía. Durante el evento, se llevan a cabo diversas sesiones, paneles, talleres, laboratorios prácticos y presentaciones magistrales que abarcan las últimas innovaciones de Google en diversas áreas.

¡Google I/O es como Disneylandia para los amantes de la tecnología!
¡Me sentí como un niña de cuatro años queriendo entrar a todos los juegos y comiendo dulces todo el día! ¡Es imposible no querer verlo todo y aprender de todo!

Google I/O 2024: Lo más relevante (desde mi perspectiva)

The Gemini Era

I/O Google’s version of the Eras Tour, but with fewer costume changes.
Sundar Pichai

Este año se enfocó en sus avances significativos en IA (Inteligencia Artificial), especialmente, en una serie de novedades en la familia del modelo Gemini – su revolucionario modelo IA- y en la integración de IA en todos sus productos: herramientas para desarrolladores (Google AI Studio, Android studio, etc), Gemini en Google workspace, etc.

Gemini, Gemini, Here And There, Gemini Everywhere 🎶 🎶 🎶 Me recuerda al Preschool Rhymes “Bubbles, Bubbles, Here And There” 🎶

La familia del modelo Gemini

Para entender el impacto de Gemini, es fundamental comprender dos conceptos: ventana de contexto y multimodal.

La ventana de contexto se refiere a la cantidad máxima de tokens (palabras o caracteres) que el modelo puede procesar simultáneamente para generar una respuesta. Esta limitación afecta directamente la capacidad del modelo para comprender y generar respuestas. Serian como la memoria a corto plazo de una IA para las conversaciones.

Multimodal y multilingüe, significa que puede aprender de datos que van más allá del texto, o sea incluyendo comprensión de imagenes y sonidos en multilenguas.

Gemini 1.5 Flash
Entrenado por 1.5 Pro a través de un proceso llamado “destilación”. Este modelo es más liviano que el 1.5 Pro, diseñado para ser rápido y eficiente, a un bajo costo. Está optimizado para tareas de gran volumen y es capaz de realizar multimodal con resultadas de alta calidad.

Gemini 1.5 Pro
La clave aqui es:

Además de ampliar su ventana de contexto a 2 millones de tokens, el modelo ha mejorado exponencialmente a través de la optimización de algoritmos y datos: comprensión y análisis de imágenes y audio para videos, generación de código, conversación de múltiples turnos, razonamiento en materias complejas como matemáticas y física, etc han mejorado significativamente en Gemini 1.5 Pro.

Gemini 1.5 Pro and Flash estan disponibles en Google AI Studio y Vertex AI con hasta 1 millón de tokens. Y desarrolladores pueden registrarse a la lista de espera para probar el modelo con 2 millones de tokens.

Gemini Nano
No soy una desarrolladora móvil pero según entendí este modelo se ejecuta directamente en los dispositivos móviles, lo que garantiza una baja latencia y privacidad de datos. Además de las entradas de texto, ahora es posible incluir sonidos e imágenes. Un dato interesante es que también funciona sin red celular.
A partir de Chrome 126, Gemini Nano se integra al desktop client Chrome, habilitando funciones como “Ayúdame a escribir” para generar contenido de formato corto utilizando IA.

La familia Gemma
Gemma, la familia de modelos abiertos creada a partir de la misma investigación y tecnología utilizada para crear los modelos de Gemini, ha integrado dos miembros más al clan. Gemma2, modelo abierto para la innovación responsable en IA y PaliGemma un modelo ligero de lenguaje de visión abierta (VLM) inspirado en PaLI-3,

Herramientas de Desarrollo e Integración

Code becomes content, and coders become creators
Jeanine Banks

Google I/O’24 también se centro en su misión de poner Generative AI al alcance de todos los programadores. Hoy, Gemini es accesible para nosotros en:
Android Studio, Chrome DevTools, Project IDX, Colab, VS Code, IntelliJ y Firebase

Project Astra

Firebase
Además de improvisar su logo, Firebase nos presentó avances bastante interesantes como Firebase App Hosting