Las novedades de Google I/O: lanzamiento del Buscador con IA,

Google ha iniciado esta tarde su conferencia anual de
desarrolladores, Google I/O. Se trata de un evento cuyo protagonismo,
tradicionalmente, lo ha acaparado Android y el ecosistema de
aplicaciones de Google, pero que el año pasado ya concedió una parte importante
del espacio en la conferencia de inauguración a la IA. En este 2024, prácticamente
no se ha hablado de otra cosa y ha dejado una importante ristra de anuncios.
Muchos, como suele suceder en este campo, aún con disponibilidad en el futuro o
muy limitada en el presente, pero también ha habido productos concretos que ya
se pueden usar.

AI Overviews, la IA ya está disponible en el Buscador de Google, en Estados Unidos

Google anunció en el pasado I/O la llegada de la inteligencia artificial al buscador, lo que supone un cambio sustancial en el producto y en el modelo de negocio de Google basado en la publicidad. Durante el año transcurrido se ha conocido como Google Search Generative Experience, SGE, y ha estado disponible para usuarios limitados en Search Labs. Ahora se lanza en abierto para Estados Unidos y en inglés, otros países e idiomas llegarán más adelante.

El Buscador de Google no renuncia a los listados ordenados de webs para que el usuario elija lo que le parece más acertado, sino que incluye un nuevo módulo llamado AI Overviews, algo así como Vista General IA, que es una contestación a la búsqueda del usuario en lenguaje natural y con enlaces. Utiliza una versión de Gemini adaptada a este fin, y es multimodal. Es decir, puede entender varios formatos de entrada, no solo texto. También audio e imagen.

La duda que atenaza a Google es cómo la IA puede afectar
a su negocio publicitario. Según Liz Reid, vicepresidenta de
búsquedas de la compañía, los enlaces que muestra AI Overviews reciben más
clics que los incluidos en el listado tradicional de resultados, pero cabe
preguntarse por qué un usuario pincharía en el enlace y visitaría otra web con
más anuncios si ya tiene la información que necesita masticada por la IA y
disponible en el buscador. Otro caso es el de las búsquedas relacionadas
con compras o reservas, donde la afirmación de Reid encaja mejor.

También será capaz de responder preguntas complejas, con
múltiples aspectos. Por ejemplo, se le podrá preguntar por los mejores
lugares para practicar pilates en una ciudad, a qué distancia están y qué
ofertas tienen para nuevos clientes, y AI Overviews facilitará toda la
información necesaria en un lenguaje natural, exigiendo el mínimo esfuerzo
cognitivo al usuario.

Project Astra

OpenAI presentó ayer su nuevo modelo de lenguaje, GPT-4o,
y sus nuevas capacidades de voz que lo asemejan a un asistente IA muy similar
al que interpretaba Scarlett Johansson en la película Her de Spike
Jonze. El producto que Google ha presentado en la misma línea es Project
Astra, que difícilmente será su nombre comercial cuando esté disponible.

Se trata de un asistente virtual con inteligencia
artificial que llegará en forma de app para móviles, pero no solo. Según ha
explicado Demis Hassabis, cofundador de DeepMind que ahora es la
división IA de Google, será capaz de ver lo que hay a su alrededor,
identificarlo y responder cuestiones sobre ello.

Hassabis ha señalado lo que Google pretende con Project
Astra es “desarrollar agentes de IA universales que puedan ser útiles en
nuestra vida cotidiana” y puedan entender y responder como hacen los
humanos. También “recordar lo que ve y oye para entender el contexto y actuar”.

En el ejemplo mostrado en la conferencia en vídeo, no en
directo, una persona utiliza el móvil para identificar lo que hay alrededor,
por ejemplo, el barrio en el que se encuentra enfocando a una ventana.
La sorpresa ha sido cuando le ha preguntado al asistente dónde están sus gafas
y entonces se ha visto que se trataba de unas gafas con cámara e integración
con Project Astra. Debería estar disponible antes de que termine el año.

Gemini en Fotos: Pregunta a Fotos

Google ha integrado Gemini en la app Fotos. Pregunta
a Fotos es una nueva función experimental, que llegará en los próximos
meses, con la que será más fácil recuperar imágenes perdidas por la galería.

Con Pregunta a Fotos, el usuario puede realizar cualquier
búsqueda en su galería con preguntas en lenguaje natural. Por ejemplo,
“muéstrame la mejor foto de todos los parques de atracciones que he
visitado”, de forma que no tendrá que realizar manualmente la
selección.

Veo e Imagen 3

Google también ha presentado nuevos modelos de texto a
imagen y texto a vídeo. El primero es Imagen 3, que como su nombre
indica es una evolución de modelos anteriores que ofrece como principal
mejora su capacidad para generar texto en las imágenes, algo que sigue
siendo azaroso en otros modelos como DALL-E y Midjourney.

Veo es la respuesta a Nora, la IA texto de vídeo de
OpenAI que dejó con la boca abierta a todo el mundo hace unos meses. Esta IA
podrá generar vídeos a resolución 1080p y de 1 minuto de duración a
partir del prompt introducido por el usuario, con una comprensión profunda del
lenguaje natural para producir vídeos que respondan con exactitud a la
petición, puede trabajar con conceptos visuales como “time lapse” o “toma aérea
de paisaje” y destaca en la simulación de físicas en una escena. ¿Cuándo
estarán disponibles? Habrá que esperar.

Gemini 1.5 Pro con 2 millones de tokens, Gemini Flash

Gemini llegó el año pasado para sustituir a Bard y lo
hizo basándose en un nuevo modelo de lenguaje. Ahora, la nomenclatura que
tenemos a estas alturas es complicada. Inicialmente se lanzó Gemini Nano,
Pro y Ultra. Nano para ejecutarse localmente en móviles, como los Pixel 8,
Pro con mejores capacidades que aquel y Ultra el más avanzado, comparable a GPT-4.

Después avanzó el Pro, pero no el Ultra, que pasó a ser Pro
1.5 con 1 millón de tokens de contexto. Los tokens se traducen en una
determinada cantidad de palabras y significan la cantidad que puede manejar una
IA en una conversación con el usuario, el contexto que puede adquirir. Pro
ahora ha aumentado hasta los 2 millones, lo que significa que se puede
profundizar mucho más con ella. Hasta ahora, estaba disponible en la
suscripción Gemini Advanced en España, pero sólo en inglés. Gana el
idioma español y puede realizar acciones como resumir un centenar de
correos electrónicos del usuario o gestionar documentos de hasta 1.500 páginas.

A todo esto, hay que añadir un nuevo miembro a la familia
Gemini que es Gemini Flash. Se trata de una versión más ligera de Gemini
Pro que ofrece un funcionamiento más rápido y es más económico para ejecutar
a gran escala. De momento, estará disponible para desarrolladores, no el
público general.

Las novedades de Google I/O: lanzamiento del Buscador con IA, Project Astra, Veo vs Sora y nuevo Gemini