OMNI Google > Gemini > Inteligencia Artificial

ATENTOS

Google: Gemini lanza una función clave que promete ahorrar hasta un 75% en costos

La nueva característica de "cacheo implícito" de Google promete reducir hasta un 75% los costos para quienes utilizan los modelos Gemini 2.5

Google acaba de implementar una nueva funcionalidad en su API Gemini que revoluciona el panorama económico para desarrolladores que trabajan con inteligencia artificial. La gigante tecnológica asegura que esta innovación permitirá abaratar significativamente los costos de operación para quienes utilizan sus modelos más avanzados.

image.png
La técnica de cacheo, ampliamente utilizada en la industria de la inteligencia artificial, reutiliza datos frecuentemente accedidos o pre-calculados para reducir requisitos computacionales y costos. Por ejemplo, las cachés pueden almacenar respuestas a preguntas que los usuarios hacen frecuentemente, eliminando la necesidad de que el modelo recree respuestas a solicitudes idénticas.

La técnica de cacheo, ampliamente utilizada en la industria de la inteligencia artificial, reutiliza datos frecuentemente accedidos o pre-calculados para reducir requisitos computacionales y costos. Por ejemplo, las cachés pueden almacenar respuestas a preguntas que los usuarios hacen frecuentemente, eliminando la necesidad de que el modelo recree respuestas a solicitudes idénticas.

La característica, denominada "cacheo implícito", llegó en un momento crítico cuando el uso de modelos de frontera continúa incrementando sus tarifas. Según Google, esta innovación podría generar un ahorro del 75% en lo que denominan "contexto repetitivo" transmitido a los modelos mediante la API Gemini. Por ahora, la función es compatible exclusivamente con los modelos Gemini 2.5 Pro y 2.5 Flash.

Un cambio radical en la implementación para Google

Anteriormente, Google ofrecía cacheo de prompts de modelo, pero únicamente de forma “explícita”, lo que obligaba a los desarrolladores a definir manualmente sus prompts de mayor frecuencia. Si bien se suponía que el ahorro estaba garantizado, el cacheo explícito típicamente involucraba mucho trabajo manual.

Algunos desarrolladores expresaron su descontento con la implementación del cacheo explícito para Gemini 2.5 Pro, alegando que podía ocasionar facturas sorpresivamente altas. Las quejas alcanzaron un punto crítico la semana pasada, lo que llevó al equipo de Gemini a disculparse y comprometerse a realizar cambios.

image.png

A diferencia del cacheo explícito, el cacheo implícito funciona automáticamente. Activado por defecto para los modelos Gemini 2.5, traslada ahorros de costos si una solicitud a la API Gemini coincide con una caché previa.

¿Cómo funciona esta nueva tecnología?

"Cuando envías una solicitud a uno de los modelos Gemini 2.5, si la solicitud comparte un prefijo común con alguna de las solicitudes anteriores, entonces es elegible para un acierto de caché", explicó Google en un post de blog. "Trasladaremos dinámicamente los ahorros de costos a vos".

El recuento mínimo de tokens de prompt para el cacheo implícito es de 1.024 para 2.5 Flash y 2.048 para 2.5 Pro, según la documentación para desarrolladores de Google. Estos valores no representan cantidades excesivamente grandes, lo que significa que no debería requerir mucho esfuerzo para activar estos ahorros automáticos. Los tokens son fragmentos de datos con los que trabajan los modelos, equivaliendo mil tokens a aproximadamente 750 palabras.

image.png

Dado que las últimas afirmaciones de Google sobre ahorros de costos mediante cacheo generaron controversia, existen algunas áreas de precaución en esta nueva función. Por un lado, Google recomienda que los desarrolladores mantengan el contexto repetitivo al principio de las solicitudes para aumentar las probabilidades de aciertos de caché implícita. El contexto que podría cambiar entre solicitudes debería agregarse al final, según indica la compañía.

Por otro lado, Google no ofreció verificación independiente de que el nuevo sistema de cacheo implícito entregará los ahorros automáticos prometidos. Habrá que esperar a conocer la opinión de los primeros usuarios que adopten esta tecnología.

-----------------------------------------------------

Más contenido en Urgente24

Pepe Ochoa destruyó la imagen de Laurita Fernández: "Te haces la buena pero no lo sos"

Compararon a Lola con Diego Maradona y Yanina Latorre estalló: "Ella no escupe hijos"

Huawei presenta un smartwatch todoterreno: Qué funciones trae

Cajeros automáticos: Cómo aumentar tu límite de forma rápida y sencilla