Google implémente une nouvelle fonctionnalité pour son API Gemini qui, selon l’entreprise, peut générer des économies allant jusqu’à 75 pour cent pour les développeurs.
La fonctionnalité, dénommée ‘mise en cache implicite’, est activée par défaut pour les modèles Gemini 2.5 Pro et 2.5 Flash. Les développeurs n’ont plus besoin de gérer eux-mêmes le cache, ce qui simplifie l’utilisation.
Avec la mise en cache implicite, Google vise à résoudre le problème des coûts élevés lors de l’utilisation fréquente de prompts similaires.

Alors que les solutions de mise en cache précédentes nécessitaient encore une contribution explicite des développeurs, la nouvelle approche fonctionne automatiquement. Lorsqu’une requête API a la même structure initiale qu’une requête précédente, un cache est utilisé et les coûts sont réduits.
Selon Google, la mise en cache commence à partir de 1.024 tokens pour 2.5 Flash et 2.048 tokens pour 2.5 Pro. Cela équivaut à environ 750 et 1.500 mots respectivement. Il est conseillé aux développeurs de placer le contexte répété au début d’un prompt. Les informations variables doivent être placées à la fin pour augmenter les chances d’un cache hit.
lire aussi
Google met l’outil de recherche en IA Deep Research à la disposition de Workspace
Réaction aux critiques antérieures
L’introduction de cette fonctionnalité fait suite aux critiques concernant l’approche précédente de mise en cache. Celle-ci exigeait que les développeurs marquent manuellement les prompts pour la mise en cache, ce qui entraînait des coûts inattendus élevés et de la frustration. Google a récemment reconnu ces problèmes et a promis des améliorations. Le passage à la mise en cache implicite en est une conséquence directe.
Google ne garantit actuellement pas que chaque cache hit sera correctement identifié. Il n’y a pas non plus de validation externe des économies promises. La fiabilité de la nouvelle fonctionnalité sera donc démontrée par les retours des premiers utilisateurs. Vous pouvez trouver plus d’informations à ce sujet dans un billet de blog de Google.