LLM qui se tait quand il le faut : VaultGemma de Google oublie consciemment les données sensibles

LLM qui se tait quand il le faut : VaultGemma de Google oublie consciemment les données sensibles

Google Research a développé un nouveau modèle d’IA qui est beaucoup moins susceptible de répéter littéralement les données d’entraînement sensibles.

Le modèle, VaultGemma, est le premier LLM de Google qui a été entraîné avec une technique appelée confidentialité différentielle. Celle-ci ajoute du bruit pendant l’entraînement afin d’empêcher les modèles de « mémoriser » des informations sensibles.

Équilibre entre confidentialité et performance

La répétition des données d’entraînement est un risque connu avec les LLM. Ils ont des sorties non déterministes, ce qui signifie que vous ne pouvez pas prédire exactement ce qu’ils vont répondre. S’ils traitent des informations sensibles dans leurs réponses, cela peut entraîner des violations de la vie privée ou des problèmes juridiques. La confidentialité différentielle empêche cela, mais réduit en même temps la précision et augmente la puissance de calcul nécessaire.

Google a donc étudié comment la quantité de bruit se compare aux données et à la puissance de calcul nécessaires. Le géant de la technologie a établi des lois d’échelle pour trouver un équilibre idéal.

VaultGemma comme modèle de test des lois d’échelle

Grâce aux recherches sur la confidentialité différentielle, Google a pu entraîner VaultGemma sur cette base. Il s’agit d’une version compacte de la famille de modèles Gemma 2 avec 1 milliard de paramètres. Le modèle n’est pas très grand, mais offre des performances similaires à celles des modèles non privés de la même taille.

Benchmark VaultGemma
Source : Google

Selon Google, il s’agit d’une étape importante dans le développement d’une IA à la fois puissante et privée. VaultGemma est désormais disponible avec des poids ouverts sur Hugging Face et Kaggle.