Compréhension écrite de Google Gemini moins réussie que ne le prétend Google

google gemini begrijpend lezen

On a testé, dans le cadre de deux expériences scientifiques, la capacité de Google Gemini à analyser des textes longs et des images. Le LLM a échoué aux deux tests.

Google se vante que le modèle Gemini Pro peut traiter jusqu’à deux millions de jetons simultanément. Cela équivaut à peu près à 2 heures de vidéo, 22 heures d’audio, 60 000 lignes de code ou 1,5 million de mots. Google investit beaucoup dans la limite élevée de jetons de Gemini pour faire la différence avec les modèles GPT d’OpenAI.

Mais la compréhension écrite est-elle il vraiment aussi performant que le prétend Google ? Deux études scientifiques ont testé le logiciel et sont arrivées à une conclusion différente. Des chercheurs de l’Allen Institute et de l’université de Princeton ont demandé à des modèles Gemini de lire un livre de 260 000 mots et de répondre à des questions à son sujet.

L’échec de Gemini

Gemini Pro a obtenu un score de 46 % au test, Flash a échoué de 20 %. Les chercheurs ont constaté que Gemini était tout à fait capable d’extraire des informations dans des phrases très spécifiques, mais que la précision des réponses chutait lorsque la question nécessitait la lecture de textes plus longs.

Une autre expérience menée par une université américaine a testé la capacité à analyser des images. Les chercheurs ont créé un ensemble d’images et ont posé aux modèles des questions sur les objets présents dans l’image. Pour compliquer la tâche, les chercheurs ont ajouté des images distrayantes au diaporama. Gemini Flash en particulier, un modèle censé exceller principalement dans la rapidité, a échoué lors de ce test, obtenant un score de 30 % sur les séquences les plus difficiles.

Des promesses (trop) ambitieuses

Il faut noter que les modèles OpenAI et Anthropic n’ont pas non plus eu de bons résultats. La note de GPT-4o pour l’examen de compréhension écrite est à peine suffisante. Toutefois, Google devrait veiller à ne pas faire trop de promesses.

newsletter

Abonnez-vous gratuitement à ITdaily !

Category(Required)
This field is for validation purposes and should be left unchanged.
retour à la maison