Les chercheurs de Microsoft ont développé un nouveau LLM pour mieux appliquer l’IA dans les feuilles de calcul telles qu’Excel et Google Sheets.
Des chercheurs de Microsoft ont publié un document de recherche proposant un LLM expérimental conçu spécifiquement pour les feuilles de calcul sous le nom original de SpreadsheetLLM. Les LLM existants ne peuvent pas interpréter les données structurées, notamment en raison de la limite des jetons. Le SpreadsheetLLM expérimental utilise un nouveau mécanisme d’encodage où le contenu d’une feuille de calcul est placé dans un nouveau format qui est plus lisible par le LLM. Le modèle est encore en phase expérimentale, mais les premiers résultats sont positifs.
Une méthode adaptée au LLM
Les feuilles de calcul sont largement utilisées dans le monde des affaires : elles vont des simples formules aux modèles financiers complexes. Cependant, les LLM existants ne peuvent pas interpréter la nature de ces données et de ces formules complexes. Soucieux de relever ce défi, des chercheurs de Microsoft ont mis au point un LLM dédié aux feuilles de calcul.
Pour que les LLM puissent mieux interpréter la nature structurée des données dans les feuilles de calcul, les chercheurs ont développé un nouveau mécanisme d’encodage appelé « SheetCompressor ». Grâce à cette méthode, les données sont encodées d’une manière adaptée aux LLM tout en préservant la structure et les relations des données.
Outre SheetCompressor, les chercheurs mentionnent une autre fonctionnalité, à savoir l’« extraction d’ancrage structurel », qui identifie les lignes et les colonnes essentielles qui définissent les structures des tableaux. De plus, la méthode de « traduction par index inversé » permet d’encoder efficacement le contenu et les adresses des cellules afin de minimiser la redondance.
Le potentiel
Les essais ont montré que SpreadsheetLLM a obtenu des résultats positifs dans le test de détection des tableaux de feuilles de calcul, dépassant les méthodes existantes de 12,3 %. SpreadsheetLLM a été appliqué à plusieurs LLM bien connus, tels que GPT-3.5, GPT-4 et Llama 2. Les chercheurs ont constaté que la capacité de ces modèles à interpréter les feuilles de calcul était améliorée. Ainsi, GPT-4 a obtenu un score de 78,9 % pour la détection des tableaux.
Le potentiel de ce modèle ne fait aucun doute pour les chercheurs, même si les formats de feuilles de calcul plus complexes posent actuellement des problèmes. SpreadsheetLLM pourrait effectuer des tâches automatisées ou rendre les feuilles de calcul plus accessibles aux personnes qui ont des difficultés à les utiliser.
SpreadsheetLLM est actuellement un projet de recherche. Aucun autre projet n’a encore été annoncé par Microsoft pour lancer ce modèle dans le monde entier.