Les chercheurs de Salesforce ont développé une nouvelle technique qui automatise les agents d’IA.
Salesforce a développé la technique CoAct-1 et l’a décrite dans un article. La technique permet aux agents d’IA d’exécuter du code tout en naviguant dans les interfaces. Cela signifie qu’ils peuvent déplacer le curseur et cliquer avec. Ainsi, les agents d’IA travailleraient plus rapidement et feraient moins d’erreurs.
Trois agents se combinent
CoAct-1 se compose de trois parties : un agent Orchestrator qui répartit le travail dans le back-end, un agent d’interface utilisateur graphique (GUI) qui navigue sur les écrans frontaux et un agent Programmer qui écrit du code en Python ou Bash. Le système décide lui-même si une tâche est mieux réalisée par clics ou par codage. CoAct-1 résout les tâches en dix étapes en moyenne, une belle amélioration par rapport aux quinze étapes des agents qui n’utilisent pas la technique.

Source : Document CoAct-1
Sur le benchmark OS-World avec 369 tâches informatiques réalistes, CoAct-1 a atteint un taux de réussite de plus de 60 %, un nouveau record. Les tâches particulièrement complexes, telles que le filtrage de fichiers ou la compression de dossiers, sont devenues plus efficaces et moins sujettes aux erreurs.
Les défis restent importants
Bien que la technique obtienne de bons résultats dans les benchmarks, les environnements commerciaux sont souvent plus désordonnés ou fonctionnent avec des interfaces peu claires de logiciels existants. Pour l’instant, une supervision humaine est encore nécessaire pour orienter le travail des agents d’IA dans la bonne direction.
Par conséquent, Salesforce se fixe un objectif : « Un système où l’agent peut observer comment l’humain travaille, être formé davantage dans un environnement sandbox et bénéficier d’un accompagnement et d’une protection continus après la mise en service. » Pour l’instant, cette vision d’avenir est encore une fantaisie et il faudra probablement des années pour qu’elle devienne réalité.