Databricks lance une API pour générer des ensembles de données synthétiques

La nouvelle API de Databricks permet aux utilisateurs de créer facilement des ensembles de données synthétiques pour l’apprentissage automatique.

Databricks a introduit une nouvelle API qui permet aux utilisateurs de créer facilement des ensembles de données synthétiques pour les projets d’apprentissage automatique. L’API fait partie de Mosaic AI Agent Evaluation, un outil qui permet aux développeurs d’évaluer la qualité, le coût et la vitesse des applications d’intelligence artificielle.

La génération en trois étapes

Les données synthétiques générées par l’IA offrent un moyen plus rapide et plus rentable de créer des ensembles de données de formation que les méthodes manuelles. La nouvelle API se concentre sur la génération de collections de questions-réponses utiles pour les applications avec LLM. Le processus comprend trois étapes : le téléchargement d’un cadre de données pertinentes dans Apache Spark ou Pandas, la spécification du nombre souhaité de questions et de réponses, et la personnalisation du style de sortie et du scénario d’utilisation.

Étant donné que des données de formation incorrectes peuvent affecter la qualité des modèles d’IA, l’API est conçue pour simplifier la validation des données. Au lieu de réponses complètes, l’API génère les faits nécessaires pour répondre aux questions.

De nouvelles fonctionnalités seront ajoutées en 2024, notamment une interface graphique pour des examens plus rapides et des outils pour suivre les changements dans les ensembles de données.

En début d’année, Databricks a intégré les GPU Nvidia dans sa plateforme. Cela permet aux utilisateurs d’accélérer les charges de travail d’IA à partir de la Data Intelligence Platform.

sol

« * » indique les champs nécessaires

La génération en trois étapes

bulletin