Databricks comble le fossé entre les bases de données transactionnelles et l’analyse avec le lancement de LTAP. Cela devrait permettre aux agents de se mettre immédiatement au travail avec des données transactionnelles fraîches.
Lors de son Data+AI Summit à San Francisco, Databricks lance LTAP. L’ambition est grande : l’entreprise souhaite essentiellement fusionner deux bases de données différentes, présentes dans la plupart des organisations et jusqu’à présent séparées pour de bonnes raisons. Pour ceux qui aiment les acronymes : LTAP met fin à la séparation entre OLTP et OLAP, ainsi qu’aux pipelines ETL associés. Cela ouvre la porte à une analyse pilotée par l’IA sur des données transactionnelles actuelles, sans impact sur les performances de la base de données de transactions.
C’est une grande nouvelle, selon le PDG et cofondateur Ali Ghodsi. « Les ingénieurs tentent d’intégrer l’OLTP et l’OLAP depuis près de 45 ans, et nous y sommes enfin parvenus. »
En finir avec la séparation
Databricks met ainsi fin à la séparation historique entre l’OLTP (Online Transaction Processing) et l’OLAP (Online Analytical Processing) car cela est nécessaire pour un avenir piloté par l’IA.

L’architecture actuelle repose sur cette séparation. Les bases de données OLTP conservent des données de transaction rapides, ajoutées en temps réel. Pensez aux données de vente d’une chaîne de magasins ou aux retraits d’argent aux distributeurs automatiques de billets. Les performances et une disponibilité infaillible sont essentielles. Pour y effectuer des analyses, les données OLTP sont converties vers des bases de données OLAP via un pipeline ETL (extract, transform, load). L’analyse des données s’effectue sur cette base de données.
Zéro copie
Cela va à l’encontre du principe « zero copy » soutenu par Databricks. En effet, les données sont copiées d’un contexte à un autre. Cela entraîne une complexité, également en termes de gestion, mais n’est surtout pas évolutif. Databricks constate que l’architecture craque déjà lorsque l’informatique décisionnelle est pilotée par l’humain, mais qu’elle éclatera complètement lorsque l’analyse sera utilisée à la vitesse des outils d’IA.
LTAP doit donc remédier à ce problème. Databricks réunit l’OLTP et l’OLAP en une seule couche, avec un format de gestion unique et surtout en une seule copie. Le système offre à la fois la vitesse et la fiabilité nécessaires au support des transactions en temps réel, ainsi que les capacités d’effectuer des analyses lourdes sur les données.
À chacun son moteur
Sur le plan technique, Databricks rend cela possible en séparant les données de la puissance de calcul, et en conservant les données dans un datalake ouvert. Les transactions et l’analyse reçoivent chacune leur propre moteur de calcul, afin que ces charges de travail respectives n’interfèrent pas entre elles.
Les données OLTP sont fluidement mises en miroir dans un format orienté colonnes, tandis que les données orientées lignes restent intactes. Cela se produit à la vitesse de l’éclair, sans impact significatif sur les performances. Ensuite, les différents moteurs de base de données, chacun adapté à son usage, peuvent traiter les données à leur manière.
La solution est construite sur un stockage objet ouvert et suit la sémantique Postgres standard. Databricks s’attend à ce que sa solution LTAP offre une consolidation aux clients, sans qu’ils aient à renoncer à la compatibilité pour autant.

Lors du Data+AI Summit, Databricks estime avoir mis sur le marché avec LTAP une architecture capable de soutenir l’analyse pilotée par l’IA. Là où l’architecture unifiée offre des avantages théoriques même en dehors du contexte de l’IA, ce sont les agents d’IA et les analyses d’IA qui doivent stimuler la modernisation des bases de données.
Des continents à la Pangée
Ghodsi présente cette fusion comme l’aboutissement d’un développement de plusieurs années. Les données se trouvaient d’abord sur leurs propres îles et devaient être transférées pour être exploitables.
Databricks tente de résoudre ce problème depuis longtemps. L’entreprise a d’abord couplé l’ingénierie des données à la science des données, avant d’y ajouter plus tard l’entreposage de données. L’analyse en temps réel est également possible depuis peu, et voici maintenant le couplage avec l’OLTP.
