BUSINESS CASE

Un ETL en 3 mois

Challenge : un datalake sur-mesure

En hypercroissance, la future licorne française du tourisme a vu le volume de ses données augmenter pour atteindre 1,5TB en 2019. Les business analystes effectuent leurs rapports BI au CoDIR en plus d'une semaine, sans aucune certitude sur l'exactitude des chiffres présentés. L'objectif est donc de créer un datalake offrant des collections de données agrégées selon les besoins métiers afin que les analystes puissent fournir une analyse en 4h, contre 1 semaine avant le projet.

Dans son ambition de créer des voyages sur-mesure correspondants parfaitement aux besoins et envies de ses clients, cette startup nécessite 0,5TB de données provenant de nombreuses sources (données collectées lors des échanges avec les agences de voyage locales, données de paiement, données utilisateurs, données de sessions sur le site).

300K

Voyageurs

160

Destinations

2009

Année de Création

Notre impact

Diviser par 8
le temps de création de rapports BI
7
sources agrégées et normalisées
Background
Background
Quotes

Les équipes Sicara sont force de proposition sur les sujets techniques : nous avons été accompagnés sur le choix des technos et pour adapter l'architecture de l'ETL aux best practices. De plus, les équipes Sicara se sont parfaitement intégrées à nos équipes data et métiers et nous ont aidé à mettre en place une dynamique agile.

ManoMano, Hosanski

Johann. Lead Data Engineer

Le datalake sur-mesure que nous avons développé en 3 mois

Mise à disposition des données brutes et des collections de données intelligentes

Le datalake sur-mesure que nous avons développé en 3 mois

Mise à disposition des données brutes et des collections de données intelligentes

Nous avons développé un datalake historisé qui remonte en temps réel les données agrégées de 7 sources en réponse à deux besoins de données différentes identifiés en amont. Premièrement, les équipes produit et marketing utilisent des données brutes (données de sessions utilisateurs sur le site, verbatim client, données de paiement, etc...) afin d'améliorer l'expérience client. Deuxièmenent, les équipes BI ont besoin de données agrégées selon des business rules spécifiques leur permettant ainsi de fournir en moins de 4H des dashboards demandées par le CoDIR ou les équipes internes (vs 1 semaine avant la mise en place du datalake).

Comment nous l'avons développé

Un ETL (Extract-Transform-Load) sur mesure

Comment nous l'avons développé

Un ETL (Extract-Transform-Load) sur mesure

Nous avons mis en place un EL-ETL qui a remonté 1TB de données historiques, soient plus de 100 000 millions de documents agrégés en 22 collections. Une fois agrégées, ces collections sont alimentées en temps réel grâce à un système de 20 workers RabbitMQ qui gèrent les data sources et 21 workers qui updatent les datas. De plus, l'équipe de data engineers a pensé une architecture PostgreSQL fluide et scalable afin de répondre aux besoins changeants de la startup.

Notre Équipe spécialisée en ETL

Une intégration totale chez le client

startup, sicara, équipe, travail d'équipe

Notre Équipe spécialisée en ETL

Une intégration totale chez le client

Pour mettre en place le datalake en 3 mois, nous avons intégré une équipe Sicara de 4 data engineers à l'équipe data du client, composé d'un lead data engineer. Sicara a aussi conseillé techniquement le CoDIR sur l'architecture data de l'entreprise. De plus, la captation de besoins métiers en data par un PO technique Sicara et l'implémentation de la méthode agile par un Coach Agile Sicara a permis d'augmenter x3 la vitesse de mise en place du datalake.

Martin

ISAE - SUPAERO

Antoine

Polytechnique

Emna

ENSTA ParisTech

Bastien

Télécom ParisTech – MVA


Articles associés écrits par les Data Engineers Sicara (En Anglais)

Automate AWS Tasks Thanks to Airflow Hooks

This article is a step-by-step tutorial that will show you how to upload a file to an S3 bucket thanks to an Airflow ETL (Extract Transform Load) pipeline

apache airflow to Celery

How Apache Airflow Distributes Jobs on Celery workers

The life of a distributed task instance

How to Get Certified in Spark by Databricks?

This article aims to prepare you for the Databricks Spark Developer Certification: register, train and succeed, based on my recent experience.

AI FOR BUSINESS

Le Livre Blanc

Comment faire des entreprises françaises les championnes de l'Intelligence Artificielle ? Pendant plusieurs mois, Benoît Limare, CEO de Sicara, était partenaire du Think Tank "AI for Business" - Les Echos avec des représentants d'entreprise et des experts de l'IA et de la Data Science. Ce livre blanc rassemble 20 recommandations qui s'adressent à tous types d'entreprises et managers qui veulent lancer leur projet IA.

Livre Blanc, IA, Intelligence Artificielle, Meilleures Pratiques, Les Echos