SUCCESS STORY

Un ETL en 3 mois

Challenge : un datalake sur-mesure

En hypercroissance, la future licorne française du tourisme a vu le volume de ses données augmenter pour atteindre 1,5TB en 2019. Les business analystes effectuent leurs rapports BI au CoDIR en plus d'une semaine, sans aucune certitude sur l'exactitude des chiffres présentés. L'objectif est donc de créer un datalake offrant des collections de données agrégées selon les besoins métiers afin que les analystes puissent fournir une analyse en 4h, contre 1 semaine avant le projet.

Dans son ambition de créer des voyages sur-mesure correspondants parfaitement aux besoins et envies de ses clients, cette startup nécessite 0,5TB de données provenant de nombreuses sources (données collectées lors des échanges avec les agences de voyage locales, données de paiement, données utilisateurs, données de sessions sur le site).

300K

Voyageurs

160

Destinations

2009

Année de Création

Notre impact

Diviser par 8
le temps de création de rapports BI
7
sources agrégées et normalisées
Background
Background
Quotes

Les équipes Sicara sont force de proposition sur les sujets techniques : nous avons été accompagnés sur le choix des technos et pour adapter l'architecture de l'ETL aux best practices. De plus, les équipes Sicara se sont parfaitement intégrées à nos équipes data et métiers et nous ont aidé à mettre en place une dynamique agile.

Johann. Lead Data Engineer

Nous avons développé un datalake sur mesure en 3 mois

Récuperer des insights à partir de données brutes

Nous avons développé un datalake sur mesure en 3 mois

Récuperer des insights à partir de données brutes

Nous avons développé une base de données avec ses données historiques et mises à jour à livrer en temps réel. Ces données sont stockées ou agrégées à partir de 7 sources différentes en réponse à des besoins commerciaux pré-identifiés. Tout d'abord, les équipes produit et marketing utilisent des données brutes (données des sessions utilisateurs du site Web, recommandations clients, données commerciales) afin d'améliorer l'expérience utilisateur. Deuxièmement, les équipes BI s'appuient sur des données agrégées selon des règles métier spécifiques qui leur permettent de délivrer des rapports BI en moins de 4 heures à l'équipe dirigeante et aux équipes internes (contre 1 semaine auparavant).

Comment nous avons construit le Datalake

Un ETL sur mesure

Comment nous avons construit le Datalake

Un ETL sur mesure

Nous avons mis en œuvre un EL-ETL qui a organisé des données historiques de 1 To, d'où plus de 100 000 millions de documents ont été regroupés dans 22 collections. Une fois agrégées, ces collections sont approvisionnées en temps réel par un double système de 2O travailleurs RabbitMQ qui gèrent ces données et 21 travailleurs RabbitMQ qui mettent à jour ces données.

Notre Équipe spécialisée en ETL

Une intégration totale chez le client

startup, sicara, équipe, travail d'équipe

Notre Équipe spécialisée en ETL

Une intégration totale chez le client

Pour mettre en place le datalake, nous avons intégré une équipe Sicara de 4 data engineers à l'équipe data d'Evaneos. Nous avons accompagné le CoDir dans la stratégie Data avec un Product Manager de chez Sicara pour piloter le projet sur place

Emna

ENSTA ParisTech

Antoine

Polytechnique

Martin

ISAE - SUPAERO

Bastien

Télécom ParisTech – MVA


Articles associés écrits par les Data Engineers Sicara (En Anglais)

Automate AWS Tasks Thanks to Airflow Hooks

This article is a step-by-step tutorial that will show you how to upload a file to an S3 bucket thanks to an Airflow ETL (Extract Transform Load) pipeline

apache airflow to Celery

How Apache Airflow Distributes Jobs on Celery workers

The life of a distributed task instance

How to Get Certified in Spark by Databricks?

This article aims to prepare you for the Databricks Spark Developer Certification: register, train and succeed, based on my recent experience.

AI FOR BUSINESS

Le Livre Blanc

Comment faire des entreprises françaises les championnes de l'Intelligence Artificielle ? Pendant plusieurs mois, Benoît Limare, CEO de Sicara, était partenaire du Think Tank "AI for Business" - Les Echos avec des représentants d'entreprise et des experts de l'IA et de la Data Science. Ce livre blanc rassemble 20 recommandations qui s'adressent à tous types d'entreprises et managers qui veulent lancer leur projet IA.

Livre Blanc, IA, Intelligence Artificielle, Meilleures Pratiques, Les Echos