Use cases CX
Documentation technique de l'architecture Data Lakehouse pour les donnees Customer Experience
Sources
- Oracle DWH (Genesys)
- Systemes operationnels
- Fichiers externes
- APIs partenaires
Ingestion
- Dataiku Datasets
- PySpark Jobs
- Batch / Near Real-Time
- Schema Evolution
Lakehouse (HDFS)
- Bronze Layer (Raw)
- Silver Layer (Curated)
- Gold Layer (Business)
- Format: Apache Iceberg
Consommation
- Reporting / BI
- Data Science
- Machine Learning
- Applications Metier
L'architecture Medallion structure les donnees en couches progressives de qualite et de transformation :
Couche Raw
- Copie 1:1 des sources
- Format VARCHAR uniforme
- Non partitionne
- Historisation complete
Couche Curated
- Types forts (Int, Date, etc.)
- Partitionnement CALL_TIME
- Transformations appliquees
- Donnees nettoyees
Couche Business
- Agregations metier
- Modeles dimensionnels
- KPIs pre-calcules
- Pret pour la BI
Stockage & Compute
Cloudera HDFS
Stockage distribue haute disponibilite
Apache Spark / PySpark
Moteur de traitement distribue
Apache Iceberg
Format de table ouvert avec ACID
Orchestration & Outils
Dataiku DSS
Plateforme Data Science & ML
Oracle DWH
Base source Genesys (Landing Zone)
Apache Hive Metastore
Catalogue de metadonnees
Le pipeline CX (Customer Experience) illustre le flux typique des donnees depuis les sources Genesys jusqu'aux couches analytiques :
Pipeline CX Data - Vue Dataiku (BIGDATA → BRONZE → SILVER)

Decouplage donnees / infrastructure
Les usages ne dependent pas d'un moteur ou d'un stockage specifique grace a Iceberg
Schema-on-Read progressif
Les donnees brutes sont conservees, les transformations appliquees couche par couche
Time Travel & Auditabilite
Iceberg permet de consulter les donnees a n'importe quel point dans le temps
Cloud-Ready
L'architecture est compatible avec une migration future vers le cloud (post-2028)