Use cases CX

Documentation technique de l'architecture Data Lakehouse pour les donnees Customer Experience

Architecture Cible - Data Platform

Sources

Oracle DWH (Genesys)
Systemes operationnels
Fichiers externes
APIs partenaires

Ingestion

Dataiku Datasets
PySpark Jobs
Batch / Near Real-Time
Schema Evolution

Lakehouse (HDFS)

Bronze Layer (Raw)
Silver Layer (Curated)
Gold Layer (Business)
Format: Apache Iceberg

Consommation

Reporting / BI
Data Science
Machine Learning
Applications Metier

OracleDataiku/PySparkBronzeSilverGold

Architecture Medallion (Lakehouse)

L'architecture Medallion structure les donnees en couches progressives de qualite et de transformation :

BRONZE

Couche Raw

Copie 1:1 des sources
Format VARCHAR uniforme
Non partitionne
Historisation complete

HDFSParquetIceberg

SILVER

Couche Curated

Types forts (Int, Date, etc.)
Partitionnement CALL_TIME
Transformations appliquees
Donnees nettoyees

HDFSParquetIceberg

GOLD

Couche Business

Agregations metier
Modeles dimensionnels
KPIs pre-calcules
Pret pour la BI

HDFSParquetIceberg

Stack Technique

Stockage & Compute

Cloudera HDFS

Stockage distribue haute disponibilite

Apache Spark / PySpark

Moteur de traitement distribue

Apache Iceberg

Format de table ouvert avec ACID

Orchestration & Outils

Dataiku DSS

Plateforme Data Science & ML

Oracle DWH

Base source Genesys (Landing Zone)

Apache Hive Metastore

Catalogue de metadonnees

Flux de Donnees - Pipeline CX

Le pipeline CX (Customer Experience) illustre le flux typique des donnees depuis les sources Genesys jusqu'aux couches analytiques :

Pipeline CX Data - Vue Dataiku (BIGDATA → BRONZE → SILVER)

Oracle (BIGDATA_*)

PySpark Job

Hadoop/Iceberg

Principes Directeurs

Decouplage donnees / infrastructure

Les usages ne dependent pas d'un moteur ou d'un stockage specifique grace a Iceberg

Schema-on-Read progressif

Les donnees brutes sont conservees, les transformations appliquees couche par couche

Time Travel & Auditabilite

Iceberg permet de consulter les donnees a n'importe quel point dans le temps

Cloud-Ready

L'architecture est compatible avec une migration future vers le cloud (post-2028)