Use cases Data

Document de Reference - Orange Maroc

Use cases CX

Documentation technique de l'architecture Data Lakehouse pour les donnees Customer Experience

Architecture Cible - Data Platform

Sources

  • Oracle DWH (Genesys)
  • Systemes operationnels
  • Fichiers externes
  • APIs partenaires

Ingestion

  • Dataiku Datasets
  • PySpark Jobs
  • Batch / Near Real-Time
  • Schema Evolution

Lakehouse (HDFS)

  • Bronze Layer (Raw)
  • Silver Layer (Curated)
  • Gold Layer (Business)
  • Format: Apache Iceberg

Consommation

  • Reporting / BI
  • Data Science
  • Machine Learning
  • Applications Metier
OracleDataiku/PySparkBronzeSilverGold
Architecture Medallion (Lakehouse)

L'architecture Medallion structure les donnees en couches progressives de qualite et de transformation :

BRONZE

Couche Raw

  • Copie 1:1 des sources
  • Format VARCHAR uniforme
  • Non partitionne
  • Historisation complete
HDFSParquetIceberg
SILVER

Couche Curated

  • Types forts (Int, Date, etc.)
  • Partitionnement CALL_TIME
  • Transformations appliquees
  • Donnees nettoyees
HDFSParquetIceberg
GOLD

Couche Business

  • Agregations metier
  • Modeles dimensionnels
  • KPIs pre-calcules
  • Pret pour la BI
HDFSParquetIceberg
Stack Technique

Stockage & Compute

H

Cloudera HDFS

Stockage distribue haute disponibilite

S

Apache Spark / PySpark

Moteur de traitement distribue

I

Apache Iceberg

Format de table ouvert avec ACID

Orchestration & Outils

D

Dataiku DSS

Plateforme Data Science & ML

O

Oracle DWH

Base source Genesys (Landing Zone)

H

Apache Hive Metastore

Catalogue de metadonnees

Flux de Donnees - Pipeline CX

Le pipeline CX (Customer Experience) illustre le flux typique des donnees depuis les sources Genesys jusqu'aux couches analytiques :

Pipeline CX Data - Vue Dataiku (BIGDATA → BRONZE → SILVER)

Pipeline CX Data - Vue Dataiku
Oracle (BIGDATA_*)
PySpark Job
Hadoop/Iceberg
Principes Directeurs
1

Decouplage donnees / infrastructure

Les usages ne dependent pas d'un moteur ou d'un stockage specifique grace a Iceberg

2

Schema-on-Read progressif

Les donnees brutes sont conservees, les transformations appliquees couche par couche

3

Time Travel & Auditabilite

Iceberg permet de consulter les donnees a n'importe quel point dans le temps

4

Cloud-Ready

L'architecture est compatible avec une migration future vers le cloud (post-2028)