Retour aux projets

Test Technique Assurance Auto

Analyse prédictive des primes d'assurance et détection de dérive pour la robustesse des modèles.

Data ScienceLightGBMGLMDrift AnalysisPython
Test Technique Assurance Auto

Test Technique Assurance Auto

Analyse Prédictive des Primes d'Assurance Automobile

Ce projet présente une analyse complète de données d'assurance automobile, dont l'objectif est de prédire les primes commerciales. Il explore en profondeur les données, construit des modèles prédictifs et évalue leur robustesse dans le temps grâce à une analyse de dérive (drift analysis), un aspect critique en production.

Objectifs du Projet

  • Prédiction des primes : Développer des modèles (GLM, LightGBM) pour estimer les primes d'assurance.
  • Analyse exploratoire : Identifier les facteurs clés influençant les primes (âge, bonus/malus, etc.).
  • Détection de dérive : Évaluer la stabilité des modèles et leurs performances face à l'évolution des données au fil du temps.
  • Comparaison de modèles : Mettre en concurrence des modèles interprétables (GLM) et des modèles performants (LightGBM).

Technologies et Méthodologie

Ce projet a été réalisé en utilisant un stack data science standard pour la modélisation et l'analyse :

  • Langage : Python
  • Bibliothèques : Scikit-learn, LightGBM, Pandas, NumPy, Matplotlib, Seaborn
  • Modélisation : Utilisation de GLM (Tweedie/Gamma) pour l'interprétabilité et de LightGBM pour sa haute performance.
  • Méthodologie : Pipeline de nettoyage des données, entraînement de modèles, évaluation par métriques (RMSE, MAE, R², MAPE) et analyse de dérive.

Analyse de Dérive - Un point clé du projet

L'étude a révélé une dérive significative dans les données, affectant 45% des variables clés. Cette analyse a démontré une dégradation majeure des performances des modèles, avec une augmentation de +147% du RMSE et une chute du R² de 0.75 à -0.35 face aux nouvelles données. Ces résultats soulignent l'importance vitale du monitoring des modèles en production.

Résultats et Insights

  • Facteurs clés identifiés : L'âge du véhicule, le coefficient bonus/malus et l'âge du conducteur sont les variables les plus influentes.
  • Impact de la dérive : Les changements dans les profils de conducteurs (âges, bonus/malus) ont un impact plus fort sur la performance du modèle que les caractéristiques statiques du véhicule.
  • Recommandations : Le projet se conclut par des recommandations concrètes comme la mise en place d'un monitoring de dérive continu et le réentraînement périodique des modèles.

Défis Techniques Surmontés

  • Gestion de la dérive : Implémenter un pipeline d'analyse de dérive pour identifier les changements subtils dans les distributions de données.
  • Interprétabilité vs Performance : Comparer un modèle GLM interprétable avec un modèle de boosting plus performant et analyser les compromis.

⚙️ Pipeline de Data Science pour l'Assurance

Flux complet d'un projet de data science, de l'ingestion des données brutes jusqu'à la détection de dérive et aux recommandations.

Chargement du diagramme...