Analyse des ventes d’une librairie : compréhension des comportements d’achat et analyses statistiques

Analyse des ventes et des profils clients d’une librairie suite à l’ouverture de la vente en ligne.

Objectif du projet

Analyser les ventes, les clients et les produits d’une librairie à partir de trois sources de données (clients, produits, transactions), en identifiant les tendances de consommation, les produits phares ou en difficulté, les typologies de clients, et les corrélations statistiques utiles à la prise de décision.

Approche méthodologique

Après une phase d’analyse exploratoire approfondie (visualisations, corrélations, détection de multicolinéarité), les données ont été préparées et nettoyées en traitant notamment les valeurs manquantes via régression linéaire. 

Plusieurs algorithmes de machine learning ont été testés (régression logistique, KNN, Random Forest, clustering K-means pour comparaison).

Le modèle KNN a été retenu pour sa performance équilibrée. Une recherche d’hyperparamètres par GridSearchCV a permis d’optimiser les résultats. Le modèle a ensuite été intégré dans une application interactive développée dans un notebook Voilà, offrant visualisation, prédiction et export des résultats enrichis.

Compétences et outils mobilisés

  • Analyse de données
  • Nettoyage et fusion de jeux de données
  • Visualisation de données (matplotlib, seaborn)
  • Statistiques descriptives
  • Analyse comportementale selon âge et sexe
  • Recherche de corrélations – Spearman, Chi²
  • Test de normalité et homogénéité (Shapiro)
  • Test ANOVA
  • Interprétation statistique et formulation d’hypothèses
  • Rédaction de synthèse et restitution des résultats

💻 Environnement technique et bibliothèques​

Python Jupyter Notebook Pandas Numpy Scipcy Stats Matplotlib Seaborn

🧠 Méthodes et techniques appliquées

Analyse exploratoire Courbe de lorenz Tests statistiques Tableau de contingence Test de normalité Shapiro Kolmogorov-Smirnov Levene Corrélation de Spearman Test du Chi² ANOVA Kruskal-Wallis Visualisation des données