Recently Published
Time Serie Forecasting
Dans cet article, je vous explique comment construire et évaluer un modèle ARIMA pour prédire les futures valeurs d'une série temporelle.
Fine particulate air pollution levels (PM2.5) in each of the world countries in 2016
This dashboard show fine particulate air pollution levels (PM2.5) in each of the world countries in 2016. I build it with the flexdashboard package in R.
Visualisation des données avec R (Formation complète)
Cette formation se décompose en 8 sections :
Apprendre à créer des graphiques de corrélation ;
Apprendre à créer des graphiques de déviation ;
Apprendre à créer des graphiques de classement ;
Apprendre à créer des graphiques de distribution ;
Apprendre à créer des graphiques de composition ;
Apprendre à créer des graphiques de visualisation de séries temporelles
Apprendre à créer des graphiques de clustering.
Comment installer R et RStudio sur son PC (Tutoriel complet)
Dans cet article, je vous explique, images à l'appui, ce qu'est le langage R et comment vous pouvez l'installer ainsi que RStudio sur votre PC.
DocumentSIMULATION DES PARTS DE MARCHE D’UNE ENTREPRISE D’AUTOMOBILE AVEC UN MODELE DE REGRESSION LOGISTIQUE
La prise de décision est très importante pour une entreprise. Prendre des décisions éclairées par les informations tirées des données contribue à la réussite des affaires. Dans ce document, j’ai montré comment utiliser l’analyse exploratoire des données ainsi qu’un modèle de régression logistique pour aider une entreprise automobile à concevoir le bon modèle de voiture afin d’être leader du marché.
PREDICTIONS OF A COMPANY’S FUTURE SALES USING LINEAR REGRESSION
The purpose of this study is to show you how to predict future sales for a business using linear regression.
SEGMENTATION DE CLIENTELE
L'objectif de ce projet est d'appliquer la technique de clustering K-means pour identifier les segments pertinents pour certaines activités commerciales, comme le déploiement d'une campagne marketing.
HUMAN RESOURCES ANALYTICS
Dans ce document, j’ai montré comment l’analyse des données des employés d’une entreprise peut aider les Gestionnaires de Ressources Humaines à prendre de bonnes décisions en ce qui concerne cinq différentes problématiques que sont : Recrutement, Engagement du personnel, Salaires, Performance et Sécurité des employés.
Illustration du Paradoxe de Simpson.
Connaissez-vous le paradoxe de Simpson ? Voici un exemple () pour l'illustre dans R.
En 1973 l’Université de Berkeley, l’une des meilleures des Etats-Unis, a reçu des milliers de candidatures pour son école doctarale. Mais ce grand succès a été entaché par des rumeurs selon laquelle l’institution avait fait une discrimination contre les femmes candidates. J'ai donc mené une étude statistique pour vérifier cela.
Mon analyse a commencé par le calcul de la proportion des admis selon le sexe. 44,5% des hommes avaient été accepté contre 30,4% d’admission chez les femmes. Alors il m'a semblé, considérant ces chiffres, qu’il y a vraiment eu de discrimination sexiste. Mais après avoir faire une analyse à l’intérieur de chaque département de l’université, j'ai remarqué que les femmes étaient plus acceptées que les hommes dans 4 départements sur les 6 que compte l’Université. Cela change radicalement ma première intuition.
Par ailleurs, après avoir construit les modèles (Régression logistique), j'ai conclu que la probabilité qu'un candidat homme soit rejeté était plus grande que la probabilité de rejet d'une femme.
Au vu de ces analyses, il n’y avait pas eu de discrimination envers les femmes pour l’entrée à l’école doctorale de l’Université de Berkeley en 1973.
Prédiction de la probabilité d'avoir une maladie cardiaque.
Les statistiques prouvent que les maladies cardiaques constituent la plus grande cause de mortalité aux États-Unis et aussi dans le monde entier. Nous disposons d’un ensemble de donnés sur des individus malades ou non en fonction de certains attributs comme le sexe, l’âge, le cholestérol, la pression sanguine, etc. L’objectif de cette étude est d’utiliser un modèle de régression logistique multiple pour prédire la probabilité d'avoir une maladie cardiaque.
Le choix de la Régression multiple logistique n’est pas anodin.En général, on utilise cette technique lorsque nous avons une variable binaire et deux ou plusieurs variables prédictives. La variable binaire est la variable dépendante (Y); nous étudions l’effet des variables indépendantes (X) sur la probabilité d’obtenir une valeur particulière de la variable dépendante.
CLASSIFICATION, REGRESSION ET CLUSTERING : ASPECTS TECHNIQUES (PARTIE 1
Dans ce document, je vous propose de rentrer dans les aspects techniques de la Classification, de la Régression et du Clustering qui sont trois techniques courantes de Machine Learning.
Distributions de variables
Figure montrant les distributions des variables catégorielles de=u jeu de données 'credit'.
Prédiction du statut (défaut de paiement ou non) d'un demandeur de prêt bancaire
Les banques, avec leur Big Data, utilisent des modèles de Machine Learning pour prédire si un demandeur de prêt bancaire sera en défaut de paiement ou non. Dans cet article, je vous montre de manière simplifiée, comment cette modélisation est effectuée en utilisant 02 techniques : l'Arbre de classification et les Forêts aléatoires.