Retour aux formations Big Data
Voir le catalogue de formation

Rechercher

Les formations BIG DATA

Les autres formations EMGS

FONDAMENTAUX DE LA DATA SCIENCE

0jours
21 heures de cours
0
Tarif Inter-entreprise*/Hors taxes

*Pour obtenir le tarif « Intra-entreprise », merci de nous contacter.

Description

Surfant sur la vague du Big Data, le data scientist joue un rôle clé dans la valorisation de données. Au-delà des paillettes, quel est son rôle, ses outils, sa méthodologie, ses « tips and tricks » ? Venez le découvrir au travers de cette initiation à la Data Science délivrée par des data scientists renommés qui vous apporteront l’expérience des compétitions de Data Science et leurs riches retours d’expérience des modèles réels qu’ils mettent en place chez leurs clients

Objectifs pédagogiques

– Découvrir le monde de la Data Science et les grandes familles de problèmes
– Savoir modéliser un problème de Data Science
– Créer ses premières variables
– Constituer sa boite à outils de data scientist

Publics

  • Analyste, statisticien, architecte, développeur

Pré-requis

– Connaissances de base en programmation ou scripting.
– Quelques souvenirs de statistiques sont un plus.

Méthode pédagogique

Formation avec apports théoriques, échanges sur les contextes des participants et retours d’expérience pratique du formateur, complétés de travaux pratiques et de mises en situation.

Programme

Jour 1

• Qu’est-ce-que le Big Data ?

• L’écosystème technologique du Big Data

• Le vocabulaire d’un problème de Data Science

• De l’analyse statistique au machine learning

• Overview des possibilités du machine learning

• Input / ouput d’un problème de machine learning

• Mise en pratique « OCR» (Nous verrons comment modéliser le problème de la reconnaissance optique de caractère)

• Analyse supervisée

• Analyse non supervisée

• Classification / régression

• Quelques rappels : fonction hypothèse, fonction convexe, optimisation

• La construction de la fonction de coût

• Méthode de minimisation : la descente de gradient

• Frontière de décision

• La construction d’une fonction de coût convexe pour la classification

• Introduction aux outils

• Introduction à python, pandas et scikit-learn

• Exposé du problème

• Première manipulation en python

Jour 2

• Cross-validation

• Les métriques d’évaluation : precision, recall, ROC, MAPE, etc.

• Overview des possibilités du machine learning

• Overfitting ou sur-apprentissage

• Biais vs variance (Nous verrons comment modéliser le problème de la reconnaissance optique de caractère)

• La régularisation : régression Ridge et Lasso

• Les types de données : catégorielles, continues, ordonnées, temporelles

• Détection des outliers statistiques, des valeurs aberrantes

• Stratégie pour les valeurs manquantes

• Mise en pratique : « Remplissage des valeurs manquantes»

• Stratégies pour les variables non continues

• Détecter et créer des variables discriminantes

• Identification et création des bonnes variables

• Réalisation d’un premier modèle

• Soumission sur Kaggle

• La visualisation pour comprendre les données : histogramme, scatter plot, etc.

• La visualisation pour comprendre les algorithmes : train / test loss, feature importance, etc.

• Le modèle de base : l’arbre de décision, ses avantages et ses limites

• Présentation des différentes stratégies ensemblistes : bagging, boosting, etc.

• Mise en pratique « OCR» (Utilisation d’une méthode ensembliste sur la base du précédent modèle)

• Les grandes classes d’algorithmes non supervisées : clustering, PCA, etc.

• Mise en pratique : « Détection d’anomalies dans les prises de paris» (Nous verrons comment un algorithme non supervisé permet de détecter des fraudes dans les prises de paris)

Jour 3

• Synthèse des points abordés en journées 1 et 2

• Approfondissement des sujets sélectionnés avec l’intervenant

• Le dernier jour est entièrement consacré à des mises en pratique

• Le formateur sélectionnera une compétition en cours sur Kaggle ou datascience.net qui sera démarrée en jour 3 par l’ensemble des participants

Prochaines sessions

  • Contactez-nous pour les prochaines sessions.

Contactez-nous

Aides financières

Demande d’informations

    Votre nom (obligatoire)

    Votre prénom (obligatoire)

    Votre entreprise

    Votre fonction

    Votre email (obligatoire)

    Votre téléphone

    Formations

    Votre message