Introduction à la data science

Catalogue des cours de Institut Mines-Télécom Business School

Code

MUFF MIS 3002

Niveau

L3

Discipline

Systèmes d’information

Langue

Français/French

Crédits ECTS

3

Heures programmées

18

Charge totale étudiant

60

Coordonnateur(s)

Département

  • Data analytics, Économie et Finances

Equipe pédagogique

Introduction au module

Ce cours a pour objectif de fournir aux étudiants les bases essentielles de la data science, ou analyse de données, à travers l’utilisation du logiciel RStudio (langage de programmation R). Il vise à développer leur capacité à manipuler, structurer, analyser et interpréter des bases de données afin de transformer des données brutes en informations pertinentes pour l’aide à la décision. À l’issue du cours, les étudiants seront en mesure de conduire une analyse de données de manière autonome, de produire des résultats statistiques rigoureux et de les présenter de façon claire et structurée. Une attention particulière sera accordée à la compréhension des méthodes, à l’interprétation des résultats et à l’esprit critique face aux analyses réalisées.

Objectifs d'apprentissage (compétences mères)

  • 1 - S'approprier les usages avancés et spécialisés des outils de l'intelligence digitale en s'assurant de leur impact durable et responsable
  • 1.1 - Auditer les usages avancés et spécialisés des outils de l'intelligence digitale, afin de les mobiliser avec pertinence, en tenant compte du contexte stratégique des organisations.
  • 1.2 - Actionner les outils de l'intelligence digitale de manière efficiente, pour accompagner les transformations sociétale, numérique, énergétique et environnementale des organisations, en s'assurant de leur impact durable et responsable.

Traits de compétences

- Analyse de données
- Visualisation des données
- Prise de décision basée sur les données

Contenu : structure du module et agenda

Le cours est organisé autour de six thèmes :

1. Installation et prise en main de RStudio et du langage R : installation de R et RStudio, importation et exportation de bases de données, création et modification de variables, gestion et sauvegarde de bases de données, et fusion de bases de données.

2. Statistiques descriptives et visualisation des données : tableaux de fréquences simples et croisés, statistiques descriptives des variables quantitatives (moyenne, écart-type, minimum, maximum, skewness, kurtosis, etc.) et réalisation de graphiques (nuage de points, histogramme, boîte à moustaches, etc.).

3. Présentation de la régression linéaire : principes de base, interprétation des coefficients et des résultats, ainsi que vérification des hypothèses nécessaires à la validité du modèle.

4. Exploration et préparation des données : mise en pratique des éléments vus précédemment afin de réaliser une régression linéaire complète (exploration, nettoyage, préparation des données, estimation et interprétation des résultats).

5. Détection et traitement des problèmes usuels de la régression linéaire : identification, à l’aide de méthodes statistiques et graphiques, de problèmes potentiels tels que la non-linéarité, la non-normalité, la colinéarité ou la présence d’observations aberrantes. Présentation des solutions permettant d’y remédier.

6. Modèles à variable dépendante discrète : présentation des modèles Probit et Logit (principes et interprétation), identification des principaux problèmes pouvant être rencontrés (colinéarité, spécification du modèle, etc.) et estimation d’un modèle Probit.

Contribution à l'atteinte des ODD (Objets du Développement Durable)

ODD n°8 "Travail décent et croissance économique": l'analyse de données ou data science devient une outils d'aide à la décision indispensable dans un monde qui se digitalise et crée de plus en plus de données. La maîtrise ou au moins la compréhension de ces outils est de plus en plus demandé sur le marché du travail afin de réaliser des études et analyses sur lesquelles se basent des décisions aussi bien d'entreprises que d'acteurs publics.

Nombre d'ODD abordés parmi les 17

1

Apprentissage

Mixte

Méthode pédagogique

Le cours est dispensé sous la forme de Travaux Pratiques (TPs). Les étudiants installent sur leur ordinateur ou tablette le logiciel RStudio et ils réalisent les différentes commandes nécessaires à l'exploitation des données.
The course is delivered in the form of practical sessions (labs). Students install the RStudio software on their computer or tablet and carry out the various commands necessary for data analysis and processing.

Système de notation et modalités de rattrapage

2 éléments sont utilisés au niveau de l'évaluation: un contrôle sur table (1h, 60% de la note finale) et un dossier contenant une analyse de données (40% de la note finale). Le contrôle sur table consiste à écrire les codes nécessaires à la réalisation de commande. Le dossier contenant une analyse de données est réalisé en 4 étapes:
- 1) Identification d'une question, base de données et modèle à estimer (5% de la note finale).
- 2) En plus des éléments de l'étape (1), premières versions de la revue de littérature, statistiques descriptives et résultats du modèle (5% de la note finale).
- 3) En plus des éléments de l'étape (1) et (2), identification et traitement des problèmes usuels (linéarité, normalité, colinéarité, etc.) et prise en compte de ces derniers dans le modèle final (10% de la note finale).
- 4) Version finale du document contenant l'ensemble des points indiqués dans (1), (2) et (3) dans leur version finalisée (20% de la note finale).

Dans le cadre du rattrapage, un examen sur table (1h) est organisé dans lequel il faut écrire les codes permettant de réaliser certaines commandes.

Règlement du module

Communication Professeur-Apprenant
● Le professeur contactera les apprenants via leur adresse mail scolaire (IMT-BS/TSP) et le portail Moodle. Aucune communication via les adresses mails personnelles n’aura lieu. Il est de la responsabilité de l’étudiant de consulter régulièrement sa boîte mail IMT-BS/TSP.
● Les apprenants peuvent communiquer avec le professeur en envoyant un mail à son adresse institutionnelle. Au besoin, il est possible de le rencontrer dans son bureau durant les heures de bureau ou sur rendez-vous.

Apprenants avec des besoins d’accommodement
Si l’apprenant a un handicap qui empêche d’accomplir le travail décrit ou qui nécessite toute sorte d'accommodement, il est de sa responsabilité d’en informer le directeur des études (avec justificatifs) dès que possible. Aussi, l’apprenant ne doit pas hésiter à en discuter avec son professeur.

Comportement en classe
● En guise de courtoisie envers le professeur et les autres apprenants, tous les téléphones portables, jeux électroniques ou autres appareils générant du son doivent être désactivés pendant les cours.
● L’apprenant doit éviter out comportement perturbateur et irrespectueux tel que: arriver en retard en classe, partir tôt, comportement inconsidéré (ex. dormir, lire un document non lié au cours, utiliser un langage vulgaire, parler excessivement, manger, boire, etc.). Un avertissement peut être donné à la première infraction de ces règles. Les contrevenants seront pénalisés et pourront être expulsés de la classe et/ou subir d'autres procédures disciplinaires.
● Le retard toléré est de 5 minutes. La présence sera déclarée sur Moodle durant ces 5 minutes via un QR code fourni par le professeur à chaque démarrage de cours.
● L’apprenant doit arriver à l'heure pour les examens et autres évaluations. Personne ne sera autorisé à entrer en classe une fois que la première personne aura terminé l'examen et quitté la salle. Il n'y a absolument aucune exception à cette règle. Aucun apprenant ne peut continuer à passer un examen une fois le temps écoulé. Aucun apprenant ne peut quitter la salle pendant un examen à moins qu'il / elle ait terminé et ait remis tous les documents.
● En cas de cours à distance, l'apprenant doit maintenir sa caméra allumée sauf en cas d'indications contraires données par l'enseignant.

Code éthique
IMT-BS est engagée dans une politique d'honnêteté dans le milieu académique. Toute conduite compromettant cette politique peut entraîner des sanctions académiques et/ou disciplinaires. Les apprenants doivent s'abstenir de tricher, de mentir, de plagier et de voler. Ceci consiste à accomplir un travail original et à reconnaître toute autre personne dont les idées et les documents imprimés (y compris ceux provenant d’Internet) sont paraphrasés ou cités directement. Tout apprenant qui enfreint ou aide un autre élève à enfreindre les normes de comportement scolaire sera sanctionné conformément aux règles de l'IMT-BS.

Références obligatoires et lectures suggérées

- Jeffrey Wooldridge, Introductory Econometrics: A Modern Approach, 3rd Ed., 2006
- William Green, Econometric Analysis, Prentice Hall, 6th Edition, 2008
- Florian Heiss, Using R for introductory econometrics, 2016

Mots-clés

Data science, langage R, statistiques descriptives, visualisation, régression linéaire, modèle à variable discrète

Prérequis

Connaissances de base en statistique (variable, distribution d'une variable, moyenne, écart-type, etc.)