Description du cours

Intitulé de l'Unité d'Enseignement

Data Science et IA

Code de l'Unité d'Enseignement

21MQ061

Année académique

2025 - 2026

Cycle

MASTER

Nombre de crédits

Nombre heures

Quadrimestre

Pondération

Site

Montgomery

Langue d'enseignement

Français

Enseignant responsable

DENDONCKER Valentin

Objectifs et contribution de l'Unité d'Enseignement au programme

L’unité d’enseignement est une introduction aux techniques quantitatives d’exploration et d’interprétations des données, ainsi qu'aux techniques de préparation des données, en vue de les utiliser dans le cadre d'un projet impliquant des algorithmes de machine learning ou d'intelligence artificielle.
À l’issue du cours, l’étudiant sera à même de choisir et d’appliquer une technique quantitative lui permettant de répondre à une question posée à partir de données existantes.

Prérequis et corequis

Description du contenu

Le cours abordera les thèmes suivants :
- Data mining
- Data cleaning
- Data transformation

Méthodes pédagogiques

Exposés ex cathedra mêlant la description des fondements théoriques, l'illustration et l'implémentation des notions abordées.

Mode d'évaluation

L’examen écrit (à livres fermés) est composé de QCM-QRM, ainsi que d’éventuelles questions ouvertes.

Références bibliographiques

- Borg, I., & Groenen, P. J. (2005). Modern multidimensional scaling: Theory and applications. Springer Science & Business Media.
- Breiman, L., Friedman, J. H., Olshen, R. A., & Stone, C. J. (1984). Classification and Regression Trees. Wadsworth Statistics/Probability Series.
- Brick, J. M. (2013). Unit nonresponse and weighting adjustments: A critical review. Journal of Official Statistics, 29(3), 329-353.
-Chandola, V., Banerjee, A., & Kumar, V. (2009). Anomaly detection: A survey. ACM computing surveys (CSUR), 41(3), 1-58.
- Davis, J. J., & Foo, E. (2016). Automated feature engineering for HTTP tunnel detection. Computers & Security, 59, 166-185.
- Gu, Q., Li, Z., & Han, J. (2011, September). Linear discriminant dimensionality reduction. In Joint European conference on machine learning and knowledge discovery in databases (pp. 549-564). Springer, Berlin, Heidelberg.
- He, Z., Xu, X., & Deng, S. (2003). Discovering cluster-based local outliers. Pattern Recognition Letters, 24(9-10), 1641-1650.
- Hinton, G. E., & Salakhutdinov, R. R. (2006). Reducing the dimensionality of data with neural networks. Science, 313 (5786), 504-507.
- Hoffmann, H. (2007). Kernel PCA for novelty detection. Pattern recognition, 40(3), 863-874.
- Holt, D., & Elliot, D. (1991). Methods of weighting for unit non-response. Journal of the Royal Statistical Society: Series D (The Statistician), 40(3), 333-342.
- Jolliffe, I. T., & Cadima, J. (2016). Principal component analysis: a review and recent developments. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, 374(2065).
- Kaul, A., Maheshwary, S., & Pudi, V. (2017, November). Autolearn—Automated feature generation and selection. In 2017 IEEE International Conference on data mining (ICDM) (pp. 217-226). IEEE.
- Kuhn, M., & Johnson, K. (2019). Feature engineering and selection: A practical approach for predictive models. CRC Press.
- Kohonen, T. (2013). Essentials of the self-organizing map. Neural networks, 37, 52-65.
- Little, A., & Rubin, D. B. (2002). Statistical Analysis with Missing Data (2nd Edition). John Wiley & Sons, Inc.
- Liu, F. T., Ting, K. M., & Zhou, Z. H. (2008, December). Isolation forest. In 2008 Eighth IEEE International Conference on Data Mining (pp. 413-422). IEEE.
- Osborne, J. W. (2013). Best practices in data cleaning: A complete guide to everything you need to do before and after collecting your data. SAGE Publications, Inc.
- Osier, G. (2016). Unit non-response in household wealth surveys: Experience from the Eurosystem's Household Finance and Consumption Survey (No. 15). ECB Statistics Paper.
- Rokach, L., & Maimon, O. Z. (2008). Data mining with decision trees: theory and applications (Vol. 69). World scientific.
- Rosipal, R., Girolami, M., Trejo, L. J., & Cichocki, A. (2001). Kernel PCA for feature extraction and de-noising in nonlinear regression. Neural Computing & Applications, 10(3), 231-243.
- Sammon, J. W. (1969). A nonlinear mapping for data structure analysis. IEEE Transactions on computers, 100(5), 401-409.
- Van Buuren, S. (2018). Flexible Imputation of Missing Data (2nd Edition). Chapman and Hall/CRC Press.
- Van Der Maaten, L., Postma, E., & Van den Herik, J. (2009). Dimensionality reduction: a comparative review. Journal of Machine Learning Research, 10(66-71), 13.