Description du cours
Intitulé de l'Unité d'Enseignement
Data Science et IA
Code de l'Unité d'Enseignement
21MQ061
Année académique
2025 - 2026
Cycle
MASTER
Nombre de crédits
5
Nombre heures
60
Quadrimestre
1
Pondération
Site
Montgomery
Langue d'enseignement
Français
Enseignant responsable
DENDONCKER Valentin
Objectifs et contribution de l'Unité d'Enseignement au programme
L’unité d’enseignement est une introduction aux techniques quantitatives d’exploration et d’interprétations des données, ainsi qu'aux techniques de préparation des données, en vue de les utiliser dans le cadre d'un projet impliquant des algorithmes de machine learning ou d'intelligence artificielle.
À l’issue du cours, l’étudiant sera à même de choisir et d’appliquer une technique quantitative lui permettant de répondre à une question posée à partir de données existantes.
Prérequis et corequis
Description du contenu
Le cours abordera les thèmes suivants :
- Data mining
- Data cleaning
- Data transformation
Méthodes pédagogiques
Exposés ex cathedra mêlant la description des fondements théoriques, l'illustration et l'implémentation des notions abordées.
Mode d'évaluation
L’examen écrit (à livres fermés) est composé de QCM-QRM, ainsi que d’éventuelles questions ouvertes.
Références bibliographiques
- Borg, I., & Groenen, P. J. (2005). Modern multidimensional scaling: Theory and applications. Springer Science & Business Media.
- Breiman, L., Friedman, J. H., Olshen, R. A., & Stone, C. J. (1984). Classification and Regression Trees. Wadsworth Statistics/Probability Series.
- Brick, J. M. (2013). Unit nonresponse and weighting adjustments: A critical review. Journal of Official Statistics, 29(3), 329-353.
-Chandola, V., Banerjee, A., & Kumar, V. (2009). Anomaly detection: A survey. ACM computing surveys (CSUR), 41(3), 1-58.
- Davis, J. J., & Foo, E. (2016). Automated feature engineering for HTTP tunnel detection. Computers & Security, 59, 166-185.
- Gu, Q., Li, Z., & Han, J. (2011, September). Linear discriminant dimensionality reduction. In Joint European conference on machine learning and knowledge discovery in databases (pp. 549-564). Springer, Berlin, Heidelberg.
- He, Z., Xu, X., & Deng, S. (2003). Discovering cluster-based local outliers. Pattern Recognition Letters, 24(9-10), 1641-1650.
- Hinton, G. E., & Salakhutdinov, R. R. (2006). Reducing the dimensionality of data with neural networks. Science, 313 (5786), 504-507.
- Hoffmann, H. (2007). Kernel PCA for novelty detection. Pattern recognition, 40(3), 863-874.
- Holt, D., & Elliot, D. (1991). Methods of weighting for unit non-response. Journal of the Royal Statistical Society: Series D (The Statistician), 40(3), 333-342.
- Jolliffe, I. T., & Cadima, J. (2016). Principal component analysis: a review and recent developments. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, 374(2065).
- Kaul, A., Maheshwary, S., & Pudi, V. (2017, November). Autolearn—Automated feature generation and selection. In 2017 IEEE International Conference on data mining (ICDM) (pp. 217-226). IEEE.
- Kuhn, M., & Johnson, K. (2019). Feature engineering and selection: A practical approach for predictive models. CRC Press.
- Kohonen, T. (2013). Essentials of the self-organizing map. Neural networks, 37, 52-65.
- Little, A., & Rubin, D. B. (2002). Statistical Analysis with Missing Data (2nd Edition). John Wiley & Sons, Inc.
- Liu, F. T., Ting, K. M., & Zhou, Z. H. (2008, December). Isolation forest. In 2008 Eighth IEEE International Conference on Data Mining (pp. 413-422). IEEE.
- Osborne, J. W. (2013). Best practices in data cleaning: A complete guide to everything you need to do before and after collecting your data. SAGE Publications, Inc.
- Osier, G. (2016). Unit non-response in household wealth surveys: Experience from the Eurosystem's Household Finance and Consumption Survey (No. 15). ECB Statistics Paper.
- Rokach, L., & Maimon, O. Z. (2008). Data mining with decision trees: theory and applications (Vol. 69). World scientific.
- Rosipal, R., Girolami, M., Trejo, L. J., & Cichocki, A. (2001). Kernel PCA for feature extraction and de-noising in nonlinear regression. Neural Computing & Applications, 10(3), 231-243.
- Sammon, J. W. (1969). A nonlinear mapping for data structure analysis. IEEE Transactions on computers, 100(5), 401-409.
- Van Buuren, S. (2018). Flexible Imputation of Missing Data (2nd Edition). Chapman and Hall/CRC Press.
- Van Der Maaten, L., Postma, E., & Van den Herik, J. (2009). Dimensionality reduction: a comparative review. Journal of Machine Learning Research, 10(66-71), 13.