Cet article vous présente une sélection de 5 des meilleurs livres sur le data mining.
1. Data mining – Découverte de connaissances dans les données (Daniel T. Larose, Chantal D. Larose, Thierry Vallaud)
Disponible sur Amazon Disponible à la Fnac
Tout sur le data mining dans un ouvrage entièrement mis à jour.
Révolution de l’ingénierie de la connaissance, permettant de découvrir de nouvelles corrélations, tendances et modèles au sein de grandes masses de données, le data mining (ou fouille de données) est devenu l’outil de veille technologique, stratégique et concurrentielle par excellence, grâce à des logiciels d’analyse toujours plus puissants.
Seule une bonne compréhension des mécanismes complexes, au carrefour de l’algorithmique et de la statistique, qui sous-tendent ces logiciels permet de les utiliser efficacement et de transformer des données brutes en connaissance, c’est-à-dire en information mobilisable pour prendre des décisions pertinentes.
Mêlant la théorie et la pratique au travers d’exemples et d’exercices concrets, abondamment illustré, ce livre propose une méthodologie claire du data mining en expliquant ses concepts et techniques : classification et clusterisation, exploration et prédiction, arbres de décision, réseaux de neurones et de Kohonen, règles d’association, évaluation des modèles, etc.
Cette deuxième édition, largement remaniée, propose de nouveaux chapitres sur l’analyse statistique multivariée, la préparation des données, l’imputation des données manquantes et introduit une douzaine de nouveaux concepts. Le code R de chaque modèle présenté est fourni (et proposé en ligne), ainsi qu’une annexe sur la visualisation et l’analyse descriptive des données pour les lecteurs qui désireraient revoir quelques notions de base en statistiques.
À propos de l’auteur
Daniel T. Larose a obtenu son PHD en statistiques à l’université du Connecticut. Il est professeur de mathématiques et a été te fondateur et le directeur des programmes de Data Mining de la CCSU. Il est par ailleurs consultant en data science pour de grandes entreprises américaines.
Chantal D. Larose a obtenu son PHD en statistiques à l’université du Connecticut. Ses recherches se concentrent sur l’imputation des données manquantes et la classification Elle enseigne les statistiques à l’université.
Thierry Vallaud a obtenu 3 doctorats et 6 masters autour des problématiques de la data science. Il est l’auteur de plusieurs ouvrages sur le sujet. Il travaille dans le domaine depuis plus de 25 ans sur des questions métiers très différentes pour des entreprises et des administrations en France et à l’étranger.
2. Data mining et statistique décisionnelle – La science des données (Stéphane Tufféry)
Disponible sur Amazon Disponible à la Fnac
Le data mining et la data science sont de plus en plus répandus dans les entreprises et les organisations soucieuses d’extraire l’information pertinente de leurs bases de données, qu’elles peuvent utiliser pour expliquer et prévoir les phénomènes qui les concernent (risques, production, consommation, fidélisation…).
Cette cinquième édition, actualisée et augmentée de 90 pages, fait le point sur le data mining, ses méthodes, ses outils et ses applications, qui vont du scoring jusqu’au text mining, objet d’un chapitre complètement remanié.
Nombre de ses outils appartiennent à l’analyse des données et à la statistique « classiques » (analyse factorielle, classification automatique, analyse discriminante, régression logistique, modèles linéaires généralisés, régression pénalisée, régression clusterwise…) mais certains sont plus spécifiques au data mining, comme les réseaux de neurones, les algorithmes génétiques, les SVM, les arbres de décision, les forêts aléatoires, le boosting et la détection des règles d’associations.
Les avancées les plus récentes du machine learning et les applications les plus actuelles des Big Data sont présentées, qui vont des algorithmes de reconnaissance d’image aux méthodes de plongement de mots en text mining.
Les chapitres sur les réseaux de neurones et les SVM sont illustrés par la reconnaissance de l’écriture manuscrite. Ces outils sont disponibles dans des logiciels de plus en plus puissants et complets, à commencer par le logiciel libre R, que nous comparons en détail aux logiciels SAS et IBM SPSS dans un chapitre spécifique. Ces logiciels sont utilisés pour illustrer par des exemples précis les explications théoriques données.
Les aspects méthodologiques vont de la conduite des projets jusqu’aux facteurs de réussite et aux pièges à éviter, en passant par l’évaluation et la comparaison des modèles, leur intégration dans les processus opérationnels.
Un chapitre est consacré à une étude de cas complète de credit scoring, de l’exploration des données jusqu’à l’élaboration de la grille de score.
À propos de l’auteur
Stéphane Tuffery est responsable des études statistiques dans un grand groupe bancaire. Il intervient à l’Institut des Actuaires et il est Maître de Conférences associé à l’Université de Rennes 1, où il enseigne le data mining et les méthodes de Big Data.
Il a été traduit en anglais et a récemment publié Modélisation prédictive et apprentissage statistique avec R (2e édition) dans la même collection.
3. Data science – Fondamentaux et études de cas – Machine learning avec Python et R (Michel Lutz, Eric Biernat)
Disponible sur Amazon Disponible à la Fnac
Un bon Data Scientist doit savoir naviguer entre différentes disciplines : statistique, algorithmie, informatique, etc., sans a priori théorique. Ce qui prime avant tout, c’est sa faculté à trouver une réponse adéquate à un problème fonctionnel donné.
En ce sens, sa capacité à comprendre son terrain d’action et à trouver la meilleure solution parmi les nombreux choix techniques (plate-forme informatique, logiciels…) et théoriques (méthodes statistiques et algorithmiques) possibles, sous contraintes de temps et de budget, sera sa principale qualité.
Cet ouvrage a pour ambition de guider le Data Scientist grâce à une partie théorique qui apprend les bases du métier et une partie pratique qui détaille concrètement comment raisonner autour d’une problématique donnée.
À propos de l’auteur
Eric Biernat dirige l’activité Big Data Analytics chez OCTO Technology, l’un des leaders francais sur le marché de la data science et des big data. Il a embrassé le mouvement Big Data Analytics en 2011 et ne l’a plus lâché depuis, en accompagnant ses clients qui souhaitent tirer profit des opportunités offertes par cette science. Kaggle master,
Eric s’illustre régulièrement lors de compétitions de data science et intervient dans de nombreux cycles de conférences sur la thématique des big data, dans la presse spécialisée ou auprès de comités exécutifs.
Suite à un parcours initial en gestion et finance, Michel Lutz s’est lancé un nouveau challenge en soutenant une thèse de doctorat en génie industriel. Durant ses années de recherche, visant à utiliser des méthodes de mathématiques appliquées dans un contexte industriel, il a développé une certaine orthodoxie statistique qui a été bien bousculée lorsqu’il a découvert le monde de la data science.
Désormais, il se plonge avec enthousiasme dans les techniques de machine learning grâce à son activité de consultant chez OCTO Technology.
4. Exploration de données et méthodes statistiques – Data analysis & data mining avec le logiciel R (Lise Bellanger, Richard Tomassone)
Disponible sur Amazon Disponible à la Fnac
La statistique envahit pratiquement tous les domaines d’application, aucun n’en est exclu ; elle permet d’explorer et d’analyser des corpus de données de plus en plus volumineux : l’ère des big data et du data mining s’ouvre à nous !
Cette omniprésence s’accompagne bien souvent de l’absence de regard critique tant sur l’origine des données que sur la manière de les traiter. La facilité d’utilisation des logiciels de traitement statistique permet de fournir quasi instantanément des graphiques et des résultats numériques. Le risque est donc grand d’une acceptation aveugle des conclusions qui découlent de son emploi, comme simple citoyen ou comme homme politique.
Les auteurs insistent sur les concepts sans négliger la rigueur, ils décrivent les outils de décryptage des données. L’ouvrage couvre un large spectre de méthodes allant du pré-traitement des données aux méthodes de prévision, en passant par celles permettant leur visualisation et leur synthèse. De nombreux exemples issus de champs d’application variés sont traités à l’aide du logiciel libre R, dont les commandes sont commentées.
L’ouvrage est destiné aux étudiants de masters scientifiques ou d’écoles d’ingénieurs ainsi qu’aux professionnels voulant utiliser la statistique de manière réfléchie : des sciences de la vie à l’archéologie, de la sociologie à l’analyse financière.
À propos de l’auteur
Lise Bellanger est enseignante-chercheuse à l’université de Nantes où elle enseigne la statistique à des publics très variés. Après avoir travaillé sur la prévision des pics de pollution en milieu urbain, elle collabore à de nombreux travaux allant de la toxicologie à l’archéologie, de la pharmacologie à l’halieutique.
Richard Tomassone a dirigé des laboratoires de biométrie tant à l’INRA qu’au CNRS. Enseignant à l’institut national agronomique et à l’université d’Orsay, il a été président de la Société Internationale de Biométrie.
5. Exploration de données – Méthodes et modèles du data mining (Daniel T. Larose, Thierry Vallaud)
Disponible sur Amazon Disponible à la Fnac
Comprendre le data mining pour en exploiter toutes les possibilités et découvrir des pépites cachées dans vos bases de données.
Grâce à des moteurs de recherche toujours plus puissants, le data mining (exploration ou fouille de données), est devenu un outil de veille technologique, stratégique et concurrentielle incontournable, aux domaines d’application nombreux (analyse des comportements des consommateurs, gestion de la relation client, maintenance préventive, détection de fraudes, optimisation de sites web…).
Mais seule une bonne compréhension de ses mécanismes complexes, au carrefour de l’algorithmique et de la statistique, permet de l’utiliser efficacement pour transformer une masse de données en information utile et mobilisable.
Mêlant théorie et pratique, abondamment illustré, ce livre propose une méthodologie claire en expliquant les concepts, les techniques et les outils du data mining. Il présente les principaux algorithmes et fournit des exemples de leur utilisation sur de grands ensembles de données portant sur des cas réels, dont de nombreux cas français.
À propos de l’auteur
Titulaire d’un doctorat en statistique de l’université du Connecticut, où il enseigne également, Daniel T. Larose est consultant en data mining. Il a développé et animé un Master, Data Mining CCSU, dont les cours sont dispensés sur le Web.
Thierry Vallaud travaille depuis vingt ans dans les études, les statistiques et le data mining. Il s’occupe du département data mining/modélisation de la société SOCIO Logiciels et donne des cours de data mining à différents niveaux (Pôle universitaire Leonard de Vinci, UBS de Vannes).