Higher Education and Research in Agronomy

Packages

Dispositif pédagogique

La spécialisation Science des données pour l'agronomie et l'agroalimentaire se déroule sur 2 années scolaires.

  1. La première année commence par un stage à l'étranger lors du semestre 7.
    Au semestre 8, certains modules centrés sur les méthodes statistiques sont obligatoires, d'autres modules sont à choisir dans l'offre d'Agrocampus.
  2. La deuxième année est commune avec Montpellier Supagro. Elle commence par des cours classiques de septembre à fin novembre à Rennes. Ensuite, de décembre à mi- février, 2 options sont possibles :
    • apprentissage statistique à Rennes
    • approches numériques et décisionnelles à Montpellier (voir le site)
    Dans ces 2 options, les étudiants travaillent sur un projet d'ingénieur. Ce projet est transversal du point de vue des méthodes utilisées. Il consiste à réaliser une étude de cas complète. Il comporte une phase de recherche bibliographique, la mise en oeuvre de différentes méthodes, leur comparaison et, le cas échéant, leur adaptation au problème considéré.
  3. Le dernier semestre de la formation (semestre S4) est consituté du stage de fin d'étude.

M1 (bac+4)

S7 (1er semestre)

M2 (bac+5)

S10 (2ème semestre)

S9 (1er semestre)

Analyse des données multidimensionnelles

Responsable

Objectif

Rendre les étudiants autonomes dans la mise en œuvre des méthodes usuelles d’analyse des données.

Programme

  • Analyse en composantes principales,
  • Analyse factorielle des correspondances,
  • Analyse des correspondances multiples,
  • Classification ascendante hiérarchique,

Les méthodes sont présentées de façon essentiellement géométrique, en limitant les exposés théoriques aux aspects nécessaires à leur utilisation. Une importance particulière est accordée aux problématiques dans lesquelles ces méthodes sont particulièrement précieuses. De nombreuses études de cas illustrent les méthodes.

Prérequis

UC Modèle linéaire et analyse des données

Nombres d'heures

28 heures

Mode d'évaluation

Examen en temps limité (2 heures) ; question théorique + étude de cas.

Bibliographie

Husson F., Lê S. & Pagès J. (2009) Analyse des données avec R. 224 p. Presses Universitaires de Rennes.
Escofier B., Pagès J. (2008) : Analyses Factorielles Simples et Multiples. 4e éd. 318p Dunod.
Lebart L., Morineau A. et Piron M. (2006) Statistique exploratoire multidimensionnelle. 4e éd. 464p Dunod.

Gestion des données

Responsable

Intervenants

Objectif

Donner la capacité d’intégrer, d’organiser et d’interroger des données hétérogènes en vue d’une analyse et d’une diffusion du résultat.

Programme

  • Les origines et les formats de données
  • Trier et organiser des données hétérogènes
  • Structurer et explorer des données (Bases de données avancées, langage SQL)
  • Diffusion de données

Nombres d'heures

25 h

Mode d'évaluation

Examen écrit

Analyse de données génomiques

Responsable

Objectif

La génomique fonctionnelle connaît depuis une vingtaine d'années de fortes évolutions permises par l'accessibilité croissante aux mesures à l'échelle du génome entier des variations de transcription de chaque gène. Les biotechnologies ouvrant la voie à ces mesures, que l'on dit à haut débit car le volume des données qu'elles génèrent est très important, permettent ainsi d'appréhender le génome comme n'importe quel système complexe dont on peut observer l'expression des très nombreux composants, les gènes. Ces perspectives ont ouvert la voie à une nouvelle discipline, la biologie des systèmes, rassemblant biologistes, bio-informaticiens et biostatisticiens autour de la question de l'extraction de connaissances de ces données à haut débit.


L'objectif de cette séquence de 25h est de permettre aux étudiants de mettre en œuvre, dans des situations concrètes inspirées de l'expérience des intervenants, une démarche standard d'analyse de données génomiques. L'importance d'une interaction forte entre compétences biologiques et mathématiques est l'un des messages importants de ce module. Par ailleurs, sur le plan méthodologique, les méthodes présentées ont un champ d'application qui dépasse celui de l'analyse de données génomiques ; elles sont utilisées de manière générique pour l'analyse de systèmes complexes observés par des technologies à haut-débit (IRM pour l'imagerie médicale, Spectrométrie Proche Infra-Rouge, ...).


A noter que les compétences bio-statistiques ici « acquises » sont aujourd'hui très demandées dans le domaine de la recherche ou R&D en biologie et peuvent constituer un réel atout pour un emploi futur dans ces secteurs.

Programme

  • Introduction aux biotechnologies à haut-débit pour la génomique
  • Sélection de gènes (i.e. Quels gènes sont les gènes differentiellement exprimés entre conditions ?)
  • Extraction de modules de gènes co-exprimés (i.e. Quels sont les gènes (ou individus) ayant un profil similaire ?)
  • Interprétation biologique des listes de gènes préalablement identifiées (i.e. Quels sont les
    processus biologiques impactés par les conditions d’intérêt ?)
  • Intégration de données génomiques multi-sources

Nombres d'heures

25 heures

Mode d'évaluation

Non défini

Programmation scientifique

Responsable

Objectif

Etre capable d’écrire, d’exécuter et de debugguer les algorithmes classiques en langage Python
Maitriser le logiciel R pour la représentation de variables statistiques.

Programme

Après une prise en main des fondamentaux du langage Python, les outils spécifiques à la programmation scientifique sont présentés et mis en œuvre dans l’implémentation d’algorithmes classiques.

  • Les bases générales du langage Python
  • Librairies scientifiques pour le calcul numériques (numpy et scipy) et la visualisation numérique
  • Concepts objets en Python


Dans une seconde partie, des aspects de programmation avec le logiciel R seront abordés. Les thèmes suivants seront principalement traités :

  • Introduction/Rappel sur le logiciel R
  • Introduction à la programmation object avec R
  • Représentation de variables statistiques

Nombres d'heures

50 h

Mode d'évaluation

Projet encadré

Sensométrie

Responsable

Objectif

L'évaluation sensorielle de produits est un élément stratégique du développement des entreprises du secteur agro-alimentaire. Elle vise à caractériser les produits à la fois du point de vue de leurs propriétés organoleptiques et du point de vue des préférences qu'ils suscitent auprès des consommateurs. De ce fait, elle est à la croisée des chemins entre la recherche - développement et le marketing.

Ces évaluations sensorielles nécessitent toujours de volumineux recueils de données. La statistique est l'outil majeur de conception et d'analyse de telles données.

Ce module présente les principales méthodologies statistiques utilisées en analyse sensorielle. Mais la plupart de ces méthodologies s'appliquent, avec bonheur, à bien d'autres domaines.

Programme

  • Bases physiologiques et culturelles de l'analyse sensorielle
  • Planification de séances de dégustation (maîtrise de l'effet du rang, de l'arrière-effet d'un produit, etc) : construction de plan en Blocs Incomplets Equilibrés, de plans optimaux, de plans équilibrés pour les voisinage
  • Performance d'un jury ou d'un juge (répétabilité, reproductibilité, interaction juge-produit, etc.) : analyse de variance à effets aléatoires et mixtes.
  • Construction d'espaces produits - stratégies multidimensionnelles : ACP, positionnement multidimensionnel
  • Relation entre préférences de consommateur, évaluations d'experts, données techniques et physico-chimiques : cartographie des préférences, segmentation des consommateurs

Nombres d'heures

25 heures

Mode d'évaluation

Projet

Statistique et aide à la décision

Responsable

Objectif

Modèles pour l'évaluation statistique d'un risque
Aide à la décision assistée par un modèle statistique

Programme

La séquence vise à la maitrise d'approches statistiques pour les questions suivantes :

  • Construction d'un modèle pour l'estimation statistique d'un risque ;
  • Identification et hiérarchisation de facteurs de risques ;
  • Evaluation d'une règle de décision assistée par un modèle statistique ;

Les questions ci-dessus sont introduites par la confrontation des étudiants à des problèmes réels et la
mise en œuvre effective de solutions opérationnelles à l'aide de l'environnement d'analyse R. Sur
l'ensemble de la séquence, soit 24 h en présence de l'enseignant, le temps consacré à la réflexion
autour de données réelles et à leur analyse est largement prédominant.

Prérequis

Régression linéaire, Analyse de la variance

Nombres d'heures

25 heures de cours

Mode d'évaluation

Examen écrit (2h)

Stage à l'étranger

Programme

Stage de 6 mois à l'étranger.

Mode d'évaluation

...

Stage de fin d'études

Responsable

Programme

Suivi du stage

Le stage est suivi par le tuteur enseignant, par courrier électronique essentiellement, et par le tuteur de l'entreprise, sur place.

Tutorat universitaire

Tous les enseignants intervenant dans la formation participent à l’encadrement des stagiaires.

Tutorat professionnel

Les entreprises désignent les tuteurs professionnels.

Nombres d'heures

24 semaines

Mode d'évaluation

Le stage est évalué par un rapport écrit, et une soutenance orale devant un jury comportant en général trois personnes : le tuteur de l'entreprise, le tuteur enseignant et un autre enseignant.

Analyse factorielle

Responsable

Objectif

Que peut-il résulter d’un ensemble de variables directement mesurées sur un ensemble d’individus ? C’est la question à laquelle nous chercherons à répondre, en envisageant différentes situations en fonction des données recueillies : nature des données, présence de données manquantes, structure « naturelle » sur les variables…

Ce cours présente les principales méthodes factorielles utilisées en statistique exploratoire multidimensionnelle. Nous commencerons par l’analyse d’un tableau de données « simple » dans son cadre le plus général, pour finir par l’analyse d’un tableau de données « multiple ».

Nous verrons comment appliquer certaines des méthodes présentées à des données hétérogènes. Une attention particulière sera portée à l’analyse de données dites « textuelles ».

A l’issue de ce module, l’étudiant saura identifier un problème relevant d’une analyse factorielle exploratoire multivariée, le formaliser, l’analyser et en tirer des enseignements.

Programme

Analyse générale d’un tableau de données multidimensionnel(les), analyse des correspondances, analyse des correspondances multiples, analyse en composantes principales, analyse factorielle multiple (hiérarchique), analyse factorielle avec données manquantes, analyse de données textuelles.

Prérequis

UC Modèle linéaire et analyse des données ; UC Analyse des données multidimensionnelles et text mining

Nombres d'heures

30 h

Mode d'évaluation

Examen en temps limité (2 heures) ; question théorique + étude de cas.

Bibliographie

Husson F., Lê S. & Pagès J. (2009) Analyse des données avec R. 224 p. Presses Universitaires de Rennes.
Escofier B., Pagès J. (2008). Analyses Factorielles Simples et Multiples. 4e éd. 318p Dunod.

Visualisation de données massives et hétérogènes

Responsable

Objectif

L’objectif principal de la visualisation de données est de mieux comprendre ses données à travers un support visuel. L’objectif de ce module est de réfléchir à la notion de visualisation : quel support visuel dois-je utiliser pour le message à transmettre ? Comment traduire une information sous forme graphique ? Nous aborderons la notion de visualisation de données de façon pragmatique, à travers des exemples concrets : visualisation de données brutes, visualisation de résultats issus d’analyses statistiques, intégration de l’information spatiale/temporelle.

Programme

Après une phase de construction d’une typologie de résultats statistiques standards, nous verrons comment traduire ces résultats à partir de briques élémentaires de visualisation. Nous aborderons la notion de visualisation interactive.

Nombres d'heures

20

Mode d'évaluation

Un projet par groupe consistant à mettre en œuvre une visualisation de données. Une restitution orale.

Apprentissage de données biologiques

Responsable

Objectif

Cette séquence vise à mettre l’étudiant en situation d’analyse de données complexes, soit de grandes dimensions (données génomique), soit structurées par le temps et/ou l’espace (spectrométrie, imagerie), soit encore présentant des effets non-linéaires (modèles de croissance).

Les connaissances méthodologiques nouvelles complètent celles acquises au niveau M1 dans les enseignements sur les modèles de régression et d’analyse de la variance.

L’acquisition des compétences d’analyse est favorisée par le format de l’enseignement : les éléments de connaissances sont introduits au cours de la problématisation. Ils sont illustrés par la découverte au fil du cours des outils logiciels associés aux méthodes présentées.

Programme

  • Modèles de régression pour données de grande dimension (Sélection, PLS, Lasso, Ridge) 
  • Modèles pour données fonctionnelles (B-splines) 
  • Modèles non-linéaires

Prérequis

Modèle linéaire, Modèle linéaire généralisé

Nombres d'heures

24h

Mode d'évaluation

Examen sur table (1h). Tous documents autorisés.

Au choix : Sensométrie

Responsable

Intervenants

Objectif

Comparer les méthodes de recueil de données sensorielles ; L’objectif est alors de mettre en forme les données à partir d’un recueil nouveau et de proposer une méthodologie pour analyser ces données.

Programme

Présentation des méthodes holistiques : catégorisation, napping, tri hiérarchique. Comparaison de méthodes d'analyse sensorielle

Nombres d'heures

15 heures

Mode d'évaluation

Projet consistant à décrire une méthode de traitement de données sensorielles et à la comparer aux méthodes existantes. Restitution sous forme d?exposé oral.

Au choix : Statistique bayésienne (écologie)

Responsable

Intervenants

Etienne Rivot, Marie-Pierre Etienne

Objectif

Cette séquence vise à présenter à l’étudiant les statistiques bayésiennes qui ont connu un essor important lors des 20 dernières années avec l’avènement des algorithmes stochastiques pour la mise en œuvre de l’estimation bayésienne.

Le module propose la présentation du cadre bayésien et insiste sur la modélisation de problèmes biologiques à l’aide de modèle stochastique. Le logiciel d’analyse Winbugs est utilisé pour mettre en œuvre sur des cas concrets l’estimation de modèle stochastique pour la biologie.

Les concepts sont introduits pas à pas et illustrés par des exemples concrets.

Programme

  • Estimation bayésienne : notion de vraisemblance, de lois a priori et de lois a posteriori
  • Algorithme de Monte Carlo pour l’estimation (Métropolis Hastings et échantillonnage préférentiel).
  • Modèles non-linéaires dynamiques.

Nombres d'heures

18h

Mode d'évaluation

Projet.

Bibliographie

Robert, C.P.  (2006) : Le choix Bayésien – Principe et pratique. Springer.
Bishop, C.M. (2006) : Pattern recognition and machine learning (chapter 8). Spinger.

Données expérimentales

Responsable

Intervenants

Objectif

Ce cours se concentre sur l’analyse statistique de données issues de traitements expérimentaux. Les traitements expérimentaux cherchent à mettre en relation une mesure quantitative d’intérêt avec différentes conditions expérimentales (ou facteurs expérimentaux) qui sont croisées selon un plan d’expérience. Dans ce contexte, les étudiants seront confrontés à la question suivante : quels sont les facteurs expérimentaux qui expliquent la variabilité de la mesure d’intérêt ?

L’objectif de ce cours est de donner la capacité aux étudiants de proposer une analyse statistique adaptée à (1) la nature statistique des facteurs expérimentaux et (2) au schéma du plan expérimental.

Les connaissances méthodologiques visées par ce cours viennent approfondir des notions acquises au niveau M1.

Programme

Les modèles statistiques abordés dans ce cours sont les suivants :

  •  Analyse de la variance à 1 et 2 facteurs 
  • Analyse de la covariance
  • Modèles mixtes
  • Modèles hiérarchiques

Prérequis

UC Statistique générale - Algèbre linéaire : représentation géométrique dans un espace vectoriel, calcul matriciel, orthogonalité, projection

Nombres d'heures

24h

Mode d'évaluation

Examen sur table (1h). Tous documents autorisés.

Bibliographie

  • DAGNÉLIE P. (1998) Statistique théorique et appliquée De Boeck & Larcier.
  • MC CULLAGH P. & NELDER J.A. (1989) Generalized linear models Chapman & Hall
  • Sahai H. & Ageel M.I. (2000) The analysis of variance : Fixed random and Mixed models, Birkhäuser Boston
  • SCHEFFE H. (1959) The analysis of variance Wiley
  • CISIA-CERESTA. (1995) : Aide mémoire pratique des techniques statistique

Classification non supervisée

Responsable

Objectif

Comment comprendre mes données à un niveau plus général à travers des regroupements automatiques de lignes ou de colonnes d’un tableau de données ? C’est précisément l’objectif de ce module, où nous verrons les principales techniques de regroupement d’individus ou de variables.

Programme

Classification ascendante hiérarchique, classification descendante, centres mobiles, modèles de mélange

Nombres d'heures

15h

Mode d'évaluation

Examen sur table (2h). Notes de cours autorisées.

Machine learning

Responsable

Objectif

Ce module a pour objectif de confronter les étudiants à la problématique de la prédiction d’un phénomène à partir d’un grand nombre de variables prédictives (grande dimension, big data). L’apprentissage des règles de prédiction se fera dans un contexte supervisé (en régression ou classification) pour lequel la construction du modèle statistique s’appuie sur un ensemble d’observations complètes où la valeur du phénomène est observée.

A l’issue de ce module, les étudiants devront avoir développé des compétences de choix du modèle de prédiction en s’appuyant sur une démarche rigoureuse de validation des prédicteurs proposés. Il est également attendu que les étudiants soient autonomes sur la mise en œuvre des différentes méthodes dans les langage python ou R.

Les connaissances méthodologiques nouvelles complètent celles acquises au niveau M1 dans les enseignements d’aide à la décision.

Programme

Les modèles statistiques traités dans ce module sont les suivants :

  • Analyse discriminante (linéaire, quadratique, logistique)
  • k plus proches voisins, arbre, réseau de neurones (perceptron), support vecteur machine, combinaison de modèles (bagging, boosting)...

Nombres d'heures

24h

Mode d'évaluation

Examen sur table (1h).

Analyse de données massives sous R

Responsable

Intervenants

Benoît Thieurmel

Objectif

Savoir organiser des jeux de données massifs dans R et pouvoir travailler sur des jeux de données de grandes tailles. Développer une interface logicielle de type shiny.

Programme

Initiation à la programmation shiny Utilisation de packages gérant les gros tableaux de données (data.table, etc.) et permettant de faire du calcul parallèle

Nombres d'heures

15h

Mode d'évaluation

Projet.

Computer science for big data

Responsable

Objectif

Ce cours présente le potentiel des nouvelles technologies du Big Data afin d'exploiter efficacement les données massives aujourd'hui à la disposition de tous les "data scientists".

Il permet d'appréhender les diverses solutions techniques instaurées dans les entreprises depuis quelques années et d'acquérir les compétences nécessaires à leur mise en place.

A l’issue de ce cours, les étudiants doivent être capable de manipuler et traiter des données sur un serveur, d’organiser les grands volumes de données dans des bases ad-hoc et d’utiliser des technologies de programmation en Python ou R permettant de réaliser de manière très efficace toutes les opérations nécessaires à la résolution d’un problème de science des données.

Programme

Ce cours comprend les parties suivantes : 

  • Qu’est-ce qu’un problème de Big Data et pourquoi faut-il adapter notre manière de programmer ?
  •  Accès à des serveurs de machines
  • Présentation des écosystèmes Hadoop et Spark
  • Bases de données optimisées pour le Big Data : MongoDB, Neo4J

Des exemples d'applications seront réalisés à travers des programmes R et Python.

 

Nombres d'heures

28h

Mode d'évaluation

Projet

Projet long (8 semaines)

Responsable

Objectif

Les projets sont très divers et peuvent faire appel à différentes compétences. Le point commun de ces compétences est de partir de données/problèmes complexes, de réussir à bien poser le problème pour proposer une méthodologie de modélisation ou de visualisation en faisant appel à des méthodes/notions vues en cours mais également des méthodes plus élaborées. Certains projets peuvent amener à développer des applications informatiques.

Programme

Restitution du travail par une présentation + rapport et/ou programmes

Nombres d'heures

300h