Institut supérieur des sciences agronomiques, agroalimentaires, horticoles et du paysage

Packages


Fonctions AovSum et RegBest du package FactoMineR

Ces deux fonctions permettent de faire :

  • de la régression multiple en sélectionnant un sous-modèle adapté
  • de l'analyse de variance en utilisant la contrainte que la somme des alpha_i est égale à 0 (et non le premier coefficient égal à 0, ce qui est pris par défaut dans R); les tests de conformité sur TOUS les coefficients sont fournis.

Pour utiliser le package

Il faut :

  • Aller sous R et faire : package --> intaller le(s) package(s) ... et choisir le package (le package est alors installé une fois pour toute sur l'ordinateur, cette manipulation n'est à faire qu'une seule fois)
  • Ensuite, à chaque fois que vous voulez utiliser le package vous devez le charger en faisant package --> Charger le package ou bien écrire dans la console R: library(FactoMineR)

Pour avoir de l'aide sur le package, faire : Aide --> Aide HTML --> Packages --> FactoMineR; vous avez alors l'ensemble des fonctions et des jeux de données disponibles dans le package.

Pour faire une analyse de variance

  • Importer les données
  • Transformer si nécessaire les variables explicatives en variables qualitatives (si les modalités sont des nombres, par défaut, lors de l'importation, la variable est considérée comme quantitative)
  • Utiliser la fonction AovSum qui fournit le tableau d'analyse de variance (tests F) et le tableau des coefficients (tests T) (cf l'aide de la fonction)

Exemple d'analyse de variance à 2 facteurs

    data(senso)
    res = AovSum(Note~ Produit + Jour , data=senso)
    res

$Ftest

            Sum Sq Df      CM      F  value Pr(>F)
Produit     2.0278  2  1.0139  3.4428 0.04148 *
Jour       25.4725  1 25.4725 86.4959 1.18e-11 ***
Residuals  12.0742 41  0.2945
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
$Ttest
               Estimate Std. Error    t value      Pr(>|t|)
(Intercept)  4.59073574 0.08146418 56.3528167 1.802496e-40
Produit - 1  0.23705706 0.12067527  1.9644212 5.628400e-02
Produit - 2 -0.28474474 0.11466272 -2.4833246 1.719733e-02
Produit - 3  0.04768769 0.11845633  0.4025761 6.893515e-01
Jour - 1     0.80337838 0.08638181  9.3003184 1.179987e-11
Jour - 2    -0.80337838 0.08638181 -9.3003184 1.179987e-11

Exemple d'analyse de variance à 2 facteurs avec interaction

data(senso)
res2 = AovSum(Note~ Produit + Jour + Produit : Jour, data=senso)
res2
$Ftest
              Sum Sq Df     CM   F value    Pr(>F)
Produit       1.7773  2   0.8886  2.9876    0.06206 .
Jour         25.8418  1  25.8418 86.8787  1.804e-11 ***
Produit:Jour  0.4738  2   0.2369  0.7964    0.45813
Residuals    11.6004 39   0.2974
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

$Ttest
                      Estimate Std. Error   t value     Pr(>|t|)
(Intercept)          4.5842929 0.08712387 52.618107 7.754226e-38
Prod - 1             0.2557070 0.12258359  2.085981 4.356959e-02
Prod - 2            -0.2509595 0.12031588 -2.085839 4.358314e-02
Prod - 3            -0.0047474 0.12665212 -0.037484 9.702900e-01
Jour - 1             0.8120707 0.08712387  9.320875 1.803829e-11
Jour - 2            -0.8120707 0.08712387 -9.320875 1.803829e-11
Prod - 1 : Jour - 1  0.0279292 0.12258359  0.227838 8.209619e-01
Prod - 2 : Jour - 1 -0.1454040 0.12031588 -1.208519 2.341243e-01
Prod - 3 : Jour - 1  0.1174747 0.12665212  0.927538 3.593519e-01
Prod - 1 : Jour - 2 -0.0279292 0.12258359 -0.227838 8.209619e-01
Prod - 2 : Jour - 2  0.1454040 0.12031588  1.208519 2.341243e-01
Prod - 3 : Jour - 2 -0.1174747 0.12665212 -0.927538 3.593519e-01

Pour sélectionner les variables lors d'une régression multiple

  • Importer les données
  • utiliser la fonction RegBest qui fournit le meilleur modèle (res$best) ainsi que les meilleurs modèles (res$all) à 1 variable explicative , à 2 variables explicatives, ... à p variables explicatives

Exemple de sélection de variables en régression:

data(lait)
res = RegBest(y=lait[,6],x=lait[,-6])
res$best
Call:
lm(formula = as.formula(as.character(formul)), data = don)
Residuals:
Min 1Q Median 3Q Max
-0.60149 -0.25261 -0.01715 0.24097 1.07494
Coefficients:
            Estimate  Std. Error t value Pr(>|t|)
(Intercept)  1.84751     1.34436   1.374 0.17315
BUTYREUX     0.10449     0.03028   3.451 0.00089 ***
PROTEINE     0.11660     0.03432   3.398 0.00106 **
EXTRAITSEC   0.04036     0.01790   2.255 0.02682 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.3169 on 81 degrees of freedom
Multiple R-Squared: 0.6027, Adjusted R-squared: 0.588
F-statistic: 40.96 on 3 and 81 DF, p-value: 3.296e-16