A faire

  • écrire sur l’état manquant
  • justifier le choix des couts de transition (plus forte hétérogénité)
  • version tableau des chronogrames (effectifs pour chaque classe, par an)

Gestion des états manquants

Le tableau ci-dessous ventile les séquences par nombre d’état dans le fichier :

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
24 11 8 6 6 6 6 6 7 7 6 4 2 1 0 0 0

Les séquences sont donc extrêmement hétérogènes en fonction du nombre d’année de présence. Deux types de valeurs manquantes peuvent être distinguées :

  • les trous. un individu est présent, puis ne l’est plus, puis revient.
  • les sortis. un individu est présent, puis ne l’est plus.

Le tableau ci-dessous ventile les trous en fonction de l’année d’entrée dans le fichier :

  1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2003 2004 2005 2007 2008 2009 2010 2011 2012 Sum
0 8 6 5 4 5 5 4 4 4 4 3 5 4 4 7 6 6 5 5 5 100
1 6 3 2 2 4 5 5 5 6 7 6 10 9 9 8 5 4 2 1 1 100
2 8 5 4 4 5 6 4 6 6 6 6 9 7 8 7 4 2 1 1 0 100
3 11 6 4 4 5 6 4 6 7 6 6 8 8 7 7 3 2 0 0 0 100
4 9 6 5 4 6 6 6 8 7 7 6 7 8 7 5 3 1 0 0 0 100
5 11 6 6 6 6 7 5 9 8 7 6 8 7 5 4 2 0 0 0 0 100
6 14 6 6 5 9 7 5 9 7 7 4 6 7 4 2 1 0 0 0 0 100
7 21 7 6 4 9 8 5 8 7 5 5 7 4 2 0 0 0 0 0 0 100
8 20 9 6 8 6 7 10 8 5 9 5 3 2 3 0 0 0 0 0 0 100
9 32 13 7 8 5 6 6 4 4 5 5 2 3 0 0 0 0 0 0 0 100
10 39 9 4 1 3 10 3 10 6 1 6 4 1 0 0 0 0 0 0 0 100
11 46 14 5 11 5 8 3 5 0 3 0 0 0 0 0 0 0 0 0 0 100
12 56 12 6 0 6 0 6 0 0 12 0 0 0 0 0 0 0 0 0 0 100
13 67 17 0 0 0 0 0 8 0 8 0 0 0 0 0 0 0 0 0 0 100
14 100 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 100
15 100 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 100
Sum 9 6 4 4 5 5 4 5 5 5 4 6 6 5 7 5 5 4 4 3 100

Celui-ci en fonction des moments des séquences :

an1 an2 an3 an4 an5 an6 an7 an8 an9 an10 an11 an12 an13 an14 an15 an16 an17 an18
0 12 15 15 13 11 9 7 5 3 2 1 1 0 0 0 0 0

Le tableau ci-dessous ventile les sorties en fonction de l’année d’entrée dans le fichier :

  1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2003 2004 2005 2007 2008 2009 2010 2011 2012 Sum
0 0 50 0 0 0 17 0 33 0 0 0 0 0 0 0 0 0 0 0 0 100
1 90 3 1 1 0 3 0 2 2 0 0 0 0 0 0 0 0 0 0 0 100
2 26 8 6 5 8 10 9 10 12 5 0 0 0 0 0 0 0 0 0 0 100
3 35 9 7 7 4 7 6 9 8 6 1 0 0 0 0 0 0 0 0 0 100
4 16 9 7 7 10 8 9 10 10 7 7 0 0 0 0 0 0 0 0 0 100
5 16 8 6 8 8 9 8 9 10 10 5 3 0 0 0 0 0 0 0 0 100
6 11 9 8 6 9 8 8 8 9 6 6 7 3 0 0 0 0 0 0 0 100
7 12 7 6 7 7 8 7 8 7 8 5 6 9 2 0 0 0 0 0 0 100
8 11 8 7 5 7 7 6 7 6 7 7 7 6 10 0 0 0 0 0 0 100
9 10 7 6 6 5 6 5 6 5 7 8 10 8 8 4 0 0 0 0 0 100
10 8 7 5 4 5 5 4 4 5 5 5 10 8 8 13 3 0 0 0 0 100
11 8 5 4 4 4 5 4 4 4 6 5 9 8 8 10 10 4 0 0 0 100
12 7 5 4 3 4 4 3 3 3 3 4 9 9 9 12 10 8 2 0 0 100
13 5 4 2 3 4 3 3 4 4 3 3 8 9 10 13 9 8 7 1 0 100
14 4 3 3 3 3 3 3 3 3 3 3 6 7 9 13 8 8 7 7 1 100
15 3 2 3 3 3 3 3 3 3 3 3 5 5 7 13 10 8 6 6 7 100
16 5 5 3 4 3 7 2 6 2 5 2 4 4 5 11 8 7 6 6 6 100
17 5 4 2 2 2 3 2 3 3 3 2 4 4 5 9 9 10 9 10 10 100
Sum 9 6 4 4 5 5 4 5 5 5 4 6 6 5 7 5 5 4 4 3 100

Celui-ci en fonction des moments des séquences :

an1 an2 an3 an4 an5 an6 an7 an8 an9 an10 an11 an12 an13 an14 an15 an16 an17 an18
0 24 33 38 42 46 51 55 61 68 77 84 91 95 98 99 100 100

Compte-tenu de ces statistiques, il vaut mieux couper à douze ans.

Variation des coûts

Matrice à coûts constant

  chom-> cont_AUT_FP-> cont_FPE-> NR_AUT_FP-> prive-> tit_AUT_FP-> tit_FPE-> *->
chom-> 0 2 2 2 2 2 2 2
cont_AUT_FP-> 2 0 2 2 2 2 2 2
cont_FPE-> 2 2 0 2 2 2 2 2
NR_AUT_FP-> 2 2 2 0 2 2 2 2
prive-> 2 2 2 2 0 2 2 2
tit_AUT_FP-> 2 2 2 2 2 0 2 2
tit_FPE-> 2 2 2 2 2 2 0 2
*-> 2 2 2 2 2 2 2 0

Matrice à coûts de transition

  chom-> cont_AUT_FP-> cont_FPE-> NR_AUT_FP-> prive-> tit_AUT_FP-> tit_FPE-> *->
chom-> 0 1.923 1.925 1.996 1.837 1.991 1.99 2
cont_AUT_FP-> 1.923 0 1.971 1.941 1.978 1.857 1.879 2
cont_FPE-> 1.925 1.971 0 1.97 1.957 1.999 1.944 2
NR_AUT_FP-> 1.996 1.941 1.97 0 1.983 1.925 1.823 2
prive-> 1.837 1.978 1.957 1.983 0 1.996 1.978 2
tit_AUT_FP-> 1.991 1.857 1.999 1.925 1.996 0 1.965 2
tit_FPE-> 1.99 1.879 1.944 1.823 1.978 1.965 0 2
*-> 2 2 2 2 2 2 2 0

Dendrogrammes

On voit que la matrice des coûts fondée sur les transitions permet une plus grande prise en compte de la variabilité des séquences. En effet, le haut de l’arbre de droite est davantage allongé, observation qui se trouve cohérente avec le fait que des séquences sont plus facilement différenciées par des coûts plus hétérogènes.

Variation des années de présence

Dans cette partie, on garde la matrice des coûts de transition construite sur un jeu de données où l’on a tout le monde.

Nous cherchons un compromis entre trois termes :

  • ne pas enlever trop d’individus en augmentant le nombre minimal d’années de présence dans le fichier, ce qui aurait pour conséquence de restreindre la validité de l’analyse et d’oublier une partie des individus sous prétexte qu’ils sont mal enregistrés.

  • avoir la meilleure silhouette possible, sachant que plus on retire des individus présents plus de temps, plus cette métrique s’améliore et la classification avec elle.

  • obtenir un nombre de classe le plus faible possible, pour avoir une classification sociologiquement nette

Le tableau ci-dessous détaille le nombre d’individus présent par date d’entrée dans le panel :

1991 8.6
1992 5.7
1993 4.3
1994 4.1
1995 4.8
1996 5.3
1997 4.1
1998 5.1
1999 4.7
2000 4.9
2001 4.1
2003 6
2004 5.5
2005 5.4
2007 6.8
2008 5.2
2009 4.6
2010 3.7
2011 3.6
2012 3.4

Le tableau ci-dessous détaille le nombre d’individus présent par coupe du champ global par nombre d’années de présence.

  Nombre d’individus restants % du total
Plus de 2 années de présence 43585 76
Plus de 3 années de présence 37360 65
Plus de 4 années de présence 32917 57
Plus de 5 années de présence 29156 51

Les graphiques ci-dessous représentent la silhouette obtenues pour différents nombre de classe et différents champs construits en retirant les individus ayant respectivement moins de 2, 3, 4, 5 et 6 ans de présence dans le fichier.

Classification

Tous

3 classes

1 2 3
29468 25115 2780
1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2003 2004 2005 2007 2008 2009 2010 2011 2012
2051 1358 902 921 1040 1254 889 1269 1117 1219 1029 1655 1664 1722 2439 2008 1939 1639 1698 1655
2594 1783 1441 1331 1561 1627 1376 1449 1447 1396 1168 1550 1291 1185 1284 887 637 462 377 267
299 133 117 112 149 158 109 192 157 181 168 235 221 201 195 99 35 7 9 3

4 classes

1 2 3 4
29468 520 24595 2780
1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2003 2004 2005 2007 2008 2009 2010 2011 2012
2051 1358 902 921 1040 1254 889 1269 1117 1219 1029 1655 1664 1722 2439 2008 1939 1639 1698 1655
2 11 16 16 33 29 36 44 53 53 42 53 47 42 19 14 6 3 1 0
2592 1772 1425 1315 1528 1598 1340 1405 1394 1343 1126 1497 1244 1143 1265 873 631 459 376 267
299 133 117 112 149 158 109 192 157 181 168 235 221 201 195 99 35 7 9 3

5 classes

1 2 3 4 5
5926 23542 520 24595 2780
1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2003 2004 2005 2007 2008 2009 2010 2011 2012
491 242 224 218 271 283 264 342 359 369 354 506 513 513 447 278 158 54 28 12
1560 1116 678 703 769 971 625 927 758 850 675 1149 1151 1209 1992 1730 1781 1585 1670 1643
2 11 16 16 33 29 36 44 53 53 42 53 47 42 19 14 6 3 1 0
2592 1772 1425 1315 1528 1598 1340 1405 1394 1343 1126 1497 1244 1143 1265 873 631 459 376 267
299 133 117 112 149 158 109 192 157 181 168 235 221 201 195 99 35 7 9 3

2 années de présence

3 classes

1 2 3
38724 4223 638
1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2003 2004 2005 2007 2008 2009 2010 2011 2012
3744 2471 1981 1926 2176 2411 1864 2223 2081 2134 1762 2456 2197 2166 2381 1524 1197 826 672 530
459 253 180 161 223 237 191 278 224 241 233 326 325 272 295 185 90 38 10 2
4 12 22 28 45 43 49 53 70 58 49 62 52 50 20 14 5 2 0 0

4 classes

1 2 3 4
6906 4223 31818 638
1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2003 2004 2005 2007 2008 2009 2010 2011 2012
538 251 248 254 297 312 290 371 389 413 392 561 572 613 596 369 231 115 66 28
459 253 180 161 223 237 191 278 224 241 233 326 325 272 295 185 90 38 10 2
3206 2220 1733 1672 1879 2099 1574 1852 1692 1721 1370 1895 1625 1553 1785 1155 966 711 606 502
4 12 22 28 45 43 49 53 70 58 49 62 52 50 20 14 5 2 0 0

5 classes

1 2 3 4 5
6906 4223 12430 638 19388
1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2003 2004 2005 2007 2008 2009 2010 2011 2012
538 251 248 254 297 312 290 371 389 413 392 561 572 613 596 369 231 115 66 28
459 253 180 161 223 237 191 278 224 241 233 326 325 272 295 185 90 38 10 2
985 717 518 546 576 769 453 706 515 621 410 649 645 663 973 681 658 511 449 385
4 12 22 28 45 43 49 53 70 58 49 62 52 50 20 14 5 2 0 0
2221 1503 1215 1126 1303 1330 1121 1146 1177 1100 960 1246 980 890 812 474 308 200 157 117

3 années de présence

3 classes

1 2 3
14512 17583 5265
1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2003 2004 2005 2007 2008 2009 2010 2011 2012
1271 785 612 625 709 724 644 820 787 792 709 1003 976 1017 1058 672 534 365 255 154
2186 1468 1159 1077 1281 1283 1111 1112 1184 1074 965 1183 893 712 425 256 142 52 8 10
396 204 219 213 268 291 223 309 262 282 229 390 407 429 506 257 161 106 65 48

4 classes

1 2 3 4
14512 787 5265 16796
1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2003 2004 2005 2007 2008 2009 2010 2011 2012
1271 785 612 625 709 724 644 820 787 792 709 1003 976 1017 1058 672 534 365 255 154
1 15 13 20 39 44 46 52 77 54 68 76 78 75 51 38 21 15 3 1
396 204 219 213 268 291 223 309 262 282 229 390 407 429 506 257 161 106 65 48
2185 1453 1146 1057 1242 1239 1065 1060 1107 1020 897 1107 815 637 374 218 121 37 5 9

5 classes

1 2 3 4 5
9522 4990 787 5265 16796
1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2003 2004 2005 2007 2008 2009 2010 2011 2012
740 523 381 393 447 445 394 516 475 488 451 608 601 647 758 498 432 334 242 149
531 262 231 232 262 279 250 304 312 304 258 395 375 370 300 174 102 31 13 5
1 15 13 20 39 44 46 52 77 54 68 76 78 75 51 38 21 15 3 1
396 204 219 213 268 291 223 309 262 282 229 390 407 429 506 257 161 106 65 48
2185 1453 1146 1057 1242 1239 1065 1060 1107 1020 897 1107 815 637 374 218 121 37 5 9