Edition des données
Dans le cadre des travaux d'apurement de l'EHCVM, plusieurs éléments ont concouru à la préparation des données afin que les bases produites puissent être pleinement exploitées. Les travaux d'apurement dans l'ensemble ont porté sur deux phases essentielles du projet que sont le déroulement des opérations de collecte et l'après collecte.
Pour rappel les erreurs observées dans une enquête comme EHCVM sont principalement de deux ordres : les erreurs dues au support de collecte (application, manuel) et les erreurs dues à la collecte elle-même.L'application de collecte a été écrite avec le logiciel Survey solutions, un logiciel pour les interviews personnelles assistées par ordinateur. C'est une application qui comprend un grand nombre de contrôles de cohérence entre les sections et les variables d'une même section. En conséquence la plupart des erreurs observées était principalement dues à la collecte elle-même.
Les erreurs de collecte peuvent être catégorisées suivant 2 groupes :
- les erreurs d'observation imputables au répondant (fausse déclaration, mauvaise compréhension de la question, etc.)
- les erreurs imputables à l'agent enquêteur (erreur de mesure, d'interprétation ou de transcription de la réponse, etc.)
Au Sénégal, le suivi du déroulement de la collecte était principalement assuré par une équipe de veille qui avait en charge le contrôle journalier de l'ensemble des questionnaires reçus des enquêteurs. Ainsi sur la base de certains critères de qualité (par exemple tout ménage doit avoir un chef, la consommation calorifique par jour et par individu est compris entre 800 et 4000 Kcal, absence de consommation alimentaire etc.) l'équipe rejetait tous les questionnaires présentant des incohérences en précisant le motif du rejet. Ces questionnaires sont par la suite corrigés par les agents enquêteurs et renvoyés au serveur.
Même s'il convient de souligner qu'une partie importante de l'apurement des données s'est effectuée durant la collecte, il y a néanmoins des contrôles qui ne pouvaient pas se faire au moment de l'enquête.
En effet pour traiter les cas de non réponses et procéder à la correction des valeurs aberrantes ou incohérentes, il est primordial de disposer de l'ensemble des données afin d'appréhender la cohérence d'ensemble ainsi que la meilleure méthode de correction. C'est dans ce sens que des travaux d'apurement ont été effectués après la collecte à travers des ateliers avec pour objectifs spécifiques de :
- Vérifier la complétude de l'enquête (voir si au niveau de chaque DR le nombre de ménage collecté atteint 12, corriger au besoin les numéros des ménages de remplacement) ;
- Vérifier l'exhaustivité des questionnaires (modifier le programme de rejet pour identifier les questionnaires partiellement remplis) ;
- Vérifier l'ensemble des contrôles de cohérence préétablis (Voir si les sauts ont été respectés);
- Faire le tri à plat des variables afin d'avoir une idée sur la qualité des données ;
- Corriger les incohérences éventuelles et les valeurs aberrantes ;
- Recoder les différentes modalités « autres à préciser » pour préparer l'analyse ;
Pour atteindre ces objectifs, des groupes ont été formés afin de développer des programmes d'pour les données ménages, les données prix et les données communautaires.
Comme il a été mentionné ci-dessus, l'apurement des données de l'enquête ménage a été facilité grâce à des programmes développés sur STATA. Ce qui a permis d'établir une liste de contrôle sur les données pour détecter les différents types d'erreurs. A titre d'exemple de contrôles pris en compte dans les programmes, on peut citer :
- Chaque ménage possède un et seul chef de ménage ;
- écart d'âge entre un père et ses enfants est au moins de 14 ans ;
- écart d'âge entre une mère et ses enfants est au moins de 12 ans ;
- l'âge au premier mariage est au moins de 12 ans chez la femme et d'au moins 14 ans chez l'homme ;
- les sexes des deux conjoints ne sont pas les mêmes ;
- les frais d'inscription élevés doivent être corrélées avec le niveau d'étude, la classe fréquentée, l'entité qui gère l'école, la grappe, la région ;
- les quantités consommées pour une combinaison produits unités tailles doivent être corrélées à la structure du ménage (la consommation calorique par jour et par tête est mis en avant ici) etc.
Dans le processus de correction des erreurs il faut noter que différentes stratégies étaient adoptées suivant que les données étaient manquantes ou aberrantes.
Pour les données manquantes, la méthode la plus utilisée dans les procédures de correction était l'imputation. Toutefois avant de pouvoir procéder à une imputation, une vérification sur le pourcentage de non-réponse (NR) était faite. Raisonnablement pour imputer on tolère jusqu'à 3% de NR. Quand le taux de NR est inférieur à ce seuil, on peut procéder à l'imputation des valeurs manquantes sans crainte d'altérer les données de base. En outre, en matière de procédure d'imputation, les variables qualitatives et les variables numériques sont traitées différemment. Pour les variables qualitatives, l'imputation a consisté généralement à remplacer la valeur manquante par la valeur modale de la distribution ; la procédure était affinée parfois en introduisant par exemple le milieu de résidence ou d'autres variables explicatives pertinentes selon le cas. S'agissant des variables numériques, la valeur manquante est généralement remplacée par la médiane des réponses non manquantes. Selon les cas, l'imputation était aussi affinée en prenant en compte des variables explicatives telles que le sexe, l'âge, la région, le milieu de résidence, l'appartenance ethnique, etc.
Toutefois, il convient de noter que ces imputations n'étaient pas systématiques. Il peut arriver que certaines variables de la base nous renseignent directement sur la valeur manquante. En outre, les agents enquêteurs ou même les ménages concernés étaient parfois interpelés pour corriger certaines valeurs manquantes.
Pour les valeurs manquantes ou aberrantes des quantités de produit consommées la procédure de correction se faisait généralement au cas par cas. Par exemple lorsque la correction sur les quantités consommées par le ménage pouvait se faire en se basant sur les informations des prix unitaires et des quantités achetées. Spécifiquement pour les valeurs manquantes, lorsque ces informations ne sont pas disponibles, il est nécessaire de s'assurer d'abord que le taux de NR dans l'échantillon pour chaque item de consommation est inférieur à 3%. Ensuite vérifier que pour chaque ménage donné, le pourcentage de NR en termes d'items de consommation dans le ménage est aussi inférieur à 3%. Si les deux conditions ci-dessus sont réunies, l'imputation est légitime, on impute la NR par la médiane de la quantité consommée du produit dans la région, le milieu de résidence et la taille etc. S'agissant des données aberrantes, le traitement ne concernait que les valeurs numériques. Des tris à plats sont faits sur toutes les variables numériques du fichier de données. Ce qui a permis d'identifier pour certaines variables des valeurs trop faibles ou trop élevées. Ainsi dans le processus de correction de ces valeurs, d'autres variables comme la grappe, le milieu de résidence, le nombre de personne dans le ménage, etc. sont souvent faits appel. Pour les valeurs aberrantes de la variable consommation, un traitement particulier a été réservé. L'approche pour identifier les valeurs aberrantes passait par la conversion des quantités renseignées en unités non-standards (paquet, sachet, etc.) en unité standard (kg, litre), et ensuite la conversion de ces quantités en calories. A ce niveau on considère comme valeurs aberrantes les consommations par tête inférieures à 800 kilocalories par personne et par jour et celles supérieures à 4000 kilocalories par personne et par jour ; Toutefois les corrections n'étaient pas automatiques, les valeurs a priori identifiées comme aberrantes étaient regardées de prés.
Pour les valeurs de consommation trop faibles (celles inférieures à 800 kilocalories) deux approches était explorées. La première consistait à faire appel aux montants de la consommation hors ménage. L'existence de cette dernière permettait le plus souvent d'accepter les consommations inférieures à 800kilocalories. La deuxième approche se basait sur la distribution de la consommation en sous-groupes. Ici on identifie les sous-groupes ayant un apport trop faible pour voir s'il n'y a pas eu de mauvais report évident d'unités ou de tailles.
Pour les calories trop élevées (celles dont la valeur dépasse 4000Kcal), on procède aussi en deux temps. D'abord à l'aide de la section 8B, l'on essaye de détecter s'il n'y a pas eu un grand nombre de personnes extérieures au ménage ayant pris des repas dans le ménage ; si c'est le cas, des valeurs apparemment anormales deviennent plausibles. Ensuite on procède à la vérification de la consommation par calorie pour chaque item. Dans le cas où l'apport au niveau d'un item dépasse 1500kcal par tête, cela constitue une probable source d'erreur ; on cherche alors s'il n'y a pas eu de mauvais report évident d'unités ou de tailles.
L'enquête harmonisée sur les conditions de vie des ménages est composée de deux volets principalement à savoir le volet ménage et communautaire. L'enquête communautaire permet de collecter des informations sur la localité de résidence du ménage. Elle est composée de cinq sections comme mentionné plus haut.
Les sections de 1 à 4 constituent le questionnaire communautaire et la section 5 constitue le questionnaire Prix. Pour chacun de ces derniers, un travail d'apurement a été effectué lors des deux vagues.
Apurement du questionnaire communautaire
En ce qui concerne les données de l'enquête communautaire, la même méthodologie d'apurement a été adoptée pour les deux vagues. Dans un premier temps, la couverture de l'enquête est vérifiée. Les entretiens vides ainsi que les doublons ont été supprimés de la base en se référant aux informations recueillies lors du suivi de la collecte effectué par le quartier général. Ensuite, pour chaque section des tris à plat et un recodage des modalités autres à préciser ont été effectuées. Pour le recodage, certaines réponses ont été reversées et d'autres ont été ajoutées à la liste des modalités existantes vu leur fréquence dans la base. Simultanément, les sauts établis ont été vérifiés et les incohérences corrigées. Enfin, l'on procède à l'imputation des valeurs manquantes. Elle s'est faite de manière rigoureuse tout en tenant compte de la spécificité de chaque observation.
Concernant le questionnaire Prix, pour chaque vague, une méthodologie d'apurement est adoptée.
Les données de l'enquête Prix ont été collectées auprès des marchés des DRs échantillonnés. Dans chaque DR, les prix des produits sont renseignés dans deux points de vente différents. Vu la lourdeur de l'enquête, l'ensemble des produits n'ont pas été collectés. Les produits choisis sont ceux susceptibles de faire partie du panier de consommation.
L'objectif de l'apurement de ces données est de vérifier surtout la cohérence entre le prix et l'unité taille des produits ainsi que la cohérence entre les prix des deux relevés.
Dans un premier temps, les questionnaires invalides et les doublons sont supprimés.IL a été vérifié si dans chaque DR il y a un relevé Prix pour s'assurer de l'exhaustivité. Pour une équipe les relevés Prix pour deux grappes n'ont pas été faits car le lieu d'approvisionnement de ces DRs se trouve en GAMBIE. La méthodologie peut être déclinée en 2 principales étapes.
Dans un premier temps, les corrections ont porté sur les prix du premier relevé. En effet, on construit des graphiques pour avoir une idée de la distribution des prix au niveau national. Ceci est fait pour chaque produit unité. Ce qui donne en abscisse les différentes tailles du produit unité concerné. Ainsi on aperçoit graphiquement les valeurs aberrantes qu'on essaie de corriger. Des corrections ont été effectuées soit au niveau de la taille sélectionnée par l'agent enquêteur tout en vérifiant si la taille avec laquelle on veut la remplacer n'a pas été collectée ; soit on corrige le prix en se référant au prix du second relevé ou quelquefois si les 2 prix sont similaires on corrige par le mode pour le produit unité concerné.
Dans un second temps, on calcule les écarts entre les 2 relevés pour corriger les prix du second relevé. Après avoir calculé les écarts on observe ceux qui sont significatifs et on les corrige selon le produit-unité concerné. L'hypothèse émise est qu'un même produit unité donné se vendant dans le même marché à des points de vente différents ne peut pas avoir un écart significatif. L'exercice a été répété pour l'ensemble des combinaisons produit-unité.
Les questionnaires invalides ont été d'abord supprimés. Au sein de chaque département et pour chaque produit-unité-taille, la moyenne et l'écart type ont été calculés. Ensuite les relevés pour lesquels les prix sont supérieurs à la moyenne plus deux fois l'écart type et inférieurs à la moyenne moins deux fois l'écart type ont été identifiés. En effet dans un même marché si l'un des relevés est aberrant, on le corrige par l'autre relevé. Dans le cas où les deux relevés sont aberrants, le processus de correction s'effectuait au cas par cas. Des tris à plat sont effectués pour chaque produit unité taille afin de détecter là où se trouvait l'incohérence. Ainsi sur la base de cette observation on pouvait être amené à corriger soit le prix, l'unité ou la taille.
Comparaisons des prix entre les deux vagues
Après la consolidation des données de prix des 2 vagues, un programme de calcul des prix pour les différentes zones géographiques (national, région, zone agro écologique, etc.) a été déroulé afin de comparer les prix des produits entre les deux vagues. A l'issu de cette comparaison, d'autres corrections ont été faites pour les écarts majeurs constatés sur les produits non saisonniers.
Comparaisons des prix unitaires entre les achats des ménages au niveau de la section consommation alimentaire et ceux de l'enquête prix.
Les travaux effectués sur les données après l'atelier ont porté sur la comparaison des prix des produits entre l'enquête prix du volet communautaire et les prix moyens des produits issus de la partie achat de la section 7B.
En effet, pour chaque produit, nous avons calculé le prix moyen au Kg pour chaque vague de l'enquête prix par zone agro-écologique. Ensuite le même procédé est répété en prenant la partie achat de la section 7B. Ainsi pour chaque produit et dans chaque zone agro-écologique nous avons comparé les 4 prix moyens au Kg (c'est-à-dire le prix moyen au kg pour les deux vagues de l'enquête prix et les prix moyen au kg relatif à la partie achat de la section 7B pour chaque vague).
À l'issue de ces comparaisons quelques corrections sont effectuées au niveau de certains produits de l'enquête prix mais également sur certains achats de la section 7B.