¿De verdad disminuyó la pobreza extrema en México?

En este texto exploramos si la disminución observada en las cifras de pobreza extrema publicadas el año pasado por CONEVAL pueden ser atribuibles a errores de estimación del algoritmo de imputación diseñado para que las cifras de ingresos de los hogares de 2016 sean comparables con las de 2014. La respuesta corta es que sí: encontramos que el algoritmo de imputación parece sobreestimar de manera importante el cambio en el ingreso de los hogares más pobres del país[1].

En agosto de 2017, el Consejo Nacional De Evaluación de la Política Social (CONEVAL) presentó su informe sobre la evolución de las cifras de pobreza en México. En suma, señala que el porcentaje de mexicanos que viven en condición de pobreza se redujo modestamente (de 46.2% a 43.6%), y que observamos una importantísima disminución (la más alta en la historia reciente de México) en el porcentaje de la población en condiciones de pobreza extrema, de 9.5% en 2014 a 7.6% en 2016 (¡una disminución cercana al 20%!). La prensa y el gobierno festejaron la noticia. No obstante, estas cifras fueron calculadas después de ajustar los ingresos reportados por los hogares en 2016 usando un algoritmo diseñado por un grupo de expertos convocado por el INEGI y el CONEVAL para permitir su comparabilidad con encuestas anteriores pues, a partir de 2015, se introdujeron algunos cambios metodológicos que tuvieron un impacto importante en los ingresos reportados por los hogares. En este texto, buscamos inferir la magnitud de los errores de imputación asociadas al algoritmo de imputación utilizado [2]. Para hacerlo, empezamos por describir los datos que dieron origen a la creación del grupo de expertos que lo diseñó.

Empecemos por calcular el cambio en el ingreso por decil de la población entre 2014 y 2016 antes de aplicar el ajuste estadístico (Figura 1). Si la información contenida en ambas encuestas fuera comparable, la información presentada en esta figura sería una extraordinaria noticia: entre 2014 y 2016, los hogares más pobres del país observaron incrementos gigantescos en sus ingresos.

Figura 1. Cambio Porcentual en el Ingreso Corriente por Decil de la Población Sin Ajustes (2014-2016)**Cálculos propios. Excluye el 1% de hogares que reportan los ingresos más altos.

En 2016, sin embargo, organizaciones de la sociedad civil (en particular el CEEY y OXFAM), junto con un amplio grupo de académicos expertos en temas relacionados con la economía del desarrollo, hicieron pública su preocupación sobre el hecho de que el INEGI había cambiado la metodología para medir el ingreso de los hogares mexicanos. El llamado de atención respondía a que parecía imposible inferir si el aumento en los ingresos de los hogares presentado en la Figura 1 correspondía al que habríamos observado en ausencia de los cambios metodológicos para el levantamiento de estas encuestas[3].

El llamado de atención dio resultado y el INEGI, junto con el CONEVAL, reunieron a un “Grupo Técnico Ampliado” para diseñar un algoritmo de imputación para las encuestas posteriores a 2014 que permitiera la comparabilidad de los ingresos de los hogares en el tiempo. La tarea era dificilísima, pues es imposible determinar con exactitud cuánto del cambio observado en los ingresos presentados en la Figura 1 se debe al cambio metodológico y cuánto efectivamente a un aumento real en los ingresos de las personas. Hoy, sin embargo, el algoritmo diseñado por este grupo de expertos es público y fácilmente descargablede la página de internet del INEGI.

Pero, ¿qué tan bien predice los cambios en la distribución del ingreso entre 2014 y 2016 dicho algoritmo?

Para responder esta pregunta, vale la pena volver a la Figura 1 y darnos cuenta de que los cambios metodológicos pueden haber tenido dos consecuencias principales. Por un lado, los ingresos promedio reportados por los hogares mexicanos podrían haber aumentado. Y, por el otro, estos cambios metodológicos pueden haber tenido un impacto en la formade la función de distribución del ingreso reportado. Cualquier procedimiento que busque revertir los cambios en la distribución del ingreso que resultan del cambio metodológico debe, por lo tanto, hacer un esfuerzo por inferir no sólo el promedio o la mediana del ingreso, sino también la formaque tomaría la función de distribución del ingreso en ausencia de estos cambios.

El algoritmo de imputación diseñado por el grupo técnico ampliado no hace esto último. En términos simples, recupera la forma de la distribución del ingreso únicamente a partir de la información en la encuesta levantada después de los cambios metodológicos. Y, dada esta forma general de la distribución del ingreso, ajusta sus parámetros con el único objetivo de que el cambio en la mediana del ingreso en cada estado reportado en el mismo período por los hogares en otra encuesta que no sufrió cambios metodológicos (la ENOE), coincida con el cambio que se observa entre 2014 y los valores del ingreso imputados en 2016.

Para ilustrar de la forma más sencilla posible por qué el método elegido por el grupo técnico ampliado puede arrojar resultados equivocados, presentamos un ejercicio simple en el que introducimos una pequeñísima variación al procedimiento que realizan: en lugar de recuperar la formade la distribución del ingreso en 2016, recuperamos la forma de la distribución del logaritmo natural del mismo. Es decir, realizamos una muy simple transformación a nuestro objeto de interés.

La Figura 2 muestra las funciones de densidad empíricas del logaritmo del ingreso de 2014 y 2016 (antes del ajuste estadístico).  Resaltan tres hechos principales: 1) ambas funciones son (más o menos) simétricas; 2) la media y mediana del logaritmo del ingreso en 2016 se encuentran más a la derecha que los mismos estadísticos para la distribución del logaritmo del ingreso en 2014; y 3) la distribución del logaritmo del ingreso de 2016 tiene colas menos pesadas que la de 2014. Un algoritmo de imputación que replique el ajuste estadístico sugerido por el grupo técnico ampliado, pero que en vez de ajustar la distribución del ingreso en 2016 corrija la distribución del logaritmo de esta misma variable, sólo desplazaría (hacia la izquierda) la función de densidad empírica de 2016, de forma que su mediana coincidiera con la mediana objetivo. No modificaría en lo absoluto la forma de esta función.

Figura 2

Es fácil inferir que la diferencia principal entre la distribución del logaritmo del ingreso en 2016 resultado de este ejercicio y la del logaritmo del ingreso en 2014 estaría principalmente en la pesadez de sus colas. Y, que si calculáramos entonces el cambio en ingresos por deciles de la distribución, obtendríamos un resultado prácticamente igual al presentado en la Figura 1. Sólo habría que restarles a todas las barras exactamente el mismo número. En otras palabras, los resultados de este ejercicio sugerirían un muy importante aumento en el ingreso para los primeros deciles de la distribución del ingreso, y una importante disminución en los deciles más altos de la misma.

En la práctica, el ajuste estadístico utilizado por el CONEVAL no hace exactamente lo descrito en los párrafos anteriores. Sin embargo, la única diferencia importante entre lo arriba descrito y el algoritmo de imputación es que, en una primera instancia, estima la distribución del ingreso de 2016, en lugar de la de su logaritmo. Como la función de densidad del ingreso no puede tomar valores negativos, el ajuste a sus parámetros para lograr que su mediana coincida con las medianas objetivo definidas a partir de la ENOE es mucho más sofisticado que un simple desplazamiento hacia la izquierda de la función de densidad. Sin embargo, sigue siendo cierto que, en se segunda etapa, el algoritmo no utiliza más que la mediana como el estadístico a ajustar. Y, por eso, sigue siendo posible que los resultados estimen un aumento importante en el ingreso de los deciles más bajos y una disminución en el ingreso de los deciles más altos de la distribución del ingreso sólo como consecuencia de haber estimado la forma de la distribución únicamente a partir de los ingresos reportados después del cambio metodológico.

La Figura 3 repite el ejercicio presentado en la Figura 1 esta vez calculando el cambio en el ingreso por decil de la población entre 2014 y los valores imputados en 2016. De nuevo, si la información presentada en la Figura 2 efectivamente midiera el cambio en ingresos por deciles, la noticia sería casi tan extraordinaria como la que sugiere la Figura 1. Aunque en menor medida, el ingreso de los deciles más bajos de la distribución del ingreso aumentó considerablemente y el ingreso promedio de los deciles más altos disminuyó. Pero, como describimos en el párrafo anterior, la aparentemente buena noticia puede también ser únicamente consecuencia de los supuestos implícitos en el algoritmo de imputación.

Figura 3. Cambio Porcentual en el Ingreso Corriente por Decil de la Población (ENIGH 2014-Imputación ENIGH 2016)*

¿Cómo juzgar entonces si el ajuste estadístico efectivamente corrige los cambios en el ingreso que habríamos observado para cada decil de la población en ausencia del cambio metodológico?

Para responder a esta pregunta, necesitaríamos (idealmente) contar con una encuesta alternativa que recupere los ingresos de los hogares en 2014 y 2016 que no haya sufrido los cambios metodológicos introducidos después de 2014. El grupo técnico ampliado menciona (y utiliza para el cálculo de las medianas objetivo) a la ENOE.  Sin embargo, esta encuesta sólo recupera información sobre el ingreso laboral de los hogares y, desgraciadamente, más del 25 por ciento de los hogares en la muestra reportan un ingreso laboral igual a cero (tanto en 2014 como en 2016). Es imposible entonces recuperar cifras precisas sobre el cambio en el ingreso de los hogares en los deciles más bajos de la distribución.

Para inferir entonces cuánto de los cambios en el ingreso promedio de cada uno de los deciles de la población pueden atribuirse a errores en el algoritmo de imputación, en este texto hacemos un supuesto defendible y parcialmente verificable: suponemos que, dentro de cada decil de ingresos, la diferencia entre encuestas en porcentaje del ingreso corriente que representa el gasto monetario de los hogares es constante e igual a la que observamos para el quinto decil de ingresos. Además, suponemos que el error de imputación para el quinto decil es cero. Como la ENIGH reporta el gasto monetario de los hogares, y porque aparentemente los cambios metodológicos introducidos después de 2014 sólo tienen un impacto importante en las cifras de ingreso reportadas por los hogares, podemos preguntarnos si los cambios porcentuales observados en el ingreso de cada decil corresponden o no a cambios porcentuales de la misma magnitud en su gasto monetario. En caso de que no coincidan, y si nuestro supuesto se cumple, la diferencia entre estas cifras (con respecto a la que observamos para el quinto decil) puede interpretarse como el cambio porcentual en el ingreso atribuible únicamente al algoritmo de imputación.

La Figura 4 presenta los resultados de este ejercicio. Como es evidente, es muy posible que muchos de los cambios en ingresos entre los deciles más bajos y más altos de la distribución del ingreso se deban únicamente al algoritmo de imputación.

Figura 4. Cambio Porcentual en el Ingreso Corriente por Decil Atribuible a Errores de Imputación 2014-2016 (Primera Diferencia)*

*Cálculos propios. Excluye el 1% de hogares que reportan los ingresos más altos.

La disminución en las cifras de pobreza extrema que el CONEVAL publicó el año pasado pueden entonces deberse en gran medida a los errores de imputación asociados con el ajuste estadístico diseñado por el grupo técnico ampliado.

Un último ejercicio nos puede ayudar a verificar si nuestro principal supuesto de identificación se cumple. En concreto, si se cumpliera, el patrón observado en la Figura 4 no tendría que sufrir cambios muy importantes si a las cifras reportadas les restáramos la misma diferencia (entre el crecimiento del ingreso corriente y el gasto monetario), pero entre años anteriores a 2016, cuando sabemos no hubo cambio metodológico alguno. La Figura 5 presenta los resultados de este ejercicio: Si bien las cifras sufren algunos cambios con respecto a las de la Figura 4, el gradiente general se mantiene: el algoritmo de imputación parece sobreestimar el ingreso de los hogares más pobres y subestimar el de los más ricos.

Figura 5. Cambio Porcentual en el Ingreso Corriente por Decil Atribuible a Errores de Imputación 2014-2016 (Estimador de Dobles Diferencias)

*Cálculos propios. Excluye el 1% de hogares que reportan los ingresos más altos.

Con este ejercicio, no buscamos mermar la confianza que los mexicanos tenemos en el CONEVAL. Como ya mencionamos, recuperar la forma de la distribución del ingreso de 2016 en ausencia de los cambios metodológicos es una tarea dificilísima. Por eso, sabemos también que nuestros cálculos no son definitivos y están sujetos a críticas. Esperamos, sin embargo, que este texto contribuya al inicio de un debate entre la comunidad científica donde se propongan y discutan públicamente algoritmos de imputación alternativos que entiendan la pregunta en cuestión y busquen efectivamente minimizar los errores en la estimación.

[1] Este texto es un resumen del primer capítulo del borrador de tesis de licenciatura que Ángel Espinoza (estudiante del ITAM) está escribiendo bajo la asesoría de Emilio Gutiérrez.

[2]Otros autores han ya  cuestionado el algoritmo de imputación utilizado para comparar las cifras de pobreza de 2014 y 2016. El ejercicio que presentamos sólo es posible dado el compromiso del CONEVAL y el INEGI con la transparencia, pues las bases de datos y programas que utiliza para el cálculo de las cifras de pobreza (así como el algoritmo de imputación) son de facilísimo acceso en su página de internet.

[3]Los cambios metodológicos introducidos por INEGI en las encuestas posteriores a 2014 son principalmente cambios al entrenamiento de los encuestadores. Los cuestionarios son los mismos, pero se instruyó a los encuestadores a insistir en las preguntas relacionadas con ingresos para recuperar cifras presuntamente más precisas (sobre todo para los hogares de menores ingresos).