Culturomics: una aplicación al caso colombiano

FacebookGoogle+TwitterPrintFriendlyEmailWhatsApp

Juan Manuel Caicedo, Alejandro Gaviria y Javier Moreno

Culturomics es el análisis cuantitativo de tendencias lingüísticas, culturales y sociales con base en libros, periódicos y textos digitalizados disponibles en internet. Este tipo de análisis usa millones de páginas digitalizadas para estudiar la evolución de patrones lingüísticos y culturales así como para identificar cambios significativos en la opinión pública. Según Michel et al. (2010), el análisis cuantitativo de textos constituye un nuevo (y en teoría poderoso) método de análisis en las ciencias sociales. Su virtud radica no en el estudio minucioso de algunos textos seminales –la estrategia tradicional de las ciencias sociales–, sino en la lectura automatizada de millones de textos de muy diversa calidad y trascendencia. Culturomics compensa con volumen su falta de discernimiento. Es un método de fuerza bruta.

Michel et al. (2010) usan un corpus de más de cinco millones de libros en inglés (4% de la totalidad de los libros publicados en este idioma en todos los tiempos) para analizar la evolución de la gramática de la lengua inglesa, el auge y la caída de la reputación de algunos personajes públicos y varios eventos puntuales de censura durante el siglo XX. Muchas otras aplicaciones son posibles. El análisis de libros digitales permite estudiar (desde una perspectiva de largo plazo) la popularidad de teorías científicas, ideas generales y formas de pensamiento. El análisis de publicaciones periódicas permite (desde una perspectiva de más corto plazo) estudiar los cambios en las ideas políticas, el clima de opinión e incluso algunas transformaciones institucionales.

El gráfico 1 muestra, para todo el siglo XX, la frecuencia de la palabra “marxismo” en un corpus de libros en español compilado por google (el gráfico puede reproducirse fácilmente en http://ngrams.googlelabs.com/). La frecuencia aumentó de manera casi continua entre 1920 y 1980 y comenzó luego a disminuir de manera acelerada. El marxismo ha perdido importancia recientemente, pero sigue siendo, según esta métrica particular, tan importante ahora como lo fue en los años sesenta.

 Gráfico 1. “Marxismo” en el siglo XX: inglés y español

Gráfico 1. “Marxismo” en el siglo XX: inglés y español

Gráfico 1. “Marxismo” en el siglo XX: inglés y español

Prensa versus libros

Michel et al. (2011) concentran su análisis en un corpus de libros y excluyen intencionalmente cualquier tipo de publicación periódica. Los libros, por su estilo de producción y desarrollo, ofrecen una perspectiva decantada de la cultura, desconectada de las fluctuaciones bruscas de la opinión pública. Al restringirse a ellos se reduce el ruido y se gana claridad global y capacidad generalizadora, pero, por lo mismo, también se pierde especificidad: los libros no dan cuenta de la manera como la sociedad responde e interpreta el flujo informativo, imperfecto y a veces incluso contradictorio, que produce a diario.

Para explorar fenómenos sociales sensibles a la información que cambia y se adapta en tiempo real conviene utilizar, más bien, archivos de noticias. Trabajos como el de Glaeser y Goldin (2002), que propone una medida de corrupción basada en conteos de frecuencia de la palabra “corrupción” en archivos de prensa, o el de Leetaru (2011), que estudia un corpus de treinta años de noticias globales y detecta modulaciones tonales negativas previas a eventos como la llamada Primavera árabe o la Guerra en los Balcanes, evidencian el potencial descriptivo de estos métodos cuando se utilizan para explorar archivos de prensa.

Culturomics en Colombia

Este artículo utiliza un voluminoso archivo de noticias de prensa para dar algunas luces sobre la realidad de la opinión y la opinión sobre la realidad en Colombia. El análisis es más sugestivo que definitivo. Plantea muchos integrantes, revela algunos sesgos y sugiere varios temas relevantes de investigación. El corpus de noticias está basado en los artículos publicados en las versiones electrónicas del periódico El Tiempo y de las revistas Semana y Dinero durante los últimos 20 años. La muestra analizada contiene casi dos millones artículos. En números redondos, 90,0% de los artículos provienen de El Tiempo, 6,5% de Semana y 3,5% de Dinero.

Para cada publicación, el análisis parte del cálculo de la frecuencia mensual de aparición de algunas palabras de interés. La frecuencia es calculada como el cociente entre (i) el número de ocurrencias de una palabra en todos los artículos publicados durante un mes dado y (ii) el número total de palabras publicadas durante el mismo mes.

Realidades y palabras   

En esta primera aplicación, el análisis propuesto está basado en la comparación de dos series distintas. La primera es un indicador objetivo del fenómeno estudiado (la tasa de desempleo, por ejemplo) y la segunda, la frecuencia de la palabra correspondiente (“desempleo”, en este caso). En términos generales, este análisis permite entender de qué manera la realidad es reflejada por la prensa. Las frecuencias de palabras, como se verá, reflejan de manera bastante fiel algunas facetas de la realidad económica.

Desempleo

El gráfico 2 muestra simultáneamente la tasa trimestral de desempleo correspondiente a las siete principales ciudades de Colombia y la frecuencia de la palabra “desempleo” en los archivos de noticias del diario El Tiempo del mismo trimestre. Las series corresponden al período comprendido entre el primer trimestre de 1993 y el segundo trimestre de 2011. Ambas series fueron “suavizadas” con base en un promedio móvil de un año (cuatro trimestres).

Gráfico 2. Tasa de desempleo y “desempleo” en El Tiempo

Gráfico 2. Desempleo y “desempleo” en El Tiempo

El comovimiento de ambas series es claro. El coeficiente de correlación es de 0,90 para  todo el período. La tasa de desempleo y la frecuencia de la palabra “desempleo crecieron a un ritmo similar durante la crisis de finales de los años noventa. Pero el descenso de ambas series fue distinto. La frecuencia (una medida del interés mediático) descendió más rápidamente que la tasa de desempleo (una medida objetiva del problema en cuestión). La inercia de la realidad fue aparentemente mayor que la inercia de las palabras. El fenómeno del desempleo fue más duradero que las noticias y comentarios sobre el mismo.

En 2008, coincidiendo con la crisis internacional y con el aumento del desempleo interno, el interés mediático revivió nuevamente. La frecuencia de la palabra “desempleo” aumentó de manera desproporcionada entre 2009 y 2010. La prensa sobrerreaccionó al repunte del desempleo, podría decirse. En términos más generales, la disminución injustificada en el interés mediático después de la crisis de los años noventa y el aumento desproporcionado después de la crisis internacional del año 2008, sugieren que los medios escritos son más sensibles al agravamiento de un problema social que a la continuidad del mismo. La prensa escrita perdió el interés en un problema duradero y acuciante. Sólo cuando la situación empeoró, los medios revivieron el interés perdido.

En suma, dos hechos merecen resaltarse: la alta correlación entre las dos series y las respuestas asimétricas de la prensa: el olvido relativo de los problemas duraderos y la reacción abrupta ante los problemas cambiantes.

Recesión

El gráfico 3 muestra la tasa anual de crecimiento económico y la frecuencia de la palabra “recesión” en el diario El Tiempo. Las series cubren el período comprendido entre los años 1992 y 2010. La frecuencia corresponde al promedio móvil de doce meses, y la serie de crecimiento, a la tasa anual de crecimiento del Producto Interno Bruto (PIB).

Gráfico 3. crecimiento del PIB y “recesión” en El Tiempo

Gráfico 3. Crecimiento del PIB y “recesión” en El Tiempo

Las conclusiones en este caso son similares a las del ejemplo anterior. Como en el caso del desempleo, el comovimiento de las dos series es evidente. La frecuencia de “recesión” aumentó cuando cayó la tasa de crecimiento y viceversa. El coeficiente de correlación es de -0,82. Sólo hay una discordancia significativa en el período: la leve desaceleración económica del año 2002 estuvo acompañado de un aumento desproporcionado de la frecuencia de la palabra “recesión”. Pero en general el comportamiento de ambas series es bastante similar. De nuevo, las palabras reflejaron fielmente la realidad

Palabras como realidades

Culturomics puede usarse también para cuantificar fenómenos socioeconómicos que, por su misma naturaleza, son difíciles de medir. En esta aplicación, el análisis ya no consiste en comparar los indicadores con las frecuencias, sino en usar las frecuencias de aparición de ciertas palabras como indicadores de fenómenos socioeconómicos de difícil medición. En otras palabras, las palabras se usan para medir la realidad.

Corrupción 

El gráfico 4 muestra, para el período comprendido entre enero de 1992 y julio de 2011, la evolución de la frecuencia de la palabra “corrupción” y otras expresiones similares. Las series mostradas corresponden a los promedios móviles de doce meses: inicialmente se calcularon las frecuencias mensuales y seguidamente los promedios móviles anuales. El gráfico presenta, separadamente, las frecuencias correspondientes al diario El Tiempo y a la revista Semana.

Grafico 4. “Corrupción” en El Tiempo y Semana

Grafico 4. “Corrupción” en El Tiempo y Semana

Las dos figuras cuentan una historia similar. Ambas revelan grandes fluctuaciones  alrededor de una tendencia más o menos horizontal. En El Tiempo (figura de la izquierda), la tendencia es negativa, en Semana (figura de la derecha), es positiva. Pero más allá de estas diferencias, el gráfico sugiere, en esencia, cierta inercia de la corrupción: los escándalos ocurren cada cierto tiempo pero no parece existir una tendencia inclinada. En suma, la corrupción ha sido fluctuante en el corto plazo pero más o menos constante desde una perspectiva de largo plazo. Todo cambia y todo sigue igual.

El conteo de noticias, opiniones y comentarios no es un indicador perfecto de la corrupción. Este indicador está sesgado por los eventos más costosos o por algunos casos que concentran, debido a razones muchas veces fortuitas, la atención de la opinión pública. Además, el indicador puede reflejar, en algunas coyunturas específicas, los sesgos ideológicos o los intereses políticos de los directores y editores de los medios de comunicación estudiados. En fin, los cuestionamientos abundan. Pero este tipo de análisis no debería descartarse fácilmente. En cierta medida, equivale a un simple un ejercicio memorístico–contar para recordar–, a una forma de contrarrestar los juicios impresionistas del presente con los juicios similares del pasado, de comprar la indignación de hoy con la de ayer.

Un indicador similar fue usado por Goldin y Glaeser (2001) para estudiar la evolución de la corrupción en Estados Unidos desde una perspectiva de largo plazo. Más  recientemente, Goel, Nelson y Naretta (2011) usaron la frecuencia de búsqueda de la palabra “corrupción” en internet para hacer comparaciones entre países. Los indicadores tradicionales de corrupción están basados en opiniones, las cuales, en la mayoría de los casos, están influenciadas por el cubrimiento de la prensa. El indicador aquí propuesto está basado en la intensidad del cubrimiento, en la idea de que la cambiante realidad de la corrupción puede cuantificarse, en cierta medida al menos, con base en la intensidad de su cubrimiento mediático.

Volviendo al gráfico 5, hay un hecho peculiar que merece un comentario aparte. En ambas figuras, la frecuencia de la palabra “corrupción” cayó de manera notable entre finales de 2005 e inicios de 2010 y aumentó seguidamente de manera sustancial. Los  medios analizados se desentendieron de la corrupción durante buena parte del segundo mandato del ex presidente Uribe (2006-10) y luego, como si tuvieran que ponerse al día, aumentaron súbitamente la cobertura sobre el tema en cuestión. Después de una calma de varios años, vino la tempestad mediática sobre el tema de la corrupción.

Aparentemente las denuncias y debates que se habían postergado salieron a flote súbitamente. En suma, más que un aumento permanente de la corrupción, el crecimiento súbito de la frecuencia noticiosa al final del periodo de análisis podría indicar una suerte de actualización, de desfogue mediático. Pero más allá de los ciclos y las fluctuaciones temporales, los datos sugieren que la corrupción permaneció más o menos constante durante los últimos veinte años. Al menos, la “corrupción” no muestra una tendencia clara. Ni positiva. Ni negativa. Las variaciones fueron muchas, pero la tendencia no cambió mayormente.

Conclusiones

Este trabajo tiene una única intención: llamar la atención sobre un tipo de datos que no ha sido usado históricamente en economía y que puede aportar información útil en dos sentidos: para medir fenómenos relevantes de difícil cuantificación y para estudiar como la prensa escrita refleja y captura algunos fenómenos económicos relevantes. Con frecuencia, la realidad de los medios de comunicación es tan importante como la realidad de los indicadores.

Este tipo de información puede ser tan relevante (y cuesta menos) que las encuestas de opinión que ya se usan obsesivamente en economía. Culturomics es una de las nuevas fronteras del análisis económico. O al menos es una buena forma de entretención como lo podrán comprobar los lectores en esta dirección: http://ngrams.cavorite.com.

Referencias

Edward L. Glaeser, Claudia Goldin, “Corruption and Reform: Introduction“, en: Corruption and Reform: Lessons from America’s Economic History, páginas 2-22, National Bureau of Economic Research, 2006.

Rajeev K. Goel, Michael A. Nelson, Michael A. Naretta, “The internet as an indicator of corruption awareness”, European Journal of Political Economy, septiembre 2011.

Jean-Baptiste Michel, Yuan Kui Shen, Aviva Presser Aiden, Adrian Veres, Matthew K. Gray, The Google Books Team, Joseph P. Pickett, Dale Hoiberg, Dan Clancy, Peter Norvig, Jon Orwant, Steven Pinker, Martin A. Nowak, Erez Lieberman Aiden, “Quantitative Analysis of Culture Using Millions of Digitized Books”, Science, diciembre 2010.

Kalev H. Leetaru, “Culturomics 2.0: Forecasting large–scale human behavior using global news media tone in time and space”, First Monday, Volume 16, Número 9 – 5 Septiembre 2011

One Comment

  1. Buenas, el artículo es muy interesante. Igual, creo que vale la pena remarcar que el analizar textos de manera cuantitativa, aun cuando recién esté empezando a ser usado en economía, ya lleva un buen tiempo siendo estudiado y aplicado seriamente por otras disciplinas (cs. de la computación/data mining) – http://en.wikipedia.org/wiki/Text_mining – y que hace años que los dos productores/consultores de business analytics (SPSS y SAS) venden a empresas servicios y suites de análisis de textos a precios astronómicos. Tareas que son comunes de estos paquetes es clustering de textos, clasificación de textos (detección automática de autoría, tópico, etc.), estadísticas descriptivas de textos, entre otras.

    Las aplicaciones que se le están dando son muy diversas, hoy en día pareciera que “el santo grial” (en donde se están invirtiendo recursos de investigación) es sentiment analysis ( http://en.wikipedia.org/wiki/Sentiment_analysis ) en conexión con web mining y el análisis de redes sociales ( http://en.wikipedia.org/wiki/Social_network ).

    Estas disciplinas son considerablemente nuevas, y es interesante ver que gente en economía esté haciendo esfuerzos en incorporarlas y aprovecharlas.

    R