Discurser@: minería de textos del primer debate presidencial | newsweekespanol.com

Discurser@: minería de textos del primer debate presidencial



En México, esto jamás había ocurrido. Analizar cuantitativamente un debate presidencial en tiempo real es un ejercicio completamente insólito en la historia política de nuestro país. También, vale la pena mencionar, una iniciativa pocas veces vista en la actual política del mundo.

La culpable de este logro es una: la minería de datos. Ésta ha crecido sustancialmente a lo largo de las últimas décadas, y sobra decir que, durante ese lapso, ha transformado radicalmente la manera en la cual la estadística y las ciencias de la computación encaran los problemas que a diario se plantean. La posibilidad de encontrar patrones en grandes volúmenes de conjuntos de datos ha proporcionado respuestas que antes hubieran sido prácticamente imposibles de conseguir. Con esto en mente, no sería descabellado suponer que su inclusión en la capacidad interpretativa del ser humano ha cambiado la manera en la cual ve la realidad, quizá para siempre.

Como breve sumario, la finalidad principal de la minería de datos consiste en extraer información de un conjunto de datos y transformarla en una estructura comprensible. De igual manera, la minería de textos (sub campo de la minería de datos aún en vías de desarrollo, responsable del análisis cuantitativo en tiempo real del debate presidencial) tiene la misma premisa: parte de que un texto o una palabra es, para fines prácticos, un dato. Solamente por mencionar una de las aplicaciones más conocidas de la minería de textos… Mediante un análisis de frecuencia (cantidad de repeticiones o apariciones de un mismo elemento), ésta fue capaz de identificar la autoría detrás de los textos federalistas estadounidenses anónimos al develar las palabras clave de cada autor.

Ahora bien, la minería de textos aplicada a las intervenciones proferidas en un debate también aporta información relevante para el análisis político de un candidato. Sus principales intereses, los elementos que más critica o incluso la velocidad de su habla pueden delinear el contorno de su estrategia. Por ello, en Discurser@ (producto de análisis discursivo de Gerencia del Poder) nos pareció pertinente realizar este ejercicio y comprobar las hipótesis que en un inicio nos planteamos.

En primer lugar, hay que analizar el número total de palabras emitidas por candidato. Como se puede observar en la Gráfica 1, a excepción de Andrés Manuel López Obrador, todos los demás candidatos superaron las tres mil palabras durante todo el debate. José Antonio Meade, candidato de la alianza Todos por México, encabezó la lista con un total de 3 mil 611 palabras articuladas; lo secundaron la candidata independiente, Margarita Zavala, con 3 mil 525, y el candidato de Por México al Frente, Ricardo Anaya Cortés, con 3 mil 465.

Gráfica 1

Posteriormente, un paso obligado sería analizar la diversidad léxica de cada candidato (es decir, el número total de palabras únicas sobre el número total de palabras). Como puede observarse en la Gráfica 2, quien lideró esta categoría fue Ricardo Anaya. José Antonio Meade, candidato que declaró la mayor cantidad de palabras durante el debate, ocupó la tercera posición. Esto debido a que dentro de su retórica, el candidato utiliza frecuentemente la repetición. Por ejemplo, puede observarse en esta oración de su intervención final: “Creo en un México unido; en un México próspero; en un México que avanza; en un México que se convierte en potencia; en un México incluyente”. Cabe resaltar que a pesar de su poca participación —a comparación de los demás—, el candidato de Juntos Haremos Historia, Andrés Manuel, fue el segundo con mayor diversidad léxica.

Gráfica 2

Para evaluar las palabras por minuto —o, en términos generales, la velocidad— de un candidato, decidimos elaborar un comparativo histórico. Éste, expuesto en la Gráfica 3, abarca toda la historia de los debates políticos mexicanos, desde 1994 hasta 2018. Para comprenderlo, conviene hacer tres precisiones: En la caja se encuentra el 50% de las velocidades por intervención de cada candidato, entre los límites de la línea se contempla el 95%, y cada punto representa una muestra atípica. Es decir, entre más amplia sea la caja, más variabilidad hubo en la velocidad de las intervenciones de un candidato.

Aquí resaltan, sobre todo, dos cuestiones. La primera, que cuatro de los cinco participantes del último debate lideran el comparativo histórico (esto significa que, comparado con los debates anteriores, éste fue más veloz); la segunda, que López Obrador de 2018 redujo su velocidad en comparación con sus intervenciones en los debates de 2006 y 2012.

Gráfica 3

Por último, la Gráfica 4 exhibe una nube con las palabras más reiteradas por cada candidato durante el debate y las Gráficas 5 reúnen las palabras clave que diferenciaron los discursos. Es necesario hablar de ambas simultáneamente porque aunque parezca que presentan lo mismo, no es así. La nube contempla las palabras más utilizadas por candidato (a excepción de palabras sin contenido, como preposiciones o conjunciones, entre otras) sin discriminar entre ellas. Las palabras clave (o keyness), en cambio, son aquellas que identifican los discursos. Es decir, las palabras que utilizó un candidato que diferenciaron su discurso con respecto a los demás. El método estadístico detrás del keyness prioriza la inequidad léxica sobre la frecuencia, por lo que no necesariamente resultará en las palabras más utilizadas por cada uno, ya que pudieron ser utilizadas por todos.

Gráfica 4

Por primera vez en la historia, vemos que el nombre de un candidato protagoniza entre las palabras más utilizadas de los demás participantes. José Antonio Meade le llamaba “Andrés Manuel”; Ricardo Anaya, “López Obrador”, y el Bronco, simplemente le decía “Andrés”. Para quien haya visto el debate, esto no debe suscitar ninguna sorpresa. Huelga decir que una gran parte de las intervenciones tuvieron como destinatario al candidato de Juntos Haremos Historia.

Por otro lado, entre las palabras clave podemos detectar ciertas intenciones; mensajes únicos con interés de ser una y otra vez remarcados; la sustancia —quizá— de la estrategia. Por ejemplo, dos de las palabras más representativas de Margarita Zavala son “mujeres” y “defenderte”, mismas que guían el eje de su campaña; en el caso de José Antonio Meade, candidato que ha tratado de desmarcarse del PRI desde su postulación, resulta lógico que la palabra que más identifica su discurso sea “ciudadano”, y en cuanto a AMLO, una palabra basta para definir su mensaje: “transformación”.

 

Gráfica 5

Este artículo fue redactado por Emilio Akira Morones Ishikawa, cocreador de Discurser@ junto a Gerardo Orantes Jordan, ambos estudiantes de la maestría en análisis de datos en ciencias sociales en la Universidad de Essex. Colaboró Jorge Othón Gómez-Martínez, estudiante de Literatura Hispánica en la Universidad Nacional Autónoma de México.

Ingresa las palabras claves y pulsa enter.