Introducción y presentación del modelo
De cara a las elecciones más grandes en la historia de México, es indispensable diseñar modelos estadísticos innovadores que den certeza sobre la evolución de la intención de voto. En ese ánimo, Gerencia del Poder desarrolló GPPolls, un modelo inscrito en el marco de la Estadística Bayesiana que estima la intención de voto por día de los candidatos a la presidencia de la República.
El modelo utiliza como insumo informático los resultados publicados por las casas encuestadoras más grandes del país respecto a la intención de voto. A este tipo de modelos, popularizados en Estados Unidos y en el mundo por el estadístico Nate Silver, se les conoce como Encuestas de Encuestas (Poll of Polls).
A pesar del nombre, estos modelos no se fundamentan en la Teoría de Muestreo Aleatorio, que es el núcleo teórico de las encuestas tradicionales, sino que utilizan una idea simple que se relaciona con problemas de transmisión de datos.
La idea fundamental es que las encuestas son señales ruidosas del valor verdadero de la intención del voto, de esa manera una encuesta puede o no estar cerca del valor verdadero, pero el conjunto de encuestas debería estimar con cierta precisión la intención de voto.
Vale insistir que todo modelo es una aproximación simplificada de la realidad. Por lo tanto, estudiar un fenómeno a través de un modelo implica de manera necesaria el involucramiento del investigador y la inserción a priori de un cierto conocimiento experto sobre el fenómeno. Adicionalmente, en tanto Bayesiano, nuestro modelo exige hacer explícitos los supuestos utilizados y la influencia que ellos tienen sobre las estimaciones finales.
Advertimos, pues, dos fuentes de discrepancias entre el usuario final y las estimaciones del modelo, una de fundamento y otra matemática.
Para atender la primera, a continuación se presentará la declaración de principios, esto es, los pilares sobre los cuales se sostiene GPPolls, bajo la advertencia de que si no se está de acuerdo con esas ideas las estimaciones finales carecen de sentido.
El segundo es un problema de traducción, es decir de como indicarle al modelo en lenguaje matemático las ideas aquí planteadas. Sobre lo último, recomendamos al lector consultar https://www.academia.edu/36270289/GPpolls_Encuesta_de_encuestas, ya que aquí no se entrará en el detalle matemático para no trasladar de arena la discusión sobre el modelo.
Todos los modelos de Encuesta de Encuestas parten de principios similares. A continuación, señalaremos las particularidades fundamentales de GPPolls:
- El resultado de una encuesta ofrece una idea de la localización del promedio de intención de voto desde el primer día en que se levantó información hasta el día de publicación. Usualmente, una encuesta se interpreta como la fotografía del día, sin embargo, pocas veces se toma en consideración que la información no fue levantada el día de publicación y que, de hecho, la información se recolectó en más de un día.
Para no abandonar la analogía, nuestro modelo propone dejar de entender el resultado de una encuesta como la fotografía de un día y entenderla mejor como el vídeo de la semana. Esta idea fue tomada en consideración tras observar los resultados de ejercicios comparativos hechos por Miriam Hurtado Bodell, en su estudio del caso sueco.
- La intención del voto de cualquier día depende fuertemente de la intención de voto del día anterior. En la Encuesta de Encuestas de Nate Silver y en todos los modelos que se deriven de ella, hay conceso acerca de que existe una dependencia temporal en la intención del voto. Sin embargo, no hay un acuerdo sobre la fuerza de esa dependencia.
El problema es muy interesante, ya que tiene que ver estrictamente con la dinámica de la intención del voto. Es decir, este fragmento del modelo debe de estudiarse de acuerdo al contexto político de cada país. Para evitar tener una fuerte influencia sobre las estimaciones finales y en el espíritu de dejar que “los datos hablen”, muchos investigadores han optado por declarar una dependencia vaga, es decir que en ausencia de información el modelo nos pueda decir muy poco acerca de la intención del voto.
Por el contario, y en esto reside el mayor diferenciador de GPPolls, parte de una dependencia fuerte entre la intención de voto de un día y la intención del voto de un día anterior. La idea detrás de ello surge tras analizar muchas elecciones en México y observar que la intención de voto es, en general, poco volátil y poco probable de ubicarse en valores extremos (cerca del 100% del voto).
La dependencia inicial está pensada de manera tal que, en ausencia de información, la primera semana los intervalos de estimación crezcan en alrededor de 3 puntos porcentuales. En este sentido el contraste en los resultados es muy importante entre una postura y la otra.
Las posturas de dependencia vaga no permiten hacer pronósticos a mediano y largo plazo, ya que al poco tiempo de no tener información el modelo indica que la intención de voto de todos los candidatos se encuentra entre 0% y 100%. La segunda postura sí permite hacer pronósticos a mediano y largo plazo, pero exige que el usuario final sea consciente de que los pronósticos dependen fuertemente del supuesto de que la intención del voto es poco volátil.
Otra consecuencia importante del supuesto es que las diferencias grandes entre encuestas realizadas en fechas similares se asociarán en mayor medida a diferencias en el proceso de recolección de información y estimación de cada encuesta y no a cambios abruptos en la intención del voto.
- La intención del voto inicial está situada en 30% para Andrés Manuel López Obrador, Ricardo Anaya y José Antonio Meade y 3.33% para cada uno de los posibles candidatos independientes. Lo primero que hay que saber es que la intención del voto inicial tiene poca injerencia en las estimaciones finales en escenarios de mucha información, como es el caso en el proceso electoral a la presidencia. A finales de octubre se tenía la sensación de que el proceso electoral podía ser competido, principalmente por tres candidatos. Por ello era razonable que antes de tener información, se asumiera el empate.
- La no respuesta contribuye a la incertidumbre de la estimación. En nuestra opinión este supuesto ofrece poca ocasión al debate, y, en general, influye poco sobre las estimaciones finales, pero suele omitirse en otros modelos, así que nos parece una aportación de GPPolls.
Los resultados
De acordar con los fundamentos aquí declarados y su inserción matemática presentada en https://www.academia.edu/36270289/GPpolls_Encuesta_de_encuestas o , en su defecto, acompañarnos en un salto de fe en lo segundo, podemos consumir los productos de información que el modelo nos ofrece. El producto principal de GPPolls es la estimación de la intención del voto en un día dado. Por ejemplo, al día de hoy, 22 de marzo de 2018, tomando en consideración las 25 encuestas publicadas del 01 de noviembre de 2017 al 22 de marzo de 2018, los intervalos de credibilidad al 95% son los siguientes:
Andrés Manuel López Obrador: 38%-46%
Ricardo Anaya Cortés: 23%-30%
José Antonio Meade Kuribreña: 21%-28%
Tras estimar la intención del voto, el modelo corre 10,000 simulaciones de una caminata aleatoria por día y por candidato, y las sintetiza en la probabilidad de ganar al día de la elección. Para nuestro caso, el modelo concluye que López Obrador tiene el 95% de probabilidades de ganar el 1 de julio de 2018, Ricardo Anaya el 3% y José Antonio Meade el 2%. Es muy importante no confundir con la intención del voto que es reportada en la tabla 1.