METODOLOGÍA

Nowcast y Proyección de la Elección Presidencial Colombia 2026

Un Ensemble de Tres Modelos: Bayesiano · Filtro de Kalman · Gravedad-Taylor

Marzo 13, 2026 · Dashboard actualizado al 12 de marzo

Resumen Ejecutivo

Este modelo combina tres arquitecturas estadísticas independientes — Bayesiano con decaimiento exponencial, Filtro de Kalman inicializado en señal digital, y Proyección de Gravedad-Taylor — para producir un nowcast diario de intención de voto en la primera vuelta presidencial de Colombia (31 de mayo de 2026). La innovación central es invertir la jerarquía tradicional: las encuestas ya no son el prior del modelo sino un ancla estructural con decaimiento temporal. Las señales digitales — Polymarket y Google Trends calibrado — impulsan el estado del sistema en tiempo casi real.

El ensemble asigna pesos dinámicos según la fase: en el período histórico con datos disponibles, los tres sub-modelos compiten con pesos similares; en la proyección hacia la primera vuelta, el modelo de gravedad toma protagonismo al capturar el momentum de mercado. Todo estimado está acotado por pisos y techos derivados de resultados electorales desde 2002.

1. Motivación: Por Qué las Encuestas No Son Suficientes

En los últimos dos ciclos electorales colombianos, las encuestas de intención de voto fallaron de manera sistemática al estimar el resultado final de candidatos específicos. El patrón no es ruido aleatorio — es sesgo estructural.

Elección	Candidato	Última Encuesta	Resultado Real	Error (pp)
2018	Sergio Fajardo	20%	23.7%	+3.7
2022	Gustavo Petro	37%	40.3%	+3.3
2022	Rodolfo Hernández	19%	28.2%	+9.2
2026 *	Oviedo (consulta)	11%	21.4%	+10.4

* Consulta del Gran Pacto de Derechas, 8 de marzo de 2026.

Tres patrones emergen de este análisis:

Los candidatos de centro o de derecha-establecimiento son sistemáticamente subestimados en encuestas telefónicas.
Candidatos con alta viralidad digital (Hernández 2022, Valencia 2026) acumulan momentum en Google Trends y mercados de predicción antes de que las encuestas lo reflejen.
El error crece cuanto más cercano está el candidato al arquetipo de "caballo oscuro" — outsider con baja base de sondeo pero alta energía de campaña.

La respuesta metodológica es no tratar las encuestas como el ancla estructural del modelo, sino como una de varias señales con un peso que decae con el tiempo. Las señales digitales — que se actualizan continuamente — asumen el liderazgo del estado del sistema.

2. Arquitectura de Señales de Entrada

2.1 Polymarket — La Señal Primaria

Se utiliza el mercado de ganador total de la presidencia en Polymarket ($8,017,157 en volumen al 12 de marzo de 2026). Este contrato premia a quien pronostique correctamente al ganador final, incluyendo segunda vuelta, lo que lo convierte en una estimación de probabilidad condicional a largo plazo con incentivos financieros reales.

¿Por qué Polymarket y no el mercado de primera vuelta?

El contrato de primera vuelta ($1.8M en volumen, baja liquidez) muestra divergencias masivas con el mercado total: ubica a Valencia en 7% cuando el mercado total la da en 38.5%. La baja liquidez permite que precios desactualizados persistan. El mercado de ganador total ($8M) tiene mayor eficiencia de precio y es el que se usa como señal principal.

El nivel de Polymarket se interpola entre los 9 puntos de datos disponibles (24 de enero al 12 de marzo) y se normaliza para que los 4 candidatos sumen 100%.

2.2 Google Trends Calibrado — La Señal de Momentum

Google Trends mide volumen de búsqueda relativo, no intención de voto. La conversión de una métrica a la otra requiere calibración empírica. Se construyó una tabla de ratios de corrección utilizando los resultados de 2018 y 2022:

Candidato 2026	Arquetipo (análogo histórico)	Ratio de corrección	Fundamento
Paloma Valencia	Derecha-establecimiento (Duque 2018: 1.43)	×1.40	Subestimado en búsquedas vs. voto real
Ivan Cepeda	Izquierda-establecida (Petro 2022: 1.08)	×1.00	GT y voto alineados para candidatos con alta base
Sergio Fajardo	Centrista (promedio 2018-2022: 1.14)	×1.15	Centro históricamente subestimado en búsquedas
A. de la Espriella	Viral-outsider (Hernández 2022: 0.91)	×0.91	Sobreestimado en búsquedas vs. voto real

La calibración implica que el empate bruto en Google Trends de marzo 2026 (Cepeda 21, Valencia 21) es engañoso: después de aplicar los ratios, Valencia alcanza ~32% y Cepeda ~23% entre los cuatro candidatos. Esto es consistente con la señal de Polymarket pero muy superior a las encuestas pre-8 de marzo.

2.3 La Señal Digital Compuesta

Polymarket y GT calibrado se combinan en una sola señal digital normalizada:

digital(t) = PM_normalizado(t) × 0.60 + GT_calibrado(t) × 0.40

Donde:

PM_normalizado = odds Polymarket ganador total ÷ suma de 4 candidatos × 100

GT_calibrado = GT_raw × ratio_arquetipo ÷ suma_corregida × 100

Polymarket recibe mayor peso (0.60) por incentivos financieros explícitos

Esta señal digital es el corazón del sistema. Encuestas, Kalman y gravedad la modifican — no la reemplazan.

2.4 Encuestas — El Ancla con Decaimiento Temporal

Se incorporan 7 encuestas de 6 firmas distintas, todas de campo entre enero y marzo de 2026. Cada firma recibe un peso empírico derivado de su MAE histórico en elecciones anteriores y el desempeño en la Gran Consulta del 8 de marzo:

Firma	Peso (w)	R Kalman = 25/w²	Fundamento
GAD3/RCN	0.82	37.1	Mejor firma en Gran Consulta Mar 8
Invamer	0.78	41.2	Mejor rigor territorial; penalizada por error Frente 2026
AtlasIntel	0.75	44.4	Mayor muestra; penalizada por controversia cuestionario
Guarumo/EcoAn.	0.68	54.0	Rendimiento mediano en ciclos anteriores
CNC	0.62	65.1	Mayor MAE histórico + contratos con gobierno Petro
Celag	0.58	74.3	Sin historial electoral colombiano

La fórmula R = 25/w² conecta el peso bayesiano con el ruido de observación en el Filtro de Kalman: una firma con w=0.82 (GAD3) mueve el estado latente más que una con w=0.62 (CNC), exactamente como hacen los pesos en el promedio ponderado.

3. Los Tres Sub-Modelos

Sub-modelo A: Bayesiano con Decaimiento Exponencial

Principio

El modelo bayesiano trata la señal digital como el prior (la estimación de base) y las encuestas como una verosimilitud que se aplica con peso λ, donde λ decrece exponencialmente con el tiempo transcurrido desde la última encuesta publicada.

estado_A(t) = digital(t) × (1 − λ) + encuesta_ancla(t) × λ

λ(días) = 0.55 × exp(−0.04 × días_desde_última_encuesta)

Interpretación:

días = 0 → λ = 0.55 → encuestas 55%, digital 45%

días = 11 → λ ≈ 0.35 → encuestas 35%, digital 65%

días = 30 → λ ≈ 0.17 → encuestas 17%, digital 83%

días = 75 → λ ≈ 0.03 → encuestas 3%, digital 97%

La encuesta_ancla es el promedio ponderado de todas las encuestas publicadas hasta el momento t. A 12 de marzo (11 días después de la última encuesta de campo), las señales digitales dominan con ~65% del peso.

La Corrección de Caballo Oscuro (DH)

Una capa adicional aplica la corrección histórica de patrón dark horse — el sesgo sistemático documentado en 2018, 2022 y la Gran Consulta de 2026:

Candidato	Ajuste (pp)	Confianza	Fundamento
Paloma Valencia	+11.5	0.72	Oviedo VP: patrón DH doble confirmado empíricamente
A. de la Espriella	−3.5	0.55	Valencia-Oviedo le absorbe el electorado de derecha-centro
Sergio Fajardo	+1.5	0.45	Centro históricamente subestimado, pero Oviedo capta ese espacio
Ivan Cepeda	0.0	0.90	GT y encuestas alineados; no hay señal DH activa

El ajuste no se aplica como corrección determinista sino probabilística: el estado corregido se mezcla con el estado base según DH_BLEND × confianza, y el resultado se reescala para preservar la suma total de votos.

corregido_c = estado_c + DH_adj_pp_c

salida_c = estado_c × (1 − DH_BLEND × conf_c) + corregido_c × DH_BLEND × conf_c

// DH_BLEND = 0.72 (calibrado sobre el error promedio observado 2018-2026)

// La suma total se preserva con reescalado posterior

Sub-modelo B: Filtro de Kalman Digital

Principio

El Filtro de Kalman es el más formalmente riguroso de los tres. Modela el estado latente (la intención real de voto, inobservable) como una variable que evoluciona en el tiempo con ruido de proceso Q, y lo actualiza recursivamente cada vez que llega una nueva observación de cualquier fuente.

La innovación clave respecto a un Kalman estándar es triple:

Inicialización: el estado inicial se fija en la señal digital (no en el promedio de encuestas), reduciendo la anchura de la banda de incertidumbre temprana para los candidatos mejor captados por los mercados.
Tres flujos de observación: GT calibrado, Polymarket, y encuestas se procesan como observaciones secuenciales con sus respectivos niveles de ruido R.
P₀ asimétrico: la varianza inicial es mayor para Valencia (P₀=120) que para Cepeda (P₀=30), reflejando la incertidumbre pre-consulta diferencial entre candidatos.

Predicción:

P(t|t-1) = P(t-1|t-1) + Q × pasos

x(t|t-1) = x(t-1|t-1) // modelo de caminata aleatoria

Actualización (para cada observación en orden cronológico):

K = P(t|t-1) / (P(t|t-1) + R) // Ganancia de Kalman

x(t|t) = x(t|t-1) + K × (z − x(t|t-1))

P(t|t) = (1 − K) × P(t|t-1)

Parámetros de ruido:

Q = 3.5 pp²/paso (proceso; elevado post-Gran Consulta para mayor volatilidad)

R_PM = 6 pp² (Polymarket: incentivos financieros → baja incertidumbre)

R_GT = 18 pp² (GT calibrado: indicador con mayor ruido estructural)

R_SV = 25 / w² (encuestas: inversamente proporcional al peso histórico)

Banda de Incertidumbre del 95%

La varianza residual P(t|t) permite construir intervalos de confianza formales: el estado se presenta con una banda IC95% = x ± 1.96√P. En la fase de proyección, P crece linealmente con Q por cada paso hacia adelante, ampliando la banda — lo que refleja fielmente que la incertidumbre aumenta con el horizonte temporal.

Sub-modelo C: Gravedad-Taylor

Principio

El modelo de gravedad toma prestado el lenguaje de la mecánica newtoniana para describir el momentum de los candidatos en los mercados de predicción. Se ajusta un polinomio de grado 3 sobre los 9 puntos de Polymarket disponibles (24 de enero al 12 de marzo), y se extraen la primera y segunda derivadas en el punto terminal como velocidad y aceleración.

Estado pasado (t ≤ Mar 12): interpolación lineal de PM_raw

Proyección (t > Mar 12) — Expansión de Taylor de orden 2:

x_C(t) = PM_Mar12 + vel × Δt + 0.5 × acc × Δt²

Donde Δt = días desde Mar 12.

Energía Cinética (indicador de momentum):

KE = 0.5 × masa × vel² (masa = probabilidad PM actual)

Los datos actuales (Mar 12) revelan asimetría extrema de momentum:

Candidato	PM Mar 12	Velocidad (pp/día)	Aceleración (pp/día²)	KE	Estado
Paloma Valencia	38.5%	+2.973	+0.198	170.1	Ascenso acelerado
A. de la Espriella	14.0%	−2.097	−0.117	30.8	Caída acelerada
Ivan Cepeda	42.0%	−0.072	−0.032	0.11	Frenado (repricing)
Sergio Fajardo	3.1%	−0.056	+0.007	0.00	Estable

El ratio KE Valencia/Cepeda es ~1,500×. La caída de Cepeda del 11 al 12 de marzo (−4pp en un día) no es una señal de campo sino repricing condicional: el mercado ajusta P(Cepeda gana en total) = P(pasa R1) × P(gana R2 vs Valencia), y al subir Valencia, baja el segundo factor.

Las proyecciones del modelo de gravedad están acotadas por los bounds históricos para evitar extrapolaciones físicamente absurdas (e.g., Valencia no puede superar 50% de primera vuelta dado el techo histórico documentado).

4. El Ensemble: Combinación Dinámica de los Tres Modelos

El estimado final no es el promedio simple de los tres sub-modelos. Los pesos varían según la fase temporal:

Fase	Criterio	Peso A (Bayes)	Peso B (Kalman)	Peso C (Gravedad)
Histórica	tIdx < Mar 18 — datos disponibles	38%	37%	25%
Proyección	tIdx ≥ Mar 18 — extrapolación hacia R1	33%	22%	45%

La lógica del cambio de pesos:

En la fase histórica, los tres modelos tienen datos similares y se equilibran. El Kalman recibe un peso ligeramente menor que Bayes porque no aplica la corrección DH.
En la proyección, el modelo de gravedad toma el protagonismo: es el que mejor captura el momentum actual de mercado y no necesita anclas de encuesta. Kalman pierde peso porque su banda de incertidumbre crece rápidamente hacia adelante.

4.1 La Banda de Incertidumbre del Ensemble

Además del estimado puntual, se calcula la dispersión entre los tres sub-modelos como medida de incertidumbre epistémica:

ensemble(t) = w_A × estado_A(t) + w_B × estado_B(t) + w_C × estado_C(t)

σ²(t) = (1/3) × Σᵢ [estado_i(t) − ensemble(t)]²

Banda = ensemble ± σ

Interpretación:

σ pequeño → los tres modelos coinciden → mayor confianza en el estimado

σ grande → divergencia de modelos → zona de alta incertidumbre epistémica

Esta banda es especialmente informativa: donde Bayes y Kalman divergen señala que la señal digital no se ha confirmado aún en encuestas de campo. Donde el modelo de gravedad diverge de los otros dos señala que el momentum de mercado está descontando un escenario que los indicadores de campo aún no ven.

5. Pisos y Techos Históricos

Ninguna proyección puede ignorar lo que sabemos de la geometría electoral colombiana. Cada candidato tiene un rango de posibilidades delimitado por la historia:

Candidato	Piso histórico	Techo histórico	Fundamento
Ivan Cepeda	22%	42%	Izq. piso: Petro 2018 (25.1%). Techo: Petro 2022 (40.3%).
A. de la Espriella	5%	32%	Sin base histórica sólida. Pico PM: 36-37% (enero-febrero).
Paloma Valencia	4%	50%	Analog. Hernández 2022 (19%→28.2%). Oviedo VP amplía techo.
Sergio Fajardo	2%	24%	Colapso 2022: 23.7%→4.2%. Centro fracturado por Oviedo VP.

Estos bounds se aplican como clamping duro en los tres sub-modelos y en el ensemble final. El techo de Cepeda en 42% es especialmente relevante: el récord absoluto de la izquierda colombiana en primera vuelta es 40.3% (Petro 2022), y superar ese umbral requeriría condiciones extraordinarias no presentes en 2026.

6. Limitaciones y Lo Que el Modelo No Puede Hacer

Advertencias metodológicas

No hay encuestas post-8 de marzo: el Gran Consulta fue el evento de información más importante del ciclo. Las primeras encuestas de campo con datos post-evento no llegarán hasta mediados de abril. El modelo está operando principalmente desde señales digitales durante este período.
Polymarket es un mercado de segunda vuelta, no de primera: los odds reflejan probabilidad de ganar la presidencia (incluyendo ballotage), no de pasar el primer corte. Las calibraciones del modelo intentan descontar esto, pero introduce incertidumbre estructural.
Google Trends tiene ruido alto a corto plazo: el spike del 8 de marzo (consultas) distorsiona las lecturas de las semanas circundantes. Se usa la lectura del 11 de marzo como estado base.
Los ratios de calibración GT se basan en sólo 6 candidatos de dos elecciones. La incertidumbre del ratio de Valencia (1.40) es alta — podría estar entre 1.20 y 1.65.
La corrección DH es probabilística, no determinista: el modelo asigna +11.5pp a Valencia con confianza 0.72, lo que se traduce en ~8.3pp de ajuste efectivo. Un escenario donde Fajardo o Espriella capturan ese voto de centro también es plausible.

7. Qué Haría Actualizar el Modelo Significativamente

El modelo tiene alta sensibilidad a tres tipos de eventos futuros:

Alta Prioridad

Primera encuesta post-Gran Consulta (esperada primera semana de abril, GAD3 o AtlasIntel): este dato moverá el Filtro de Kalman con el gain más alto del ciclo (K_GAD3 ≈ 0.5 dado el P acumulado). Si Valencia aparece en 20%+ en campo, el modelo convergería con Polymarket. Si aparece en 12-14%, la corrección DH bajaría a ~0.50.
Continuación de la trayectoria de Polymarket: si Valencia cruza 45% en el mercado de ganador total, el modelo de gravedad proyectaría un primer lugar técnico antes de la primera vuelta.

Prioridad Media

Inscripción y fórmula de Fajardo (esperada esta semana): si Edna Bonilla confirma como VP, el modelo de caballo oscuro para el centro se activaría con mayor confianza.
Debates presidenciales (calendarizados para abril-mayo): la señal GT es un buen indicador del impacto de debates — un pico sostenido de 5+ días post-debate sería señal confiable.

Prioridad Baja

Datos mensuales de Google Trends para abril 2026 (llegan con ~7 días de rezago después del cierre del mes).
Cambios en mercados menores (Metaculus, Manifold): servirían para triangular la señal de Polymarket en escenarios de alta incertidumbre.

8. Estado Actual del Modelo (Mar 12, 2026)

Candidato	Sub-modelo A	Sub-modelo B	Sub-modelo C	⊕ Ensemble	Campo prom.
Ivan Cepeda	~35%	~34%	~35%	~34.7%	34.7%
Paloma Valencia	~28%	~26%	~31%	~28.6%	6.6%
A. de la Espriella	~17%	~19%	~12%	~16.6%	22.4%
Sergio Fajardo	~5%	~5%	~3%	~4.5%	5.2%

La divergencia más informativa es Valencia: el ensemble (~28.6%) es 22 puntos porcentuales mayor que el promedio de campo (6.6%). Esta brecha es enteramente consecuencia de la señal digital post-Gran Consulta y la corrección DH. Es el análogo exacto de Hernández 2022: campo 19%, resultado real 28.2%.

Escenario central al 12 de marzo:

Segunda vuelta Cepeda vs Valencia con alta probabilidad (>80%). Cepeda pasa la primera vuelta entre 33-37%, por debajo del techo histórico de la izquierda. Valencia entra al ballotage con momentum positivo desde ~25-32%. Espriella en colapso acelerado hacia 12-16%. Fajardo como cuarto lugar consolidado en 4-6%.

Datos utilizados: Polymarket ($8M vol, ganador total); Google Trends Colombia (CSV sep 2025–mar 2026); 7 encuestas de campo (Guarumo×2, AtlasIntel, Invamer, Celag, CNC, GAD3) con datos de campo ene–feb 2026; resultados electorales Registraduría Nacional 2002–2022; resultados Gran Consulta 8 de marzo de 2026.

Código fuente: Dashboard interactivo en React/Recharts. Los tres sub-modelos se implementan como funciones puras en JavaScript sin dependencias externas de ML. El ensemble se recalcula en tiempo real al cambiar los parámetros del modelo.

Nota: Este análisis es exclusivamente de carácter metodológico y académico. No constituye asesoramiento político ni pronóstico oficial.

Observatorio electoral

1. Motivación: Por Qué las Encuestas No Son Suficientes

2. Arquitectura de Señales de Entrada

2.1 Polymarket — La Señal Primaria

2.2 Google Trends Calibrado — La Señal de Momentum

2.3 La Señal Digital Compuesta

2.4 Encuestas — El Ancla con Decaimiento Temporal

3. Los Tres Sub-Modelos

Sub-modelo A: Bayesiano con Decaimiento Exponencial

Principio

La Corrección de Caballo Oscuro (DH)

Sub-modelo B: Filtro de Kalman Digital

Principio

Banda de Incertidumbre del 95%

Sub-modelo C: Gravedad-Taylor

Principio

4. El Ensemble: Combinación Dinámica de los Tres Modelos

4.1 La Banda de Incertidumbre del Ensemble

5. Pisos y Techos Históricos

6. Limitaciones y Lo Que el Modelo No Puede Hacer

7. Qué Haría Actualizar el Modelo Significativamente

Alta Prioridad

Prioridad Media

Prioridad Baja

8. Estado Actual del Modelo (Mar 12, 2026)

Post a Comment

Featured Post

Duelos Sin Fronteras

Popular Posts

About Us

Recent Comments

Contact Us