Ese Backtest de 3,000% es Mentira: Así Funciona el Overfitting de EAs

Te encuentras un EA con curva de equity perfecta. 3,000% en cinco años, casi sin un arañazo de drawdown. Miras las capturas, los números son una locura, y algo en las tripas te dice “este es”. Lo compras, lo metes en live, y en pocas semanas sangra dinero como cualquier otro bot que has probado.

¿Familiar? Si has pasado por esto, no eras tonto. Estabas mirando un scam de backtest overfitting — y la industria entera de EAs está montada encima de esto.

Un backtest de 3,000% es de las cosas más fáciles de producir en trading algorítmico. Cargas data histórica en el Strategy Tester de MetaTrader, ajustas parámetros hasta que la curva queda preciosa, capturas. Listo. El vendedor sabe perfectamente que esa curva no va a funcionar live. Le da igual — para cuando te das cuenta, él ya está en el siguiente producto.

Y a mí esto me toca bastante los huevos, porque saben perfectamente lo que están haciendo. Es un scam puro y duro. MetaTrader 5 está haciendo un trabajo muy malo dejando que esos productos lleguen a posiciones tan altas en el marketplace.

El gap entre backtest y resultados live es la lección más cara del trading algorítmico, y la mayoría la paga más de una vez.

Qué significa “overfitting” de un backtest en cristiano

Piensa en overfitting como un estudiante que memoriza cada respuesta del examen del año pasado en vez de entender el tema. Cuando las preguntas cambian un poco, suspende. Un EA overfitteado ha hecho exactamente eso — ha memorizado patrones específicos de precio, fechas específicas, condiciones específicas. “Sabe” que el 14 de marzo de 2023 EURUSD cayó 47 pips después del open de Londres, y tiene una regla perfectamente calibrada para ese movimiento. Pero ese movimiento exacto no va a volver a pasar.

La mecánica es sencilla. La mayoría de EAs tienen parámetros ajustables: take-profits, stop-losses, periodos de indicadores, umbrales de entrada, filtros de sesión, y docenas más. Si tienes 50 parámetros ajustables y cinco años de data de precio, matemáticamente puedes encajar casi cualquier patrón. Cuantos más parámetros optimizas, más “perfecta” sale la curva del backtest — y menos probable es que refleje algo real o operable.

Esto es el núcleo del overfitting, y lleva directo a lo que los estadísticos llaman el problema de las comparaciones múltiples. Cómo funciona en la práctica: un desarrollador prueba 500 combinaciones de parámetros distintas en el Strategy Tester. Por puro azar estadístico, algunas de esas combinaciones van a producir resultados que parecen impresionantes sobre data histórica — no porque hayan encontrado un patrón real, sino porque la aleatoriedad, dado suficientes intentos, siempre produce patrones aparentes. El desarrollador escoge el mejor resultado y lo presenta como “la estrategia”. Las 499 configuraciones que fallaron nunca se mencionan.

La idea crítica: cuantas más combinaciones pruebas, más seguro es que tu mejor resultado es un artefacto estadístico y no un edge real.

La evidencia académica (no es opinión de un trader random)

Esto no es teoría que los traders discuten en foros. El problema de overfitting en backtesting está rigurosamente estudiado en investigación académica.

Lopez de Prado (2015), “The Probability of Backtest Overfitting”, publicado en el Journal of Computational Finance, proporciona el marco matemático para entender este problema. El paper formaliza cómo la probabilidad de seleccionar una estrategia overfit crece con el número de pruebas. En términos prácticos: cuantas más combinaciones de parámetros pasa un desarrollador por el optimizador, mayor la probabilidad de que el “mejor” resultado sea producto del azar y no de habilidad. El paper introduce métodos para estimar la probabilidad de que un backtest concreto esté overfit basándose en el número de pruebas y las características de las curvas resultantes.

Bailey, Borwein, Lopez de Prado y Zhu (2014), “Pseudo-Mathematics and Financial Charlatanism”, publicado en Notices of the American Mathematical Society, va más allá. Trata cómo los profesionales financieros — incluidos los vendedores de EAs — pueden usar backtesting múltiple para llegar a estrategias que parecen funcionar pero son estadísticamente insignificantes. Los autores demuestran que las prácticas estándar de backtesting, sin el ajuste apropiado para pruebas múltiples, producen resultados que son esencialmente ruido vestido de señal. Argumentan que mucho de lo que pasa por desarrollo cuantitativo de estrategias es, matemáticamente hablando, indistinguible de data mining sin hipótesis.

Conclusión de ambos papers: el overfitting de backtest se vuelve más probable cuantas más pruebas haces, y el “mejor” resultado es cada vez más un artefacto estadístico y no un edge real.

Cómo explotan los vendedores el overfitting

Los papers académicos están muy bien, pero te lo voy a decir sin filtros: la mayoría de vendedores de EA en MQL5 están ejecutando exactamente este playbook. No todos son deliberadamente deshonestos — algunos genuinamente no entienden qué están haciendo. Para tu cuenta es lo mismo. El workflow típico:

Genera cientos de combinaciones de parámetros. Los optimizadores modernos pueden testear miles de configuraciones automáticamente en horas.
Pasa todas por el Strategy Tester. Cada una produce una curva distinta, profit distinto, drawdown distinto.
Selecciona la de la curva más suave. Esa es la que va a quedar mejor en las capturas de marketing.
La presenta como “la estrategia”. Sin mención de cuántas combinaciones se testearon. Sin validación out-of-sample mostrada.
Vende rápido antes de que la performance live contradiga el backtest. Para cuando los compradores se dan cuenta, el vendedor ya está en el siguiente producto.

Cómo lo describí antes: lo compras, seguramente tengan un sistema con un alto win rate, dejas review positiva, después de un mes te has estampado y dices “pues no ha funcionado”. Has dejado la review positiva, has incitado a que cinco personas más entren, y en algún momento se estampa. ¿Qué pasa cuando se estampa? Lo borran y meten otro.

El survivorship bias agrava el problema. Solo ves los backtests ganadores porque los perdedores se borran. Si un vendedor testeó 500 configuraciones, te enseña el único mejor resultado y esconde los 499 que fallaron o quedaron mediocres. Desde tu perspectiva de comprador, ves una curva impresionante. Desde la perspectiva estadística, estás mirando al ganador inevitable de un gran sorteo aleatorio.

La estructura de incentivos de los marketplaces de EAs lo empeora. Los rankings de MQL5 Market van por compras recientes, no por performance live verificada a largo plazo. Un vendedor con backtest precioso que markete agresivo va a rankear por encima de un vendedor con estrategia modesta pero genuinamente robusta. El marketplace recompensa marketing sobre sustancia — y el overfitting es la herramienta de marketing más potente.

EA overfitteado vs EA robusto — comparativa directa

Antes de evaluar cualquier EA, usa esta tabla como referencia rápida. Captura las diferencias clave entre una estrategia construida para verse bonita en backtest y una construida para sobrevivir live.

Característica	EA overfitteado	EA robusto
Curva de equity	Sospechosamente suave, drawdown casi cero	Drawdowns realistas con periodos de recovery claros
Cantidad de parámetros	Muchos (20+) sin razón lógica clara	Pocos, cada uno con rationale de mercado claro
Test out-of-sample	No se muestra o ni se menciona	Periodos in-sample y out-of-sample explícitamente separados
Sensibilidad de parámetros	Cambios pequeños causan caídas dramáticas	Resultados similares con valores de parámetros cercanos
Live vs backtest	Divergencia significativa en semanas	Performance dentro del rango esperable del backtest
Disclosure de riesgo	Mínimo o ausente	Rangos de drawdown explícitos y peor caso
Explicación de la estrategia	“Algoritmo propietario”	Lógica clara: trend-following, mean-reversion, etc.

Si la mayoría de características caen en la columna izquierda, fuera. Si la mayoría cae en la derecha, el desarrollador al menos sigue prácticas de testing razonables — aunque eso solo no garantiza rentabilidad. Usa esta tabla cada vez que evalúes un EA nuevo. Imprímela si hace falta.

Cómo se ve un testing serio (lo que el 95% no hace)

Saber qué pinta tiene el overfitting es solo media ecuación. También tienes que entender qué implica un testing riguroso para distinguir desarrollo genuino de teatro de curve-fitting.

Walk-Forward Analysis

Esto es el gold standard para reducir riesgo de overfitting. El concepto es simple: divide la data histórica en dos segmentos. Usa el primero (in-sample) para optimizar la estrategia. Luego testea los settings optimizados sobre el segundo (out-of-sample) — data que la estrategia nunca ha visto. Si la performance colapsa en data no vista, la estrategia está casi seguro overfit. Una estrategia robusta debería mostrar performance degradada pero todavía positiva sobre data out-of-sample. Los desarrolladores profesionales repiten este proceso a través de múltiples ventanas rodantes para construir confianza.

Sensibilidad y estabilidad de parámetros

Una estrategia robusta muestra performance similar con valores de parámetros cercanos. Si tu EA usa take-profit de 50 pips y da resultados excelentes, debería dar resultados razonables también con 45 y 55. Si cambiar el TP por 5 pips destruye la estrategia, ese valor estaba curve-fitted a un patrón histórico específico. Busca estrategias donde la performance degrada gradualmente cuando los parámetros se mueven — no estrategias donde la performance cae por un acantilado.

Simulación Monte Carlo

El testing Monte Carlo aleatoriza el orden de los trades, precios de ejecución y otras variables para testear cuán robusta es la estrategia a condiciones del mundo real. Una estrategia que solo funciona con trades ejecutados en la secuencia histórica exacta es frágil. La simulación Monte Carlo revela si la rentabilidad depende de ordenamiento específico de trades o si aguanta bajo condiciones aleatorizadas — más cerca de lo que pasa de verdad en live.

Calidad y duración de la data

En nuestro proceso de testing requerimos mínimo 3 años de data con 99.9% de calidad de tick usando datos de Dukascopy. Es nuestro estándar interno, no una regla de la industria — pero refleja lo que creemos necesario para reducir riesgo de overfitting. Data de menor calidad o periodos más cortos hacen más fácil que el overfitting se esconda porque hay menos puntos de data para exponer debilidades.

Tamaño de muestra mínimo

Una estrategia necesita suficientes trades para ser estadísticamente significativa. Un backtest con 10 trades ganadores no prueba nada — la muestra es demasiado pequeña para distinguir habilidad de suerte. Generalmente quieres ver cientos de trades a través de condiciones distintas antes de sacar conclusiones. A menos trades en un backtest, más probable que los resultados estén impulsados por aleatoriedad.

Preguntas para hacer a cualquier vendedor sobre su testing

Con este conocimiento, estas son las preguntas específicas que separan desarrolladores serios de los que venden backtests optimizados. Hazlas antes de comprar cualquier EA:

“¿Qué porcentaje de tu data usaste para optimización vs validación?” Si la respuesta es “toda” o cara de póker, la estrategia no se validó sobre data no vista.
“¿Cuántas combinaciones de parámetros testeaste antes de seleccionar los settings finales?” Cuanto más alto sin ajuste estadístico apropiado, más probable es que el resultado esté overfit.
“¿Me enseñas performance sobre data en la que la estrategia NO fue optimizada?” Los resultados out-of-sample son la evidencia más importante. Si no pueden o no quieren mostrarlos, red flag enorme.
“¿Qué pasa con la performance si cambio el take-profit por 10 pips?” Esto testea sensibilidad de parámetros. Una estrategia robusta tolera pequeñas variaciones. Una overfit no.
“¿Cuál es el peor drawdown que debería esperar, y en qué basas esa estimación?” Los desarrolladores serios pueden explicar rangos de drawdown esperables. Los vendedores de backtests muchas veces no, porque el drawdown del backtest es irrealmente bajo.

Si un vendedor no puede responder estas preguntas claro, o se pone a la defensiva cuando se las haces, eso te dice algo importante sobre su proceso. Los desarrolladores transparentes reciben bien estas preguntas porque las respuestas apoyan su trabajo. Los que venden estrategias overfit las evitan porque las respuestas los expondrían.

La excepción de los EAs con IA — y por qué importa

Aquí la ironía: la única categoría de EAs donde el overfitting es estructuralmente imposible es la que la mayoría todavía mira con escepticismo — EAs integrados con IA que hacen llamadas API en tiempo real a modelos como GPT-5.5, Claude o Gemini.

Estos sistemas no se pueden backtestear en el sentido tradicional porque los modelos no existían durante el periodo histórico. No puedes simular qué habría dicho GPT sobre un gráfico en 2021 — no estaba disponible entonces. Eso significa que no hay data histórica a la que hacer overfitting. La única forma de verificarlos es forward testing y tracking de performance live. Que es exactamente como debería ser.

Por eso construimos Alpha Pulse AI así — conecta a modelos de IA reales vía API y depende enteramente de resultados live verificados, no de backtests optimizados. Puedes ver su Myfxbook público — el tipo de transparencia que los vendedores de EAs overfit nunca ofrecen.

FAQ

¿Un mal backtest significa que el EA está definitivamente overfit?

No necesariamente. Un backtest puede verse poco impresionante por muchas razones — settings conservadores, modelado realista de slippage, inclusión honesta de drawdowns. Irónicamente, un backtest con drawdowns visibles y periodos imperfectos suele ser más confiable que una curva perfecta. Una curva perfecta debería levantarte más sospecha que una realista, porque los mercados reales nunca son suaves.

¿Puedo detectar overfitting yo mismo?

Sí, en buena medida. Pide al vendedor resultados out-of-sample. Si los da, compáralos con los in-sample. También puedes testear sensibilidad de parámetros si tienes acceso a los settings: cambia parámetros clave por pequeñas cantidades y mira si la performance se mantiene. Si cambios pequeños causan caídas dramáticas, los settings originales estaban probablemente curve-fitted.

¿Cuál es el periodo de backtest mínimo seguro?

En nuestra opinión, 3 años es el mínimo con data tick de alta calidad. Esto asegura que la estrategia ha estado expuesta a distintos regímenes de mercado — periodos en tendencia, en rango, eventos de alta volatilidad, consolidaciones de baja volatilidad. Backtests más cortos pueden capturar solo un régimen, haciendo fácil que una estrategia se vea bien sin ser genuinamente robusta.

¿Por qué los vendedores siguen haciéndolo si todos sabemos esto?

Porque vende. La mayoría de compradores no saben qué es overfitting. Un vendedor con backtest precioso vende más que uno con resultados modestos pero honestos. Y MetaTrader 5 está haciendo un trabajo muy malo dejando que esos productos lleguen a posiciones tan altas en el marketplace. Mientras eso no cambie, el ciclo se repite.

¿Cómo evalúo un EA si no me fío de su backtest?

Forward test verificado público (Myfxbook con investor password, mínimo 3-6 meses). Performance live consistente con backtest (si te enseñan ambos). Disclosure honesto de drawdowns y peor caso. Sensibilidad de parámetros baja. Y un desarrollador con cara, nombre y trayectoria pública — no un vendor anónimo que mañana borra la web.

Recursos

Alpha Pulse AI — EA con IA real, imposible de overfit por arquitectura, Myfxbook público con +179 trades
EA Gratis USDJPY MT5 — Testea un EA real en demo antes de comprometer capital
Newsletter de DoItTrading — Desmonto EAs y red flags de overfitting cada semana
Axi Select — Escala capital con base a performance live verificada, sin fees de challenge

Diego Arribas

Founder · DoItTrading

Building MT4/MT5 expert advisors and writing about prop-firm scaling since 2021. Currently running Alpha Pulse AI live on XAUUSD and trading Axi Select in parallel. I write what I'd want to read before paying for any of this myself.

All Insights → Trading Bots → Newsletter → Twitter →

Ese backtest perfecto es un truco de venta — así funciona el overfitting de EAs