Tradit Beta ·

Tradit Beta.
Reporte 16 meses.
Qué falló y qué funcionó.

Enero 2025 → Abril 2026: 16 meses de trabajo continuo. En anexo se analizaron 808 días continuos del mercado Bitcoin (1.16M candles 1m), 36+ APIs de mercado, derivados, macro y narrativa, y 21,954 scans del sistema cognitivo en producción. Doce líneas experimentales. Más de 400 scripts. Un foundation model de IA entrenado a la medida.

Tradit Beta — Reporte 16 meses

Durante 16 meses construimos un producto funcional de trading automatizado sobre Bitcoin. En el camino, los resultados nos enfrentaron a obstáculos estructurales que reordenaron la dirección del trabajo. Bitcoin y el resto del mercado cripto se volvieron progresivamente más institucionales — los flujos dejaron de explicarse por dinámicas on-chain puras y pasaron a depender de ETFs, derivados, macro y narrativa cross-asset —, y al mismo tiempo el consumidor sofisticado se desplazó hacia productos AI-first y AI-native, redefiniendo qué espera de una herramienta de mercado. Iterar y experimentar sobre esos dos frentes — el mercado nuevo y el usuario nuevo — es lo que terminó produciendo este pivot.

El proceso fue continuo: backtesting riguroso sobre 808 días de Bitcoin a granularidad de minuto y, en paralelo, una puesta a prueba seria de lo que la industria está apostando hoy — agentes LLM de IA tomando decisiones de trading de forma autónoma. Cada hipótesis se diseñó como una pregunta cerrada, con kill condition explícita y validación estadística — sin narrativa, sin ajustes salvavidas.

Lo que la evidencia produjo fue, en parte, contraintuitivo. Mejorar la herramienta — el contexto estructurado que recibe el agente — generó retornos más consistentes que mejorar el modelo, refinar el prompt o aumentar la frecuencia de decisión. Y aun sobre la mejor herramienta, un agente LLM operando solo sigue siendo imperfecto en la gestión autónoma de capital: su rendimiento depende del modelo subyacente, del coste por token, del tamaño de su ventana de contexto, y especialmente del monto y diversificación del portafolio que administra. La rentabilidad de un agente es relativa — no absoluta — y ningún agente, por sí solo, gana consistentemente bajo todos los regímenes de mercado.

El hallazgo más valioso del trabajo, sin embargo, no fue ese límite — fue el activo que emergió al intentar superarlo. El engine que construimos para alimentar a los agentes — un sistema que clasifica el régimen del mercado, atribuye drivers cross-asset, detecta saturación narrativa y opera 24/7 con calibración auditable — resultó ser exactamente la pieza que hoy le falta a cualquier proyecto LLM-trading. Tradit deja de prometerse como un agente que predice precio y se redefine como la capa de Agent Market Intelligence sobre la cual cualquier agente — propio o de terceros — puede decidir mejor. El resto de este informe documenta cómo llegamos a esa conclusión, con qué evidencia, y bajo qué metodología.

Evidencia · datasets descargables

Los datos crudos sobre los que corrió todo el backtesting están disponibles públicamente, comprimidos por categoría. Cualquier afirmación de este informe es reproducible re-ejecutando los scripts del repositorio sobre estos archivos.

Categoría Tamaño crudo Archivo
Tradit Engine — PostgreSQL dump (snapshot 2026-05-04) 811 MB tradit_defaultdb_20260504T023120Z.sql.gz
Hyperliquid Reservoir (1s candles, fills, liquidaciones) · split en 25 partes 7.2 GB hydromancer.tar.gz.part-aa…aw
Chunks Lance (datasets versionados) 500 MB chunks.tar.gz
Velas BTC/USDT (1m, 808 días) 221 MB candles.tar.gz
Coinglass (liquidaciones, OI, FGI, ETF flows) 3.7 MB coinglass.tar.gz
Stablecoins (supply, flujos) 1.8 MB stablecoin.tar.gz
Open Interest (cross-exchange) 1.6 MB oi.tar.gz
DXY (dollar index) 1.5 MB dxy.tar.gz
Funding (perp funding rates) 324 KB funding.tar.gz
Options (deribit, IV/skew) 256 KB options.tar.gz
Oil (CME, USO) 244 KB oil.tar.gz
Análisis derivados (CSV consolidados) 48 KB analysis.tar.gz

Hydromancer — descarga y reensamble

El archivo de Hyperliquid Reservoir (~6.3 GB comprimido) se subió en 25 partes de 280 MB cada una para sortear el límite de subida single-PUT del proveedor. Para descargarlo y reensamblarlo:

# Descargar las 25 partes
for p in {a..a}{a..w}; do
  curl -fLOs "https://data.tradit.co/hydromancer.tar.gz.part-a$p"
done

# Reensamblar
cat hydromancer.tar.gz.part-* > hydromancer.tar.gz

# Verificar sha256 contra el manifest
shasum -a 256 hydromancer.tar.gz
# debe coincidir con MANIFEST.json → items[].sha256

# Extraer
tar -xzf hydromancer.tar.gz

El MANIFEST.json tiene el sha256 del archivo completo y la lista exacta de partes (campo split_into). Las demás categorías (candles, chunks, etc.) son tar.gz únicos — descarga directa con curl -O.

TL;DR ejecutivo

En 16 meses (Enero 2025 → Abril 2026) el trabajo de backtesting y experimentación produjo dos resultados que separan claramente lo que falla de lo que funciona en el espacio del trading algorítmico moderno.

Lo que falló — hipótesis invalidadas con datos

  1. Predecir precio con patrones de velas. El experimento más grande del programa (144 scripts en 24 fases) produjo un PnL de motor puro de trading de aproximadamente $-26 sobre 808 días. El único componente que generó retorno consistente fue carry de funding (51% del PnL total, positivo en 25 de 27 meses) — y eso no es una estrategia descubierta, es una anomalía estructural del mercado de derivados. Veredicto estadístico: p=0.073 — el motor sobre velas no supera el ruido con confianza.
  2. Confiar en estrategias técnicas populares. Replicamos 30 estrategias TradingView populares (37 variantes), incluyendo varias con miles de favoritos, sobre 808 días con costos reales: solo 1 de 37 supera Buy & Hold. La estrategia más favoriteada de la muestra (cruce de medias móviles, 8.8K favoritos) entrega Profit Factor 0.65 y -$98 sobre $1K. La popularidad pública no correlaciona con edge real — correlaciona con curve-fitting visible y omisión sistemática de costos.
  3. Asumir que un modelo de IA entrenado sobre velas resuelve el problema. Fine-tuneamos un foundation transformer (Kronos-mini, 4.1M parámetros pre-entrenado en 12B candles de 45 exchanges) con 19,392 velas propias de BTC/USDT. La direction accuracy subió de 47% → 63% (+16pp), pero el ejercicio confirmó la tesis de fondo: un modelo entrenado sobre velas no es confiable como predictor direccional para decisiones de capital. Su único uso defendible es como señal negativa — cuando su confianza cae, indica que el mercado se está moviendo por causas externas al precio y hay que dejar de mirar las velas.
  4. Operar agentes LLM como portfolio managers autónomos. La evidencia pública (Alpha Arena, octubre 2025: $60K reales, 6 modelos de frontera, 17 días) y nuestros propios experimentos convergen: los LLMs sobre-tradean, sostienen tesis contra evidencia, fallan en la disciplina de abstención, y carecen de memoria calibrada de su propia tasa de acierto. El cuello de botella no es la inteligencia — es el contexto de mercado que reciben.

Lo que funcionó — hipótesis validadas con datos

  1. El contexto cross-asset SÍ predice mejor que random cuando se mide con rigor. Tres features con ICIR > 1.5 (liquidaciones, retorno de coins, bonos US 10Y). Cuatro señales binarias con Hit Rate 75-100% y N suficiente: equity crash >2%, cascada de liquidaciones P99→P90, ETF outflows >$400M, DXY al alza >0.5%. Las señales que sí funcionan viven afuera del precio.
  2. El régimen del mercado decide el resultado, no la estrategia. El mismo sistema gana o pierde según la fase (trending/ranging/crisis/recovery). Clasificar el régimen y abstenerse fuera de él es un edge mayor que mejorar cualquier indicador.
  3. Los catalizadores externos se pueden detectar antes de que el precio reaccione. El 7 de abril de 2026, una resolución geopolítica movió oil -17.3% y BTC de $69K a $72.7K en horas. Las velas no podían anticiparlo. Pero el grafo causal del engine — oil + narrativa + ETF flows + news velocity — sí lo capturó en tiempo real.
  4. Construir un engine que integre todo lo anterior en tiempo real es factible y está hecho. En producción 24/7: 36+ APIs, pipeline de 12 capas, 33-55 señales bipolares con causa física documentada, 21,954 scans grabados, 3 procesos persistentes sin caídas significativas. Este engine sabe leer las direcciones que está tomando el mercado y atribuir los drivers que las explican.

Implicación de producto: Tradit deja de prometer "predecir el precio" o "construir el agente que más gana". Pasa a vender lo que el backtesting demostró que sí funciona: una capa de Agent Market Intelligence — el engine que clasifica régimen, atribuye drivers, detecta saturación narrativa y calibra públicamente — sobre la cual cualquier agente (humano o LLM) puede decidir mejor.

Abstract

Este informe documenta qué falló y qué funcionó en 16 meses de backtesting y experimentación cuantitativa sobre Bitcoin (Enero 2025 → Abril 2026). El propósito fue separar con datos las hipótesis viables de las hipótesis que la industria del trading algorítmico — y los nuevos proyectos de agentes LLM-trading — siguen persiguiendo a pesar de la evidencia en contra.

El punto de partida fue concreto: un agente de inteligencia artificial — un LLM con instrucciones — toma decisiones de trading equivocadas cuando opera con contexto insuficiente. Experimentos públicos a gran escala con modelos de frontera lo han demostrado con dinero real (ver la sección de contexto). La hipótesis de partida fue que el problema no se resuelve con un mejor modelo, ni con un mejor prompt, ni con más datos crudos — se resuelve dándole al agente un grafo causal estructurado del mercado que indique qué dirección está tomando, qué drivers la explican, y con qué nivel de confianza. Para construirlo había que primero entender, con rigor estadístico, qué información del mercado sí predice y cuál es ruido.

A lo largo de los 16 meses se ejecutaron doce líneas experimentales independientes (más de 400 scripts numerados) sobre 808 días continuos de Bitcoin a granularidad de minuto, en paralelo con la construcción de un engine de cognición de mercado que hoy corre 24/7 (36+ APIs integradas, pipeline de 12 capas, 21,954 escenarios grabados).

Lo que el backtesting demostró que NO funciona

  1. Predecir el precio con patrones de velas. El experimento más grande (144 scripts en 24 fases) no superó el ruido con confianza estadística (p=0.073). El portfolio "ganador" solo es positivo por una anomalía estructural de carry de funding (51% del PnL), no por edge real.
  2. Confiar en estrategias técnicas populares. Replicación honesta de 30 estrategias TradingView populares: solo 1 de 37 supera Buy & Hold con costos reales. La popularidad pública no correlaciona con edge real.
  3. Asumir que un modelo de IA entrenado sobre velas resuelve el problema. Fine-tuneamos un foundation transformer (Kronos-mini, 4.1M parámetros) sobre datos propios. La direction accuracy subió de 47% a 63%, pero esto solo confirmó la tesis de fondo: un modelo entrenado sobre velas no es confiable como predictor direccional para tomar decisiones de capital.

Lo que el backtesting demostró que SÍ funciona

  1. Identificar la dirección del mercado a partir del contexto cross-asset y del régimen. Las señales que sí predicen viven afuera del precio: liquidaciones, equity, bonds, ETF flows, DXY, sentiment narrativo. Tres features con ICIR > 1.5 (Tier S). Cuatro señales binarias con Hit Rate 75-100% y N suficiente. La misma estrategia gana o pierde según el régimen.
  2. Construir un engine de cognición de mercado que integre todo lo anterior en tiempo real. El sistema en producción ya clasifica régimen, atribuye drivers, detecta saturación narrativa e identifica catalizadores externos antes de que se reflejen en el precio (caso documentado: 7 de abril 2026, BTC $69K → $72.7K).

Conclusión. La hipótesis viable que sobrevive a 16 meses de evidencia no es "construyamos un agente que prediga el precio" — esa hipótesis falla, tanto en nuestros experimentos como en los públicos. Es "construyamos el engine que le diga al agente qué dirección está tomando el mercado, por qué, y con qué nivel de certeza". Esto abre el producto a una capa de Agent Market Intelligence: contexto estructurado, calibrado y verificable que cualquier agente — propio o ajeno — puede consumir para decidir mejor.

Contexto: agentes LLM en trading

Un agente de inteligencia artificial es, en su núcleo, un Large Language Model al que se le entrega un set de instrucciones (system prompt), herramientas y un contexto de la situación. El agente razona sobre ese contexto y decide. Pero el modelo subyacente fue entrenado para optimizar coherencia textual en un corpus heterogéneo — no para optimizar PnL ajustado por riesgo en un mercado adversarial. Esa brecha de entrenamiento se traduce en patrones predecibles de error cuando el agente opera con contexto pobre: sobre-trading, sesgos de recencia, activación por narrativas en vez de por estructura, dificultad para abstenerse, dificultad para manejar leverage, y cero memoria calibrada de su propia tasa de acierto.

Esta no es una hipótesis especulativa. Hay evidencia pública a gran escala.

El experimento Alpha Arena (nof1.ai, octubre 2025)

En octubre de 2025, nof1.ai organizó Alpha Arena, una competencia donde los seis modelos de frontera más capaces del mundo — GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4, DeepSeek y Qwen3 — recibieron $10,000 USD reales cada uno ($60,000 totales) para operar futuros perpetuos con hasta 20x de leverage en Hyperliquid durante 17 días, sin intervención humana.

  • Qwen3 ganó la competencia operando solo 43 trades en 17 días — disciplina de abstención.
  • Gemini 2.5 Pro perdió ejecutando 238 trades — sobre-trading que consumió >$600 solo en fees, antes de contar el PnL direccional.
  • Modelos con razonamiento más sofisticado en benchmarks tradicionales no necesariamente operaron mejor que modelos más simples, porque el benchmark relevante en trading no es el reasoning en abstracto, sino la contención de impulsos y la consistencia bajo incertidumbre.

La lección estructural: operar con LLMs sin un sistema de contexto que los ancle al estado real del mercado lleva a pérdidas predecibles y reproducibles, incluso para los modelos más avanzados disponibles. El problema no es la inteligencia del agente — es la pobreza del contexto que recibe.

Otros casos públicos convergentes

Iniciativas paralelas (Hyper-Alpha-Arena, llm-tradebot, varios bots LLM-driven publicados en 2025-2026) muestran patrones equivalentes: el agente actúa como respondería un trader humano novato — entra por narrativa, sostiene contra la evidencia, dimensiona mal, no sabe cuándo no operar. La capa que falta no es "más modelo": es el contexto estructurado del mercado que un trader profesional sí tiene en su cabeza y un LLM no tiene en su prompt.

Cómo se traduce en Tradit

La conclusión es directa: si el cuello de botella del agente es el contexto, entonces el activo más valioso a construir no es el agente — es el sistema que produce ese contexto, lo calibra, y lo entrega de forma estructurada. Eso es exactamente lo que el engine de cognición de mercado de Tradit hace hoy.

Construir ese sistema exigió responder con datos a preguntas que en la industria suelen asumirse sin verificar:

  • ¿Qué señales de mercado predicen mejor que random, con qué N, con qué tasa de acierto y bajo qué régimen?
  • ¿Qué estrategias técnicas que la industria vende como "ganadoras" sobreviven realmente a paper trading con costos reales?
  • ¿Hay un edge en las velas, o el edge vive en el contexto cross-asset?
  • ¿Puede un foundation model, fine-tuneado con datos propios, aportar señal incremental — y de qué tipo?
  • ¿Cómo se mide la calibración de un sistema probabilístico de forma pública y verificable?

Cada una de las doce líneas experimentales documentadas en este informe responde una de esas preguntas. Los resultados — agradables o no, esperados o no — son la base sobre la cual se construye el resto del producto.

2. Lo que se construyó (en números)

CapítuloMétrica
Líneas experimentales completadas12
Scripts numerados ejecutados~400+ (144 en la línea principal de estrategia, 30 en benchmarks, 20 en brújula técnica, 14 en calibración, 12 en derivados, etc.)
Datos crudos capturados9.2 GB locales
Candles BTC/USDT 1m1,163,520 velas (Enero 2024 → Marzo 2026, 808 días continuos)
Snapshots del engine v1 en producción10,228 (cada ~12 min, 47+ campos)
Scans grabados del engine cognitivo v221,954 (Marzo–Abril 2026, intervalo 15 min)
APIs integradas36+ (Binance, Coinglass, TwelveData, Yahoo CME, Coinbase, CoinGecko, DefiLlama, Brave, Dune, Kalshi, Polymarket, Google News, Santiment, FRED, etc.)
Pine Scripts replicados de TradingView7 (con 7 CSVs ≈ 1,360 trades — runner validado con 100% de match en KST)
Modelos de IA fine-tuneados1 (4.1M parámetros, 19,392 velas, 2.5 horas en Apple M1)
Propuestas de arquitectura escritas45 documentos numerados
Documentos de investigación base40+ (costos reales, Monte Carlo, anti-overfitting, walk-forward, Kelly, attention-based trading, etc.)
Procesos persistentes en producción3 (scan cada 15 min, labels diario, daemon de WebSockets de liquidaciones 24/7)

3. Cronología, metodología y estructura del trabajo

Los experimentos se ejecutaron en una secuencia no lineal: cada uno respondió una pregunta distinta, invalidó una hipótesis con datos y dejó un aprendizaje que el siguiente recogió.

Contexto previo: existieron 17 iteraciones anteriores que quedaron archivadas como referencia. El proyecto se reinició desde cero en marzo de 2026 con una metodología nueva basada en 18 documentos de research base (trading costs, Monte Carlo, CPCV, anti-overfitting, walk-forward, attention-based trading, Kelly criterion, Smart Money Concepts, mental model del trader experto, etc.).

3.1 Laboratorio de fundamentos — ocho líneas paralelas

Ocho experimentos ejecutados en paralelo para medir antes de teorizar. Cada uno fue una sonda distinta al mar de datos, con metodología, datasets y validación independientes. La mesa de trabajo siguió un protocolo común: (a) hipótesis pre-registrada con su kill condition explícita, (b) ejecución sobre los 808 días continuos de BTC/USDT con costos reales (commission Binance Futures + slippage 0.5 ticks + funding rate hourly), (c) validación mediante walk-forward purgado y/o Monte Carlo + corrección por multiple testing (Holm-Bonferroni), y (d) veredicto binario sobre la kill condition antes de cualquier "ajuste".

Línea A — Techo teórico ("perfect trader")

  • Pregunta: ¿cuál es el techo absoluto de PnL si tuviéramos un oráculo perfecto que detectara cada swing del mercado?
  • Metodología: detector de swings con ZigZag adaptativo (threshold dinámico por ATR(14) escalado al régimen de volatilidad), entry/exit en pivots ideales, costos reales aplicados.
  • Datos: 808 días, 1.16M candles 1m → resampleados a 5m para detección de swings significativos.
  • Resultado: 174 swings detectados que suman 668% de oportunidad teórica acumulada.
  • Hallazgo metodológico colateral: la corrida del runner detectó 6 bugs internos (drawdown reportado como 0%, funding no descontado, DCA con offset incorrecto de 10 días, equity con mismatch de 1 bar, slippage ignorado en stop-loss, fee asimétrica long/short). Esto convirtió el experimento en calibración del propio runner.
  • Función: upper bound contra el cual medir cualquier estrategia real.

Línea B — Mapeo de olas

  • Pregunta: ¿cuántas oportunidades de movimiento existen realmente si bajamos el threshold de detección a niveles micro?
  • Metodología: mismo detector ZigZag con threshold barrido en grid {0.5%, 1%, 2%, 3%, 5%}. Conteo de "olas" como swings completos con cambio de signo.
  • Resultado: 2,771 olas identificadas con threshold 0.5%. Distribución por amplitud confirma una ley de potencia.
  • Hallazgo central: en los 86 días de bear neto (-20%), BTC produjo cientos de % de movimiento en ambas direcciones. La conclusión cualitativa — "no cayó, se movió" — refuta la narrativa de "mercado quieto durante un crash".

Línea C — Atlas de derivados

  • Pregunta: ¿avisaron los derivados (funding, OI, taker volume, L/S ratio, basis) antes de movimientos grandes del subyacente?
  • Metodología: 28 señales binarias definidas a priori. Test contra movimiento de BTC en t+{1h, 4h, 24h}. Validación: Monte Carlo de 1,000 permutaciones + corrección Holm-Bonferroni. Versión continua: cálculo de ICIR rolling.
  • Resultado: 0 de 28 señales binarias sobreviven la corrección por multiple testing. Como features continuas, los ICIR rondan -0.83 a -1.48.
  • Veredicto: los derivados no funcionan como trigger directo — pero sí aportan información para sizing (ajustar tamaño) y como veto (abstenerse en condición extrema).

Línea D — Cross-asset intelligence

  • Pregunta: ¿qué activos correlacionados con BTC predicen mejor que random?
  • Metodología: 25 features cross-asset: liquidaciones, S&P 500, USDX, oro, oil, VIX, bonos US 10Y, MSTR, COIN, mining stocks, on-chain (Puell, NUPL), Fear & Greed, etc. Cálculo de ICIR sobre ventanas rolling. Tres tiers (S/A/B) según ICIR absoluto > {1.5, 1.0, 0.5}.
  • Datos: TwelveData, Yahoo Finance, Coinglass, Alternative.me (FGI desde 2018, 2,946 días), Glassnode/CoinMetrics-equivalent (Puell Multiple desde 2010, 15 años).
  • Resultado: 3 features Tier S (ICIR > 1.5): liq_long_ratio (-2.61), coin_ret (+2.20), US 10Y bonds (+1.52).
  • Implicación: la información que sí predice vive afuera del precio de BTC. Las velas son efecto; las causas están en los activos correlacionados.

Línea E — Laboratorio de calibración

  • Pregunta: ¿qué tasa de acierto tienen las señales individuales con N estadísticamente válido?
  • Metodología: 14 scripts independientes. Solo se promueven a "Tier 1" señales con HR > 70% y N > 8.
  • Resultado — 4 señales Tier 1:
    • Equity crash > 2% en sesión US → HR 100% (N=8) para BTC drop > 1.5% en t+24h.
    • Cascada de liquidaciones P99 → P90 en <2h → HR 87.5% (N=8) para mean reversion en t+4h.
    • ETF outflow > $400M en una sesión → HR 75% (N=32) para BTC drop en t+72h.
    • DXY ↑ > 0.5% diario → HR 75% (N=16) para BTC drop en t+24h.
  • Limitación honesta: N pequeño en las señales más fuertes — Bayesian update sostiene los priors pero el rango creíble es amplio.

Línea F — Arena de benchmarks

  • Pregunta: ¿cuánto vale en datos reales lo que la industria del backtesting vende como "ganador"?
  • Metodología: replicación literal de 30 estrategias TradingView populares (Pine Script abierto + scrap del CSV oficial). 37 variantes. Validación cruzada: runner propio vs CSV oficial debe dar 100% match en estrategias de referencia (KST como gold standard).
  • Resultado: solo 1 de 37 supera Buy & Hold: SuperTrend AI con threshold de score ≥ 65/100. PnL = +$715 sobre $1K en 808 días.
  • El resto pierde o empata. La estrategia más favoriteada de la muestra (cruce de medias móviles, 8.8K favoritos en TradingView): Profit Factor 0.65, -$98 sobre $1K. RTB (Renko Trend Breaker): -$559.
  • Conclusión publicable: la popularidad de una estrategia en una plataforma pública no correlaciona con su edge real.

Línea G — Mapeo de movimientos en bear (complemento de B)

Análisis específico de los 86 días de bear -20%, descomponiendo el movimiento neto en sub-trayectorias positivas y negativas, para validar oportunidad de trading bidireccional incluso en mercado en caída neta.

Línea H — Validación cross-source

Línea metodológica que valida cada feature contra al menos dos fuentes independientes (ej. funding rate de Binance vs Coinglass agregado, ETF flows de Dune on-chain vs Bloomberg agregado) y descarta features con discrepancia > 5% sin causa explicable.

Lección transversal del laboratorio: la mayoría de las "señales" técnicas son ruido. Las pocas que predicen viven en derivados, cross-asset o régimen — y solo si se aplica el contexto correcto y se respetan las kill conditions. La industria publica métricas optimistas porque omite costos, omite multiple testing, y selecciona el período de reporte. Cuando se aplica metodología honesta, el 95% de las "estrategias ganadoras" no sobreviven.

3.2 Primera estrategia con $1,000 — el caso del backtest auto-invalidado

  • Hipótesis: una estrategia simple, alimentada por las señales del engine v1, debería superar a Buy & Hold durante un período de bear neto.
  • Metodología: 6 estrategias sobre 87 días de snapshots del engine v1, con $1,000 de capital inicial, una sola posición a la vez, sizing fijo, costos reales.
  • Resultado nominal: S1 trend-follower ganó +$24 (+2.44%) mientras BTC caía -19%. PF 1.42, Sharpe 3.73.
  • Auditoría posterior: detectó bugs P0:
    1. Lookahead de precios futuros en 40% de los snapshots.
    2. Trades duplicados por race condition en el state machine.
    3. Ecuación de equity mal cerrada — fees no descontados en cierres parciales.
  • Veredicto: los números originales fueron invalidados. El experimento se archivó como artefacto histórico y se publicó un postmortem con la cadena exacta de detección.
  • Lecciones que cambiaron todo lo posterior:
    1. Runner valida runner: sin un benchmark conocido (CSV de TradingView con 100% de match) no se puede confiar en ningún número propio.
    2. Auditoría reproducible o no es número.
    3. Tres líneas de defensa: (i) fixture conocido, (ii) Monte Carlo de la lógica, (iii) auditoría manual de muestra.

3.3 Place selection — grid trading temporal

  • Hipótesis: en vez de predecir a dónde va BTC, cambiar la pregunta a dónde está oscilando.
  • Metodología: 5 hipótesis de grid trading sobre 87 días. H1 grid uniforme 24/7. H2 grid restringido a ventana 14:00-19:00 UTC. H3 grid + PDE Governor. H4 grid + filtro de FGI. H5 grid adaptativo.
  • Resultado: solo H2 fue positiva (+$1.10, Sharpe +3.78). El edge venía de la concentración temporal. H3 resultó idéntica a H1 sin filtro — caso de estudio interno para parsimonia.
  • Lección: concentrar actividad en ventanas líquidas es la mitad de la batalla. Las horas de baja volatilidad nocturna destruyen ciclos de grid.

3.4 Multi-Asset (BTC + ETH + SOL) — la dirección sí, el timing no

  • Hipótesis: una estrategia que gana en BTC debería transferirse con ajustes mínimos a ETH y SOL.
  • Resultado: BTC + engine: +$48. ETH track candle-only: -$322. SOL track candle-only: -$370. Causa: el régimen derivado de candles puras oscila 7x más que el régimen del engine → 7x más trades → ruido destruye edge.
  • Hallazgo central — separación dirección vs timing:
    • Dirección SÍ es predecible: RSI tiene d-Cohen = 1.49, posición Donchian d = 1.35.
    • Timing NO es predecible: d = 0.23.
    • Consigna interna: "la brújula funciona, falta el trigger".

3.5 Brújula técnica para BTC — el momento del fuse-bug

  • Metodología: 20 scripts con combinaciones de 12 componentes (ATR, RSI, MACD, ADX, ADL, ATR ratio, OBV, vol-of-vol, momentum 4 ventanas, MFI, CCI, Stochastic). Walk-forward purgado, gap de 7 días.
  • Resultado nominal en período recortado: mejor variante producía +$1.11/sem sobre 200 días.
  • Auditoría: bug crítico en el reescalado del fuse del componente ADX al pasar al período completo.
  • Resultado real en 808 días con bug corregido: mejor variante -$0.30/sem, PF 0.86.
  • Veredicto: kill condition activada.
  • Regla constitucional cristalizada — la "regla del BRONCE": NO se promueve nada a shadow mode (live demo) sin haber demostrado ≥ $25/sem en backtesting honesto sobre los 808 días completos.

3.6 La línea principal de estrategia adaptativa — 144 scripts en 24 fases

El experimento más completo del proyecto. 144 scripts, 24 fases secuenciales, ejecutados sobre 808 días de datos limpios bajo un protocolo estricto.

Protocolo metodológico aplicado:

  1. Cada script se acompaña de un documento de hipótesis pre-registrada (fecha, autor, kill condition, resultado esperado, métrica de aceptación).
  2. Validación obligatoria por walk-forward pooled con 10 splits, train de 6 meses, test de 1 mes, purga de 14 días.
  3. Costos reales aplicados siempre: commission Binance Futures (taker 0.04%, maker 0.02%), funding hourly real, slippage 0.5 ticks por entry/exit + 1 tick adicional en stop-loss.
  4. Reportes con métricas paralelas: PnL/sem, PF, Sharpe, Sortino, max DD, expectancy, WR, AVG trade, exposure ratio, tail ratio.
  5. Si la métrica clave no supera el threshold pre-registrado, la fase se cierra sin "ajustes salvavidas".

Resumen por fase:

FaseFocoResultado clave
1Motor único16 scripts. PF 0.47 → 1.73.
2Portfolio de 3 componentes10 scripts. $37 → $133.
2BOptimización del portfolio5 scripts. $133 → $145, PF 2.02.
3Convergencia con benchmarks5 scripts. 4 fracasaron.
4Auditoría + leverage4 scripts. 20x viable.
5Auditoría externa + fixes8 scripts. Corrección de D-1 y volatilidad.
6Derivados como filtro de grid5 scripts. CVD + liquidaciones como filtro.
7Vol targeting4 scripts. Escalado por volatilidad validado.
8Stress test5 scripts. Monte Carlo + walk-forward robustos.
9Crash tests8 scripts. Detección de rango débil.
10ML aplicado5 scripts. Salida temprana -0.5%@bar2 = PF 2.62.
11Paisaje externo de estrategias8 scripts. 0 mejoras.
12Refinamientos finales6 scripts. 5 fracasaron.
13Exploración derivados4 scripts. 0 mejoras en walk-forward.
14Replicación de papers académicos5 scripts. 0 mejoras en walk-forward.
15Significancia estadística3 scripts. p=0.073 — NO significativo.
16Análisis "oceanográfico"4 scripts. Trades independientes confirmados.
17Veto por liquidaciones6 scripts. Walk-forward PASS 7/10, PF 1.95.
18Forense del carry4 scripts. Carry = 51% del PnL, 25/27 meses positivo.
19Independencia del offset4 scripts. 48/48 positivos.
20Verificación de estabilidad3 scripts. Convergencia confirmada.
21Máquina de estados6 scripts. Walk-forward FAIL formal 5/10.
22Integración B14 scripts. PF 3.17.
23Smart Money Concepts4 scripts. 3 fracasaron. N insuficiente.
24Detección de rango (B2)3 scripts. Veto por ratio de volumen promovido.

Portfolio final (10 reglas, 8 strict + 2 promoted): PF 4.11 full-sample, PF 1.66 walk-forward pooled (7W/2T/1L), 35 trades, WR 40%, Sharpe ~3.5, 0 liquidaciones en todos los niveles 1x→20x.

LeveragePnL/808dPFDD máxBRONCE cap
1x+$1301.702.2%$23K
3x+$1692.622.4%$18K
5x+$2003.102.8%$15K
10x+$2754.004.0%$11K
20x+$4355.806.0%$7K

Las 8 leyes constitucionales que sobrevivieron (cada una validada o invalidada con datos en múltiples scripts):

  1. ATR ×2.5 flat = exit definitivo (9/9 alternativas fracasaron).
  2. Long-only = dirección definitiva (6/6 fracasaron en shorts directos).
  3. Fixed carry $500 = allocation definitiva (4/4 modulaciones fracasaron).
  4. Pullback > market entry (siempre).
  5. Simple > complejo (~130 refinamientos fracasaron).
  6. Vetos > optimizaciones (las únicas mejoras tardías son reglas de abstención).
  7. N<100 invalida refinamientos finos.
  8. Derivados como trigger directo = 0/28. Como sizing/veto = funciona.

El número que cambió todo: carry = 51% del PnL total. Sobre 808 días, el PnL bruto del motor sin filtros es ≈ $-26 (el motor solo, sobre toda la serie). El portfolio final (motor + carry + grid, con vetos aplicados) genera $89.62: $46 vienen del carry de funding, $26 del trend-follower y $18 del grid. Es decir, más de la mitad del PnL "del sistema" en realidad es renta pasiva del mercado de derivados.

El veredicto final (Fase 15): p=0.073 — el motor de trading sobre velas no supera el ruido con confianza estadística. Las velas no contienen suficiente información predictiva por sí solas.

3.7 El cambio de paradigma — del precio al contexto

El motor de trading le pregunta al precio qué hizo. El motor de cognición le pregunta al mundo por qué se movió.

Esta línea es un replanteamiento estructural del producto. No es la línea anterior llevada a producción — es algo distinto: un sistema diseñado desde cero para producir el contexto estructurado del mercado que un agente de IA necesita para decidir bien.

Arquitectura general — 5 sistemas integrados:

  1. Captura — recolección paralela de datos crudos desde 36+ APIs cada ciclo (15 min).
  2. Análisis cognitivo — normalización + causalización de cada señal.
  3. Síntesis — agregación de señales en meta-factores con interpretación física.
  4. Árbol de hipótesis — sistema vivo de hipótesis activas con scoring rolling y kill conditions explícitas.
  5. Aprendizaje por refuerzo (feedback engine) — ghost P&L de las decisiones que el agente tomó vs no tomó.

Pipeline interno — 12 capas en orden:

Fetch → Normalize → Causal Depth → Attention Heads → Bias → Softmax → State → Output → Hypotheses → Feedback Engine → RL → Output Final

  • Fetch: llamadas paralelas a las 36+ APIs con timeout escalonado, fallbacks por geo (Binance fast-scan), rate-limit aware.
  • Normalize: cada feature crudo se mapea a escalar normalizado en [-1, 1] con baseline tempo-adaptativo.
  • Causal Depth: cada señal se etiqueta con su mecanismo causal subyacente.
  • Attention Heads: múltiples cabezas evalúan la situación desde perspectivas distintas (técnica, régimen, momentum, derivados, sentiment, narrativa).
  • Bias: aplicación de prior bayesiano según el régimen activo.
  • Softmax: combinación final en distribución sobre 9 acciones posibles, con temperature 0.45.
  • State: persistencia entre scans (memoria corta).
  • Hypotheses: árbol vivo con scoring continuo. Cada hipótesis tiene su kill condition.
  • Feedback Engine: cada decisión queda grabada con su contexto. Si el agente no la ejecuta, se calcula el ghost P&L.
  • RL: los cases alimentan ajustes de pesos sobre las cabezas y los priors.

Cifras de operación:

  • 33-55 señales bipolares activas por scan. Cada señal tiene dimensión danger y dimensión opportunity separadas.
  • 5 meta-factores con causa física documentada: cascada de liquidaciones, riesgo de equity, carry de funding, delta de sentiment, flujo institucional.
  • 3 procesos persistentes (PM2) corriendo 24/7: scan principal (cron 15 min), generador de labels (diario 8:00 UTC), daemon de WebSockets para liquidaciones.
  • 21,954 scans grabados a la fecha (~18KB por scan).
  • 45 propuestas de arquitectura documentadas y versionadas como RFCs internos.

El hallazgo central — el edge no vive dentro de crypto.

A medida que el engine acumuló operación real, dos eventos validaron con datos la hipótesis que motivó toda la línea: lo que mueve a Bitcoin está sistemáticamente afuera de Bitcoin. Las velas son consecuencia. Las causas viven en aranceles, anuncios geopolíticos, decisiones de Fed, flujos institucionales registrados off-chain, divergencias en equities y commodities.

Caso 1 — Whale trap durante el inicio de aranceles (Q2 Día 1, 1 de abril 2026)

En el primer día de los aranceles de Trump, BTC tocó $69,310 y fue rechazado violentamente $1,100 abajo. Para el observador crypto-only, fue "otra vela roja". Para el engine fue una secuencia documentable de 7 señales convergentes de manipulación:

  • MSTR -2.10% mientras BTC +0.59% — divergencia institucional. Señal vino de equities, no de crypto.
  • Ciclo completo de funding (5 → 7 → 9 → 14 → 8 / 21 monedas en negativo en 72h): patrón de stop-hunt clásico.
  • Pump en volumen muerto en sesión asiática (volumen 0.174x del baseline) → distribución barata por whales.
  • $93M de shorts liquidados en sesión NY, seguido de longs liquidados horas después (liq 1h ratio 0.97).
  • Kalshi 74% probabilidad de BTC en $65K en abril → el mercado de predicción no compró el rally.
  • MACD swing de +257 a -80 en menos de 24h — reversal técnico extremo confirmado.
  • FGI volvió a 8 (extreme fear) en 12h.

El engine no solo detectó el rechazo — lo anticipó documentadamente mediante el cruce de las 7 señales, y produjo un análisis completo del patrón de stop-hunt en 5 fases.

Caso 2 — Rally por ceasefire Iran (7 de abril 2026)

Trump anuncia ceasefire Iran → oil -17.3% → BTC $69K → $72.7K en horas. El engine había pre-registrado la hipótesis correcta días antes: "el bottom de BTC requiere un catalizador externo, candidato más probable: resolución del frente Iran". Cuando el catalizador llegó:

  • La hipótesis pre-registrada se confirmó exactamente — no fue post-hoc rationalization.
  • El módulo de polaridad condicional invirtió la lectura de oil de RISK_OFF a RISK_ON correctamente en tiempo real.
  • El score de abstención bajó de 1.00 → 0.40 — primera vez en 474 scans consecutivos.
  • La presión bajista subió de 22% → 41% durante el rally — generando un advisory contrarian de calidad.
  • El motor de feedback produjo dos casos con ghost P&L y 6 reglas propuestas.

Cada capa del pipeline hizo lo que se diseñó para hacer.

Implicación operativa — qué se integró al engine:

  • Equities con relevancia direccional probada (MSTR, COIN, mining stocks, SPY, QQQ, NVDA, AMD, TSLA, META, GOOGL).
  • Macro y divisas (DXY, US 10Y bonds, M2 money supply de FRED).
  • Commodities con correlación con risk-on/risk-off (oil vía USO y Yahoo CME, oro vía PAXG, gas natural).
  • Futuros CME institucionales como leading indicator de flujo institucional.
  • Prediction markets (Kalshi para event ladders, Polymarket para consensus pricing).
  • Capa narrativa multi-fuente (Google News RSS con when:1d obligatorio, Brave Search, CoinDesk, wire services con truth-weight diferenciado).
  • ETF flows on-chain por issuer (Dune Analytics).
  • Calendario de eventos macro (FOMC, CPI, NFP, earnings de mega-cap tech, decisiones de tariff).
  • Polaridad condicional cross-asset — un mismo movimiento de oil puede ser RISK_ON o RISK_OFF según el contexto.

Filosofía operativa del engine:

El sistema informa. Nunca restringe. El agente decide.
Ningún componente prohíbe acciones. Todos emiten advisories (riesgo + razón). Esto es no signals without context.

4. Los módulos del cerebro

Cuatro módulos integrados en el sistema cognitivo. Cada uno responde una pregunta distinta y los cuatro se cruzan en una decisión de softmax sobre 9 acciones posibles.

4.1 Módulo de régimen — clasificador de 7 canales

Clasifica TODO evento que mueve BTC en uno de 7 canales causales:

CanalCaptura
Macro-MonetaryFed, CPI, DXY, M2, tasas
GeopoliticalWars, sanciones, política comercial, eventos internacionales
Institutional FlowETFs, treasuries, fondos, allocations
RegulatoryLeyes, court decisions, frameworks
Crypto-NativeOn-chain, hacks, halvings, protocolos
Energy-CommodityOil, gas, mining, electricity
Narrative-SentimentMedia, sentiment indices, social

Justificación de los 7: validación histórica 2014-2026 — cada canal fue dominante en al menos una era distinta (Crypto-Native en Mt. Gox/Terra; Regulatory en Japan/ICOs; Narrative en 2017; Macro en COVID; Flow en ETF era 2024; Geopolitical en 2025-2026; Energy-Commodity emerge en 2025-2026).

Stress test: 12/12 escenarios pasados. El clasificador es robusto a los shocks históricos conocidos.

4.2 Módulo de atribución narrativa

Tres capas (7 canales × 6 algoritmos × estado v3). Detecta saturación narrativa como señal contrarian — cuando todo el mundo dice lo mismo, la estructura sub-confirma y el pico está cerca.

Implementaciones recientes:

  • Google News RSS baseline + wire-service tier interleaving (Truth Weight subió 0.450 → 0.570).
  • News velocity score (cambio de aceleración del flujo de titulares).
  • Narrative arcs (estructura de relato a 7 días).
  • Breaking-news fast channel (canal acelerado para shocks).
  • Cache TTL tempo-adaptativo (reduce 50%-98% del consumo de APIs).
  • Truth weight registry (WIRE 0.75, INVESTIGATIVE 0.70, traditional 0.65, crypto-media 0.45-0.55).

4.3 El experimento del modelo entrenado — evidencia de que un transformer sobre velas no es predictor confiable

Por qué este experimento existe en este informe: durante el programa surgió la pregunta natural — ¿y si entrenamos un foundation model con datos propios? ¿no resuelve eso el problema de "las velas no bastan"? Para responderlo con evidencia, ejecutamos el experimento. El resultado confirmó la tesis de fondo del backtesting.

Hipótesis pre-registrada: un foundation model fine-tuneado sobre datos propios podría producir una señal direccional con accuracy suficiente para sostener decisiones de trading.

Kill condition: si la accuracy en datos no vistos no supera de forma robusta y consistente el 65% en big moves (>2%), el modelo no califica como predictor para capital. Solo califica como sensor de confianza/abstención.

Lo que se hizo (2026-04-09, 2.5h, $0 de cloud):

Tomamos el modelo open-source Kronos-mini (4.1M parámetros, transformer decoder-only pre-entrenado en 12 billones de candles de 45 exchanges) y lo fine-tuneamos con 19,392 velas 1H de BTC/USDT (resampled de los 1.16M candles 1m).

Pipeline de entrenamiento:

  1. Fase 1 — Tokenizer (15 epochs, LR 0.0001): aprende la "gramática" de BTC. Recon Loss convergió en epoch 1 (0.0029).
  2. Fase 2 — Base Model (10 epochs, LR 5e-7 muy conservador): aprende secuencias de precio sin destruir el conocimiento previo. Validation loss 2.7184.

Hardware: Apple M1 (MPS — Metal). 300MB RAM peak. CPU 45-80%. Total 147 minutos.

Resultados de evaluación (30 puntos distribuidos en 2 años, datos no vistos):

MétricaPre-trainedFine-tunedΔ
Direction accuracy (all)47%63%+16pp
Small moves (<2%)50%71%+21pp
Big moves (>2%)40%54%+14pp
MAPE (price prediction)1.22%1.25%~igual

Lectura honesta de los resultados:

  • 63% de direction accuracy suena a éxito — y mejor que random sí es. Pero 63% en big moves cae a 54% (apenas mejor que coin flip). N de evaluación: 30 puntos — bajo.
  • 71% en small moves es atractivo pero los small moves son justamente donde fees y slippage destruyen el edge.
  • MAPE no mejora — el modelo no aprendió a predecir valor, aprendió a clasificar signo en una muestra pequeña.
  • Lo más relevante: no cumple la kill condition pre-registrada.

Veredicto: el experimento confirmó el límite estructural ya intuido por el resto del backtesting: un transformer entrenado sobre velas, incluso con un foundation model serio detrás, no es un predictor confiable.

El uso defendible que sí tiene el modelo — sensor de confianza, no predictor:

  • Cuando el modelo tiene alta confianza → el precio se explica razonablemente por su propia historia → es seguro mirar indicadores técnicos.
  • Cuando el modelo tiene baja confianza → algo externo (macro, narrativa, geopolítica) está moviendo el mercado → hay que dejar de mirar las velas y prestar atención al contexto cross-asset.

Bajo esa lectura, el modelo funciona como router de atención del engine: indica cuándo no confiar en el precio.

Runtime actual: sidecar PM2 cada 5 min. Fetch de 360 candles → forward pass en MPS (~4s) con 30 paths Monte Carlo → output JSON con direction, confidence, volatility_forecast. La señal confidence es la que el engine consume.

4.4 Motor de confluencia y decisión

Combina las 33-55 señales bipolares + el modelo transformer + las hipótesis activas + el regime classifier en un score de confluencia que decide la recommendation final con softmax sobre 9 acciones (REDUCE_CARRY / MONITOR / HOLD / BUY_CORE / BUY_SATELLITE / SELL_SATELLITE / SELL_CORE / FULL_EXIT / FULL_ENTRY) con temperature 0.45.

Memoria estratégica: el modelo transformer actúa como router de atención — alta confianza pesa el track técnico, baja confianza pesa el track macro/narrativa.

4.5 Motor de aprendizaje (feedback engine)

Cada decisión del engine queda grabada con su contexto completo. Cuando el sistema recomienda algo y el agente externo NO lo ejecuta, el motor calcula qué habría pasado — el ghost P&L — y lo usa como señal para validar o invalidar el set actual de reglas.

Output sintético de un case:

"ghost_pnl_weekly": -2.30,
"ghost_verdict": "FILTERS_PROTECTING (ghost trades would have lost $2.30)",
"patterns_discovered": [...],
"rules_proposed": [...]

4.6 Bitácora de postmortems — calibración continua del engine

Quizá el activo metodológico más valioso del proyecto, y el menos visible desde fuera, es la bitácora de postmortems del engine. Cada vez que el sistema falla en interpretar correctamente una situación, el evento queda documentado con su evidencia, mecanismo de falla, ghost P&L, patrón generalizable y reglas candidatas.

Estado actual: 20 postmortems publicados internamente (Abril 2026), cubriendo aproximadamente 6,000 scans.

Tipología de los casos documentados:

CategoríaCantidadEjemplo de hallazgo
Blind spots de datos4El sistema no veía compra institucional sostenida (ETF inflow tratado como contra-narrativa moderada cuando era señal activa).
Catalyst gaps3Eventos macro-políticos llegaban al pipeline después de que el precio ya había reaccionado.
Behavioral failures3Cautela excesiva: 378 abstenciones consecutivas durante un movimiento bullish de +5.2%.
Asimetrías de diseño2El sistema trataba long y short simétricamente cuando el riesgo no lo es.
Bugs de pipeline o parsing4Parsing stale de noticias durante el día más activo del mes.
Validaciones de fixes3Postmortems "inversos": una métrica institucional pasó de 0.016 → 0.580 — factor 35x — tras corregir el cálculo de inflow signals.
Hitos de comportamiento1Primera vez en 474 scans consecutivos que el score de abstención bajó de 1.00 a 0.40.

Métricas agregadas:

  • 20 postmortems estructurados con secciones obligatorias.
  • 48 reglas candidatas generadas (R-001 a R-048), de las cuales una fracción ha sido promovida a producción tras validación con N.
  • ~$9K de ghost P&L acumulado documentado en una ventana de 7 días.
  • Densidad de aprendizaje: un postmortem cada ~300 scans en promedio durante la fase de mayor calibración.

Por qué esto importa. La bitácora es lo que convierte al engine en algo distinto a "otro sistema de señales". Es calibración pública en formato narrativo: cada vez que el sistema se equivoca, el error queda documentado con su evidencia, su mecanismo causal y la regla que se propone para que no vuelva a pasar.

5. Las leyes que la investigación cristalizó

Estas son las "leyes constitucionales" que sobrevivieron a todos los experimentos. Cada una está respaldada por evidencia reproducible.

Sobre estrategias

  1. Régimen filter ES el edge. Con filter (mejor benchmark): +$715. Sin filter (peor benchmark): -$559.
  2. Long-only mejora calidad. PF sube 0.36 al quitar shorts. 6/6 FAIL en shorts directos.
  3. 4H es el sweet spot para BTC. Daily: 4-17 trades en dos años (inoperable). 1H: ruido. 3M: catastrófico (PF 0.07 con 3,241 trades).
  4. El threshold > los factores. Una variante con score≥65/100: +$715. Una variante con confluencia de 6 factores y score≥4/6: breakeven.
  5. Frecuencia es multiplicador, no edge. Sin edge + freq = desastre. Con edge + freq = $$.
  6. Backtests <6 meses mienten. Una variante multi-TF DCA mostró PF 4.56 en 4 meses → PF 0.07 en 808 días.
  7. Popularidad ≠ edge. Una estrategia con 8.8K favoritos en TradingView produce PF 0.65 en datos reales.

Sobre el método

  1. Hipótesis ANTES de tocar los datos. Una vez. Si falla, reformular — no ajustar parámetros.
  2. N<100 invalida refinamientos finos.
  3. Reglas de abstención > optimizaciones.
  4. Auditoría reproducible o no es número. El primer backtest invalidó sus propios resultados al detectar matching futuro.
  5. Soul + Status + Strategy + Observer + Bitácora = los 5 archivos de contexto que ahora son template para cualquier nuevo experimento.

Sobre el mercado

  1. El mercado tiene regímenes. La misma estrategia funciona o destruye según el régimen.
  2. Los catalizadores son externos. Las velas son efecto. Liquidaciones, ETF flows, VIX, DXY, funding negativo — son causa.
  3. La narrativa satura. Cuando todos dicen lo mismo, la estructura sub-confirma. Detectarlo es una señal contrarian medible.
  4. Carry es anomalía, no estrategia. 51% del PnL del experimento más grande viene de carry — y eso es estructural del mercado de derivados.

6. Inventario de datos y herramientas

6.1 Datos crudos disponibles

Capa de mercado (~9.2 GB):

  • Velas 1-minuto BTC/USDT — 1,163,520 candles continuas entre enero 2024 y marzo 2026 (808 días), provenientes de Binance spot.
  • Snapshots del engine v1 — 10,228 capturas (cada ~12 min, 47+ campos), 88 días de operación.
  • Predicciones del motor — ~13 por día sobre el mismo período, con resultado conocido.
  • Backups de producción — dumps SQL y JSON.

Capa de cognición (~5.0 GB):

  • 21,954 scans completos del engine cognitivo (~18 KB por scan), con cinco objetos estructurados: señales bipolares, decisión, estado del engine, hipótesis activas, reporte de anomalías.
  • Análisis derivados — evaluación rolling del modelo, casos del feedback engine con ghost P&L, validaciones de RL.
  • Estado narrativo — versión 3 del state, narrative arcs a 7 días, historia de saturaciones detectadas.
  • Documentación del modelo — research, glosario, training-log y paper interno.

6.2 APIs integradas (36+ activas)

Tier 1 — siempre activas:

  • Binance (candles, funding, OI, taker volume, L/S ratio, orderbook 1m)
  • Coinglass (liquidations, funding agregado, OI, ETF flows, FGI — paid $35/mo)
  • Yahoo CME (futuros ES, NQ, CL, GC, DXY, Nikkei, KOSPI)
  • CoinGecko (market cap, ATH, supply)
  • Coinbase (Coinbase Premium proxy)
  • DefiLlama (TVL 7d change)

Tier 2 — horario US (07-21 UTC):

  • TwelveData (SPY, VIX, MSTR, COIN, USO, RSI — free 700/día con cache 15min)

Tier 3 — horario nocturno:

  • xStock / DexScreener (SPYx, QQQx, TSLAx, NVDAx — premium fuera de horario US)

Tier 4 — narrativa y prediction markets:

  • Brave Search (news con cache per-query, freshness, count)
  • Google News RSS (5 queries con when:1d obligatorio, cache TTL tempo-adaptativo)
  • CoinDesk RSS
  • Kalshi (event ladder, monthly, yearly)
  • Polymarket (consensus yearly, $27M vol)
  • Dune (ETF flows on-chain por issuer, free 40 queries/día con cache 60min)

Tier 5 — alternative data (research):

  • Santiment, FRED (M2, yields), Hydromancer Reservoir (Hyperliquid 1s candles, fills, liquidations).

6.3 Herramientas construidas

  • Runner TypeScript validado al 100% contra CSV de TradingView (KST como referencia).
  • Agent-browser — scraping de TradingView con scroll progresivo para tablas virtualizadas.
  • Semantic search engine — LanceDB local con 10 algoritmos, cross-encoder reranking, query expansion, gap detection. Indexa código + runs + datos. Disponible vía MCP server.
  • Ecosistema PM2 — 3 procesos persistentes: scan cognitivo (cron 15 min), labels (diario 8:00 UTC), daemon de WebSockets (24/7).
  • Replay engine — re-ejecuta cualquier run con código nuevo. "Arqueología inversa" sobre 21,954 escenarios reales.
  • CLI de stress-test — pregunta al sistema qué se rompe si el precio cae a un nivel arbitrario.
  • Diagnose — auditoría de comportamiento del sistema sobre cualquier ventana temporal.

6.4 Investigación documentada

Más de 40 documentos de research redactados durante la fase de fundamentos, agrupables en cuatro familias:

Costos y mecánica de mercado:

  • Costos reales de operar (commission, slippage, funding).
  • Simulación de órdenes límite vs market.
  • Gestión de capital, Kelly criterion y dimensionamiento por volatilidad.

Métodos de evaluación honesta:

  • Backtesting probabilístico (Monte Carlo, CPCV, Deflated Sharpe Ratio).
  • Técnicas de validación (walk-forward, purged k-fold).
  • Anti-overfitting (Holm-Bonferroni, multiple-testing correction).
  • Inferencia causal y control de variables confundidoras.
  • Evaluación bayesiana con actualización de posteriores.
  • Teoría de la información (entropía, mutual information) para selección de features.
  • Checklist de auditoría reproducible.

Cómo piensan los humanos y las instituciones:

  • Modelo mental del trader experto.
  • Edge institucional 2026 — qué hacen realmente Renaissance, Citadel, Two Sigma.
  • Análisis del paisaje externo de bots y plataformas LLM-trading 2026.
  • Arquitectura de agentes para trading.

Frameworks técnicos evaluados (varios invalidados con datos):

  • Multi-head attention aplicada a señales.
  • Smart Money Concepts (invalidado por N insuficiente en la línea principal).
  • Estrategias BTC publicadas 2026 — análisis comparativo.

7. Logros tangibles — qué quedó construido y validado

El logro central del trabajo es el engine de cognición de mercado corriendo en producción y la evidencia reproducible que delimita qué hipótesis sobreviven y cuáles no.

Engine cognitivo (logro central)

  • Pipeline de 12 capas funcionando end-to-end desde el fetch crudo hasta la atribución causal con softmax sobre 9 acciones.
  • 21,954 scans grabados, disponibles para replay y análisis retrospectivo.
  • 5 meta-factores con causa física documentada (cascada de liquidaciones, riesgo de equity, carry de funding, delta de sentiment, flujo institucional).
  • 45 propuestas de arquitectura numeradas y versionadas como RFCs internos.
  • Caso de operación documentado end-to-end — el evento del 7 de abril 2026, donde el sistema clasificó régimen, detectó el catalizador externo y atribuyó drivers correctamente antes de que el precio reflejara el movimiento.

Investigación cuantitativa — hipótesis separadas por evidencia

  • 8 líneas de fundamentos completadas, cada una con su pregunta, su metodología y su veredicto reproducible.
  • 3 features Tier S cross-asset con ICIR > 1.5.
  • 4 señales Tier 1 con Hit Rate 75-100% y N suficiente.
  • 2 estrategias técnicas validadas estadísticamente sobre walk-forward + significance.
  • 0 estrategias técnicas puras que sobrevivan al test riguroso de significancia con p<0.05 — esto también es un logro.

Infraestructura de captura y persistencia

  • 3 procesos persistentes corriendo 24/7 sin caídas significativas desde marzo 2026.
  • Cache adaptivo multi-tier que reduce el consumo de APIs entre 50% y 98% según la volatilidad detectada.
  • Sistema de fallbacks por geo con detección automática de bloqueo regional.
  • Persistencia versionada — cada scan, cada decisión, cada hipótesis grabados en JSON estructurado.
  • WebSocket daemon — captura continua de liquidaciones de Hyperliquid y Binance.

Modelo de IA — experimento que delimitó un límite, no producto

  • 1 experimento de fine-tune ejecutado sobre un foundation transformer, en hardware local, sin coste de cloud.
  • Veredicto explícito documentado: el modelo no califica como predictor direccional para decisiones de capital. Su uso defendible es como sensor de confianza/abstención (router de atención).
  • Sidecar en producción alimentando la señal confidence al engine — no la señal direction.
  • Este "logro" es valioso por lo que excluye del producto, no por lo que confirma.

8. Síntesis visual: hipótesis inicial → evidencia → producto final

Este bloque comprime, en formato esquemático, el recorrido completo del trabajo: la hipótesis con la que se arrancó, la evidencia acumulada que la invalidó, la conclusión que sobrevivió a esa evidencia, y la forma final del producto.

HIPÓTESIS INICIAL DEL PROYECTO:
  "Construyamos un agente que prediga BTC con datos del engine."

EVIDENCIA ACUMULADA EN 16 MESES:
  ├─ 144 scripts de la línea principal: PF puro de trading = $-26. p=0.073 (no significativo).
  ├─ 30 scripts de la línea de benchmarks: solo 1/37 estrategias supera B&H.
  ├─ Línea de derivados: 0/28 señales binarias sobreviven test estadístico.
  ├─ Carry = 51% del PnL — anomalía estructural, no estrategia.
  ├─ Cross-asset: liq, bonds, equities tienen ICIR>1.5 (mejor que cualquier técnico).
  ├─ Calibración: 4 señales con HR 75-100% — todas son CONTEXTO, no entrada directa.
  ├─ Foundation model de IA entrenado a la medida: 47%→63% direction accuracy.
  └─ Hito 7-abr: el sistema acertó el régimen mientras el precio mentía.

CONCLUSIÓN HONESTA:
  Lo que la investigación PROBÓ que funciona NO es "predecir".
  Es: clasificar régimen + atribuir drivers + detectar saturación + calibrar públicamente.

PRODUCTO FINAL:
  De "automated trading platform" → "probabilistic market intelligence layer".
  Tres superficies coordinadas: Dashboard + MCP + Alerts.
  Una unidad atómica: el Card.
  Un moat: calibración pública verificable.

EL PIVOT NO REINICIA TRADIT.
EL PIVOT VENDE LO QUE TRADIT YA ENCONTRÓ.

9. Cifras de referencia rápida

Para citar en pitch decks, conversaciones con stakeholders o materiales públicos:

MétricaValorContexto
Días de datos808 continuosEnero 2024 → Marzo 2026
Velas 1m capturadas1,163,520BTC/USDT spot Binance
Scripts ejecutados400+Numerados, reproducibles
Líneas experimentales12Cada una con pregunta distinta
Snapshots engine v110,228Cada ~12 min
Scans engine cognitivo21,954Cada 15 min, JSON estructurado
APIs integradas36+5 tiers de latencia/coste
Modelo fine-tuneado4.1M params2.5h en M1, $0 cloud
Direction accuracy47% → 63%+16pp post fine-tune
Strategies validated stat.2Walk-forward + significance
Signals Tier 14HR 75-100%, N suficiente
Features Tier S3ICIR > 1.5
Stress test régimen12/12Pasado
Propuestas de arquitectura45Numeradas y versionadas
Procesos PM2 producción3Sin caídas significativas desde marzo 2026
Reducción de consumo de APIs50% – 98%Cache adaptivo según volatilidad
p-value motor de trading0.073NO significativo — el sistema lo declara

10. Conclusión — del research al producto

Los 16 meses de investigación documentados en este informe validaron con datos la propuesta de pivoteo del producto. La evidencia acumulada apunta en una sola dirección, y permite separar con claridad lo que funciona de lo que no.

Lo que NO funcionó — el desafío honesto del agente como portfolio manager

El paradigma de "agente de IA que administra activamente un portafolio de trading" — la promesa con la que parten la mayoría de los proyectos LLM-trading actuales — se topó, en nuestros experimentos y en los públicos (Alpha Arena, Hyper-Alpha-Arena, etc.), con barreras estructurales que no son solucionables solo con mejor modelo o mejor prompt. Un agente puede razonar bien sobre un texto y aún así (i) sobre-tradear cuando el contexto es ambiguo, (ii) sostener tesis contra evidencia, (iii) dimensionar mal el riesgo bajo leverage, (iv) fallar en la disciplina de abstención, y (v) carecer de memoria calibrada de su propia tasa de acierto. Esto no es un fallo del modelo — es un fallo del contexto que recibe.

Nuestra propia exploración de modelos predictivos sobre velas — donde fine-tuneamos un foundation transformer (Kronos-mini) con datos propios — confirmó la misma tesis desde otro ángulo: ni siquiera un modelo entrenado específicamente sobre nuestros datos califica como predictor direccional confiable para mover capital. El edge no estaba ahí.

Lo que SÍ funcionó — el potencial enorme del engine como mapa de direcciones de mercado

El frente más inesperado, y a la postre el más valioso, fue el engine de cognición de mercado. Construido como infraestructura para alimentar al agente, terminó siendo el activo central del proyecto. Su capacidad demostrada para clasificar el régimen de mercado, atribuir drivers causales, detectar saturación narrativa, identificar catalizadores externos antes de que se reflejen en el precio, y operar 24/7 con calibración auditable es exactamente lo que falta hoy en el espacio: no más agentes que predicen, sino una capa estructurada de inteligencia de mercado sobre la cual cualquier agente — propio o ajeno — pueda decidir mejor.

El pivot natural — Agent Market Intelligence

De la combinación de ambos hallazgos emerge el producto: una capa de Agent Market Intelligence que entrega contexto estructurado, calibrado y verificable a agentes de trading (humanos o LLM), en vez de competir con ellos como predictor. El engine se vuelve el producto; el agente se vuelve el cliente. La calibración pública se vuelve el moat.

El backtesting no fue un detour. Fue el filtro que separó la tesis viable (mapear contexto) de la tesis que la industria sigue persiguiendo en vano (predecir precio). Esa separación es el valor neto del trabajo documentado en este informe.


Tradit no predice el mercado. Mapea sus probabilidades, nombra sus drivers, declara sus condiciones de invalidación, y rastrea públicamente su calibración. Esa frase no es marketing — es la conclusión científica de 16 meses de investigación reproducible y auditable.

→ Leer el documento de pivot completo · → Ver el TL;DR