Saltar a contenido

Nexus Platform Scrapers Status Report

Fecha: 2026-03-10 Revisor: Codex Estado: Revisado con evidencia parcial

Alcance

Objetivo solicitado: revisar el estado de los scrapers de Nexus Platform, incluyendo:

  • salud de tareas programadas
  • estado de ejecuciones
  • procesos de recoleccion de datos
  • evidencia de monitoreo y trazabilidad

Fuentes revisadas

  • docs/usuario/tareas/programadas.md
  • docs/usuario/tareas/historial.md
  • docs/usuario/ejecuciones/estados.md
  • docs/usuario/ejecuciones/logs.md
  • docs/usuario/estadisticas/reportes.md
  • docs/usuario/estadisticas/alertas.md
  • docs/nexus/database/POSTGRESQL-SCHEMA-REPORT.md
  • schema-analysis-temp.json

Resultado Ejecutivo

No es posible certificar la salud operativa actual de los scrapers de Nexus Platform de extremo a extremo desde este repo.

Si es posible, en cambio, verificar que la plataforma dispone de infraestructura persistida para operar scrapers y medir su estado:

  • existe un modelo de tareas programadas en ScheduledTask
  • existe historial de ejecuciones en Executions
  • existen trazas de disparo por webhook en WebhookTriggerLogs
  • existe logging centralizado en system_logs
  • existe evidencia de integraciones de sincronizacion reales como ClickUpSyncLogs

La conclusion correcta es:

  • scheduler y orchestration: verificados por esquema y documentacion
  • tracking de ejecuciones: verificado por esquema y documentacion
  • observabilidad generica: verificada por esquema y documentacion
  • estado actual de cada scraper concreto: no verificable con este workspace

Hallazgos

1. Alta: no existe inventario verificable de scrapers concretos

No se encontro en este repo una lista confiable de scrapers del dominio Nexus ni modulos fuente que permitan identificar:

  • que scrapers existen hoy
  • cuales estan activos o pausados
  • que fuente recolecta cada uno
  • cual fue su ultima ejecucion real

Impacto:

No se puede responder con rigor cuales scrapers estan sanos, degradados o caidos a fecha 2026-03-10.

2. Alta: la plataforma si tiene un pipeline operativo generico para scrapers

El esquema PostgreSQL confirma una cadena funcional coherente:

  • ScheduledTask define tareas con CronExpression, Enabled, LastRun, NextRun, TimeoutMinutes, MaxRetries, RetryDelayMinutes, CurrentRetryCount, DependsOnTaskId y ventanas temporales como NotBeforeUtc / NotAfterUtc
  • Executions persiste cada corrida con Status, StartedAt, CompletedAt, DurationMinutes, Success, ErrorMessage, OutputSummary, MetricsJson, TriggeredBy y TriggeredByUser
  • WebhookTriggerLogs conecta triggers externos con la ejecucion resultante
  • system_logs permite trazar execution_id, service_name, level, status_code, duration_ms y properties

Impacto:

La base tiene soporte suficiente para scheduling, reintentos, ejecucion y trazabilidad de scrapers aunque el estado puntual de cada scraper no este presente en este repo.

3. Alta: falta evidencia operativa viva para declarar salud real

No hay en el workspace:

  • dashboard de salud
  • export de ultimas ejecuciones por scraper
  • consulta agregada de fallos consecutivos
  • logs recientes filtrados por scraper
  • metricas de freshness de datos recolectados

Impacto:

La revision queda limitada a capacidad estructural y no puede convertirse en una verificacion operacional cerrada.

4. Media: la persistencia muestra que Nexus ya procesa integraciones y no solo tareas teoricas

El snapshot muestra volumen real en tablas operativas:

  • system_logs: 227499 filas estimadas
  • ClickUpSyncLogs: 49948 filas estimadas
  • Executions: 804 filas estimadas
  • WebhookTriggerLogs: 201 filas estimadas

Impacto:

Eso confirma actividad real del scheduler y de integraciones externas en la plataforma, aunque no identifica por si solo scrapers especificos de negocio.

5. Media: hay cobertura razonable de performance y filtrado para monitoreo

El esquema incluye indices utiles para observabilidad:

  • Executions: indices por Status, StartedAt, TaskId, TriggeredBy, ProjectId
  • ScheduledTask: indices por ProjectId, AgentId, Priority, DependsOnTaskId, Slug
  • WebhookTriggerLogs: indices por TriggerId, TriggeredAt
  • system_logs: indices por timestamp, level, service_name, execution_id, category y un GIN sobre properties

Impacto:

La base esta preparada para consultas operativas de salud, pero falta el reporte o dashboard que las materialice.

6. Media: system_logs esta desacoplada del grafo relacional principal

El reporte de esquema marca public.system_logs como tabla aislada y ademas como outlier de naming frente al resto del dominio.

Impacto:

Eso no impide monitoreo, pero dificulta integridad referencial y aumenta el riesgo de correlacion incompleta entre logs y ejecuciones si execution_id queda solo como texto.

7. Media: la documentacion describe alertas y reportes, pero no demuestra que esten configurados

La wiki documenta:

  • alertas por tasa de fallos, duracion y cola de tareas
  • historial de ejecuciones con tasa de exito
  • logs exportables y filtrables
  • reportes programados

Impacto:

Estas capacidades existen a nivel funcional documentado, pero no hay evidencia en el repo de umbrales, alertas activas o scrapers efectivamente conectados a esos controles.

Estado Verificable

Con la evidencia disponible, esto es lo que si puede afirmarse:

Area Estado Evidencia
Scheduling de scrapers Verificado ScheduledTask + docs de tareas programadas
Historial de ejecucion Verificado Executions + docs de historial/estados
Triggers externos Verificado WebhookTriggerLogs y WebhookTriggers
Logging centralizado Verificado system_logs
Integraciones de sync Verificado ClickUpSyncLogs con volumen real
Salud actual por scraper No verificable No hay inventario ni metricas vivas por scraper
Freshness de datos recolectados No verificable No se hallaron tablas o reportes de latencia por fuente
Fallos consecutivos por scraper No verificable No hay consulta o export runtime en este workspace

Modelo Operativo Deducido

El pipeline mas probable para un scraper dentro de Nexus es:

  1. Se define una tarea en ScheduledTask con CRON o trigger externo.
  2. El scheduler o webhook crea una fila en Executions.
  3. La corrida escribe resultado, errores y metricas en Executions.
  4. El detalle tecnico se correlaciona en system_logs mediante execution_id.
  5. Si la fuente es externa, puede quedar rastro complementario en tablas de integracion como WebhookTriggerLogs o ClickUpSyncLogs.

Esto es una inferencia fuerte basada en esquema y documentacion, no una validacion de codigo runtime.

Riesgos Operativos Detectados

  • No hay evidencia de SLI/SLO por scraper.
  • No hay evidencia de metricas de freshness o lag de ingestion.
  • No hay evidencia de identificador canonico que separe scrapers de otras tareas genericas.
  • system_logs no tiene FK a Executions, lo que permite drift en correlacion.
  • La documentacion muestra alertas y reportes, pero no la configuracion activa ni su cobertura real.

Tests y Controles Faltantes

  • Consulta automatizada de ScheduledTask.Enabled = true con ultima ejecucion y proxima ejecucion.
  • Reporte de Executions por tarea con tasa de exito, timeout y fallos consecutivos.
  • Deteccion de tareas activas sin LastRun o con NextRun vencido.
  • Deteccion de integraciones con errores repetidos en WebhookTriggerLogs o ClickUpSyncLogs.
  • Dashboard de logs por execution_id, service_name y level.
  • Prueba de freshness sobre las tablas destino de cada scraper.

Conclusion

La revision confirma que Nexus Platform tiene infraestructura real para operar scrapers y monitorear ejecuciones, pero no aporta evidencia suficiente para declarar el estado actual de cada scraper concreto.

La conclusion tecnica correcta es:

  • la plataforma de scrapers existe y esta respaldada por esquema real
  • la salud operacional puntual de los scrapers no puede cerrarse con este workspace
  • hace falta acceso a consultas runtime, dashboards o al servicio que ejecuta los scrapers para una verificacion completa