Glosario¶

Definiciones concisas y técnicamente precisas de los términos usados a lo largo del curso. Donde es útil, cada entrada señala por qué el concepto importa en la práctica.

Plataforma Azure ML¶

Workspace (área de trabajo) : el contenedor de nivel superior de Azure ML y el límite de gobernanza que une cómputo, datos, modelos y endpoints bajo una única política de identidad y acceso.
Plano de control : la capa de metadatos/intención (registro de activos, historial de ejecuciones, RBAC, linaje).
Plano de datos : la capa de ejecución (cómputo, movimiento de datos, inferencia) donde se determinan el costo y el rendimiento.
Instancia de cómputo : una única VM siempre activa para desarrollo interactivo y depuración.
Clúster de cómputo : cómputo con autoescalado (0?N nodos) para entrenamiento, barridos y pruebas de AutoML; se reduce a cero cuando está inactivo.
Entorno : un tiempo de ejecución versionado y fijado (imagen base + dependencias) reutilizado en el entrenamiento y la inferencia para eliminar el sesgo entre entrenamiento y servicio.
Datastore : una conexión registrada al almacenamiento subyacente (por ejemplo, blob, data lake).
Activo de datos / conjunto de datos : un puntero versionado a una instantánea de datos específica usada por los trabajos.
Registro de modelos : almacén versionado de artefactos de modelos entrenados con linaje hacia la ejecución, los datos y el entorno que los produjeron.
Endpoint : la superficie de servicio desplegada y direccionable para un modelo (en línea o por lotes).
Linaje : la cadena registrada versión de datos ? ejecución ? versión del modelo ? revisión del endpoint que hace que las predicciones sean reproducibles y auditables.
Identidad administrada : una credencial administrada por Azure adjunta a una carga de trabajo para que los trabajos accedan a recursos sin secretos incrustados.
RBAC : control de acceso basado en roles; permisos otorgados a identidades mediante roles, aplicados con privilegio mínimo.

Conceptos básicos de ML¶

Aprendizaje supervisado / no supervisado / por refuerzo : aprendizaje a partir de datos etiquetados, de estructura no etiquetada y de la recompensa del entorno respectivamente.
Aprendizaje autosupervisado : fabricar una señal supervisada a partir de los datos mismos (predecir el token enmascarado); la base de los modelos fundacionales.
Característica (feature) : una variable de entrada; el vector de características \(x \in \mathbb{R}^d\) describe un ejemplo.
Etiqueta / objetivo : el valor que predice un modelo supervisado.
Parámetro : un valor aprendido durante el entrenamiento (un peso). Hiperparámetro : un valor establecido antes del entrenamiento (por ejemplo, tasa de aprendizaje, profundidad del árbol), ajustado con datos de validación.
Función de pérdida : puntúa cuán equivocada está una predicción; el entrenamiento minimiza su promedio (minimización del riesgo empírico).
Descenso de gradiente : actualización iterativa de parámetros \(\theta \leftarrow \theta - \eta\nabla\mathcal{L}\); \(\eta\) es la tasa de aprendizaje (tamaño del paso).
Regularización : una penalización que desalienta la complejidad; L1 induce dispersión (selección de características), L2 reduce los pesos para mayor estabilidad.
Sesgo / varianza : error por exceso de simplicidad (subajuste) vs error por exceso de sensibilidad a la muestra de entrenamiento (sobreajuste).
Sobreajuste (overfitting) : bajo error de entrenamiento pero alto error de prueba; el modelo memorizó el ruido.
Validación cruzada : rotar los pliegues de entrenamiento/validación para estimar la generalización con menor varianza.
Fuga de datos (data leakage) : información no disponible en el momento de la predicción que entra en el entrenamiento, inflando las métricas sin conexión.

Modelado y evaluación¶

Featurización : transformar campos en bruto en características listas para el modelo.
Regresión logística / sigmoide : modelo lineal con una sigmoide que aplasta la salida en una probabilidad.
Árbol de decisión / bosque aleatorio / gradient boosting : división de árboles por pureza; agrupar árboles (bosque) reduce la varianza; el boosting de árboles reduce secuencialmente el sesgo.
Ensamble (bagging / boosting / stacking) : combinar modelos para reducir la varianza, reducir el sesgo o aprender una combinación óptima.
Umbral : el punto de corte de probabilidad que convierte las puntuaciones en decisiones; ajustado por los costos de error.
Precisión / exhaustividad / F1 : corrección de los positivos / cobertura de los positivos / su media armónica.
ROC-AUC / PR-AUC : calidad de clasificación independiente del umbral en general / enfocada en la clase positiva.
MAE / RMSE / \(R^2\) : error absoluto promedio / error sensible a valores atípicos / ajuste vs el baseline de la media.
Calibración : concordancia entre las probabilidades predichas y las frecuencias observadas.
SHAP / LIME / importancia por permutación : atribución teórica de juegos / explicación local sustituta / importancia global basada en mezcla.

Operaciones y MLOps¶

Drift : cambio a lo largo del tiempo en las entradas (drift de covariables, \(P(X)\)) o en la relación entrada?objetivo (drift de concepto, \(P(Y\mid X)\)).
PSI : Índice de Estabilidad de la Población; un solo número que mide cuánto se movió una distribución respecto al baseline.
Endpoint (en línea vs por lotes) : solicitud/respuesta en tiempo real vs scoring masivo programado.
Blue/green, canary, shadow : estrategias de lanzamiento que equilibran la velocidad de reversión y la exposición de una nueva versión del modelo.
SLI / SLO : un indicador de fiabilidad medido / su umbral objetivo.
Arranque en frío (cold start) : latencia única de cargar el modelo cuando arranca una réplica de servicio.
CrashLoopBackOff : estado de Kubernetes donde un contenedor arranca y se cierra repetidamente; para ML, usualmente una carga fallida del modelo en init().
Sonda de preparación / vivacidad : verificaciones que controlan el tráfico hacia un pod / reinician un pod atascado.
Tarjeta de modelo (model card) : un documento que registra el uso previsto de un modelo, los datos, las métricas, la equidad, los límites y las operaciones.