| 1. IDENTIFICACIÓN DE LA ASIGNATURA | |||||
| NOMBRE DEL DOCENTE: | Alvaro Andrés Jiménez Ocaña | ||||
| IDENTIFICACIÓN: | C.C. N.° 87066592 | ||||
| CORREO ELECTRÓNICO: | andresjimenez@udenar.edu.co | ||||
| NOMBRE DE LA ASIGNATURA O CURSO: | Aprendizaje por Refuerzo para Control y Decisión Inteligente | ||||
| CÓDIGO DE LA ASIGNATURA: | MaIE – RL | ||||
| SEMESTRE(S) A LOS CUALES SE OFRECE: | 2 | ||||
|
INTENSIDAD HORARIA SEMANAL: |
HORAS TEÓRICAS | HORAS PRÁCTICAS | HORAS ADICIONALES | HORAS TOTALES | |
| 3 | 0 | 9 | 12 | ||
| NÚMERO DE CRÉDITOS: | 4 | ||||
| FECHA ÚLTIMA ACTUALIZACIÓN: | 29-12-2025 | REVISADA POR: | PhD. WILSON ACHICANOY
Coordinador MaIE |
||
| 2. JUSTIFICACIÓN |
| El aprendizaje por refuerzo (Reinforcement Learning, RL) constituye uno de los paradigmas fundamentales de la inteligencia artificial moderna para la toma de decisiones secuenciales bajo incertidumbre. A diferencia del aprendizaje supervisado y no supervisado, el RL aborda problemas donde un agente debe interactuar con un entorno dinámico, modelado generalmente como un Proceso de Decisión de Markov, con el objetivo de aprender políticas óptimas a partir de señales de recompensa.
En el contexto de la ingeniería electrónica y de control, el RL ha emergido como una herramienta clave para el diseño de estrategias de control basadas en datos, especialmente en sistemas complejos, no lineales, estocásticos o parcialmente conocidos, donde los enfoques clásicos presentan limitaciones. Aplicaciones recientes incluyen control óptimo aproximado, robótica autónoma, sistemas energéticos, telecomunicaciones y optimización en tiempo real. |
| 3. OBJETIVOS |
| GENERAL:
Desarrollar en los estudiantes competencias avanzadas para la formulación, análisis, implementación y evaluación de algoritmos de aprendizaje por refuerzo, aplicados a problemas de decisión secuencial y control en sistemas dinámicos y estocásticos. |
| ESPECÍFICOS: |
| · Formular rigurosamente problemas de aprendizaje por refuerzo mediante el marco de los Procesos de Decisión de Markov, identificando estados, acciones, recompensas, dinámicas y políticas en sistemas de decisión secuencial.
· Analizar y comparar críticamente los principales métodos clásicos de aprendizaje por refuerzo, incluyendo bandits, programación dinámica, Monte Carlo y diferencias temporales, evaluando sus supuestos, propiedades de convergencia y limitaciones prácticas. · Implementar y evaluar algoritmos de control por refuerzo tabulares y aproximados, tales como SARSA, Q-Learning y sus extensiones, utilizando simulaciones computacionales y métricas de desempeño adecuadas. · Introducir y aplicar el uso de aproximación de funciones y redes neuronales en aprendizaje por refuerzo, analizando los fundamentos, ventajas y riesgos del aprendizaje profundo por refuerzo en problemas de control y toma de decisiones. |
| 4. METODOLOGÍA |
| La metodología del curso combina clases magistrales con talleres analíticos, simulaciones computacionales y un proyecto final integrador.
Las sesiones teóricas se centran en la formulación matemática de los modelos y algoritmos, apoyadas en demostraciones, ejemplos canónicos y análisis crítico de resultados. Paralelamente, se desarrollan talleres de simulación orientados a la implementación de algoritmos de RL en entornos controlados, utilizando Python como herramienta principal, con el apoyo también de MATLAB.
El curso enfatiza el aprendizaje activo, donde el estudiante contrasta teoría y práctica mediante experimentos computacionales, análisis de convergencia, evaluación de políticas y comparación de métodos. El proyecto final promueve la integración de conceptos y el planteamiento de problemas con potencial de investigación o desarrollo de tesis. |
| 5. CRITERIOS DE EVALUACIÓN |
| La evaluación del curso se realizará mediante la integración de actividades teórico–prácticas y un proyecto final, orientadas a verificar la apropiación de los fundamentos conceptuales del aprendizaje por refuerzo y su correcta aplicación mediante simulación computacional.
Para ello, se establecen los siguientes componentes de evaluación:
· Talleres teórico–prácticos (70%). A lo largo del curso, el estudiante desarrollará talleres teórico–prácticos asociados a las diferentes unidades temáticas. Estos talleres integran: Ø análisis conceptual y matemático de los métodos de aprendizaje por refuerzo, Ø formulación de problemas de decisión secuencial, Ø implementación computacional de algoritmos mediante simulación, Ø y análisis crítico del desempeño y comportamiento de las políticas aprendidas. Todos los talleres tendrán el mismo peso porcentual dentro de este componente y estarán orientados a evaluar la comprensión profunda de los fundamentos y métodos del aprendizaje por refuerzo. |
| 6. CONTENIDO | ||
| HT/HP | TEMA O CAPÍTULO | FORMA DE EVALUACIÓN |
|
6 horas (2 semanas) |
Unidad 1. Introducción al Aprendizaje por Refuerzo.
En esta unidad el estudiante comprenderá el aprendizaje por refuerzo como un paradigma de aprendizaje basado en interacción, diferenciándolo del aprendizaje supervisado y no supervisado. Se introducen los conceptos fundamentales del problema de decisión secuencial, la señal de recompensa y la noción de política, estableciendo el marco conceptual del curso. · Semana 1. Introducción al Aprendizaje por Refuerzo. Tipos de aprendizaje automático. Motivación del aprendizaje por refuerzo. Interfaz agente–entorno. Ejemplos clásicos de RL. · Semana 2. Elementos de un problema de RL. Estados, acciones y recompensas. Episodios y retorno acumulado. Políticas determinísticas y estocásticas. Horizonte de planificación y factor de descuento. |
Taller Teórico-Práctico |
|
6 horas (2 semanas) |
Unidad 2. Multi-Armed Bandits y Exploración–Explotación.
Esta unidad aborda el dilema exploración–explotación a través del problema de los multi-armed bandits, analizando métodos fundamentales de selección de acciones en entornos sin dinámica de estados explícita. · Semana 3. Problema del bandido. One-armed y multi-armed bandits. Recompensa esperada. Métricas de desempeño. · Semana 4. Métodos de exploración. ε-greedy. Inicialización optimista. UCB. Bandits no estacionarios. |
Taller Teórico-Práctico |
|
9 horas (3 semanas) |
Unidad 3. Procesos de Decisión de Markov (MDP).
Se introduce la formulación matemática rigurosa del aprendizaje por refuerzo mediante Procesos de Decisión de Markov, analizando la dinámica del sistema, las políticas y las funciones de valor como base para los métodos de solución. · Semana 5. Definición de MDP. Propiedad de Markov. Estados, acciones y transiciones. Recompensa esperada. · Semana 6. Retorno y políticas. Retorno acumulado y descuento. Políticas determinísticas y estocásticas. Interpretación del control como RL. · Semana 7. Funciones de valor. Función de valor de estado y de acción. Interpretación y ejemplos. |
Taller Teórico-Práctico |
|
9 horas (3 semanas) |
Unidad 4. Programación Dinámica.
En esta unidad se estudian los métodos de programación dinámica como solución exacta de MDPs conocidos, estableciendo el marco teórico fundamental para los métodos aproximados del aprendizaje por refuerzo. |
Taller Teórico-Práctico |
| · Semana 8. Ecuaciones de Bellman. Ecuaciones de Bellman para evaluación de políticas. Diagramas de backup.
· Semana 9. Iteración de políticas. Evaluación y mejoramiento de políticas. Policy iteration. · Semana 10. Iteración de valor. Value iteration. Comparación con policy iteration. Ejemplos clásicos (Gridworld, Gambler). |
||
|
9 horas (3 semanas) |
Unidad 5. Métodos de Monte Carlo.
Esta unidad aborda métodos de aprendizaje basados en muestreo de episodios completos, analizando evaluación y control de políticas sin conocimiento previo del modelo del entorno. · Semana 11. Evaluación Monte Carlo. MC de primera visita y cada visita. Estimación del valor de estados. · Semana 12. Control Monte Carlo. Control on-policy. Control off-policy. Importance Sampling. · Semana 13. Análisis y limitaciones. Varianza y convergencia. Comparación con programación dinámica. |
Taller Teórico-Práctico |
|
9 horas (3 semanas) |
Unidad 6. Diferencias Temporales y Aproximación de Funciones.
Se estudian los métodos de diferencias temporales como combinación de programación dinámica y Monte Carlo, y se introduce la aproximación de funciones y el aprendizaje profundo por refuerzo como extensión a espacios grandes o continuos. · Semana 14. Diferencias Temporales. TD(0) y TD(λ). Error TD. |
Taller Teórico-Práctico |
| · Semana 15. Control por Refuerzo. SARSA. Q-Learning. Sesgo de maximización y Double Q-Learning.
· Semana 16. Aproximación de funciones y Deep RL. Aproximación lineal y no lineal. Redes neuronales en RL. DQN y Double DQN. Discusión crítica y limitaciones. |
*: HT: Número de horas teóricas. HP: Número de horas prácticas.
| 7. APORTE A LOS RESULTADOS DE APRENDIZAJE | ||||
|
No. |
Descripción del resultado de aprendizaje:
El Magíster en Ingeniería Electrónica de la Universidad de Nariño … |
Aporte | ||
| Bajo | Medio | Alto | ||
|
1 |
RA2 (si se elige como electivo): Aplica nuevos métodos y herramientas avanzadas, propias de la Ingeniería Electrónica y otras disciplinas, para la comprensión y solución de problemas de ingeniería. |
X |
||
|
2 |
RA4 (si se elige como profundización): Resuelve problemas complejos y de dinámicas particulares mediante el uso de conocimiento y técnicas avanzadas y especializadas desde las líneas de investigación propias de la Ingeniería Electrónica y otras disciplinas, para el desarrollo de soluciones específicas y con impacto en el desarrollo investigativo. |
X |
||
| FIRMA DOCENTE |
| Alvaro Andrés Jiménez Ocaña Departamento de Electrónica |
Dpto. Electrónica Universidad de Nariño