Programa de Procesamiento de Lenguaje Natural (NLP)

Duración: 20 Semanas

Semana	Tema	Entregable / Actividad
1	Introducción & Expresiones Regulares
	S1: ¿Qué es NLP? Historia (Test de Turing a ChatGPT)	Lectura introductoria
	S2: Expresiones Regulares: La navaja suiza del NLP	Quiz 1 (conceptos básicos)
	S3: Preprocesamiento básico: Tokenización, Lematización y Stemming	Práctica de laboratorio
2	Semántica Léxica & Espacio Vectorial
	S1: Bolsa de Palabras (BoW) y One-hot encoding
	S2: TF-IDF: Encontrando lo relevante en un documento	Quiz 2
	S3: Información Mutua Puntual (PMI) y N-gramas
3	Modelado de Lenguaje (Clásico)
	S1: Modelos de lenguaje N-gram y Regla de la Cadena
	S2: Evaluación: Perplejidad y técnicas de Suavizado	Quiz 3
	S3: Modelos Ocultos de Markov (HMM) para etiquetado POS
4	La Revolución Vectorial
	S1: Word2Vec: Skip-gram y CBOW
	S2: GloVe y FastText (embeddings de subpalabras)
	S3: Visualización de datos de alta dimensión (t-SNE y PCA)	📝 Tarea 1: Analizador de sentimiento usando TF-IDF + Regresión Logística
5	Redes Neuronales para NLP
	S1: Repaso de Perceptrones y Retropropagación
	S2: Perceptrones Multicapa para Clasificación de Texto	Quiz 4
	S3: Variantes de Descenso de Gradiente y Regularización (Dropout)
6	Redes Neuronales Recurrentes (RNNs)
	S1: Arquitectura RNN: Manejando longitud variable
	S2: Gradientes que desaparecen y la solución LSTM	Quiz 5
	S3: Unidades Recurrentes con Compuertas (GRU) y RNNs Bidireccionales
7	Secuencia a Secuencia (Seq2Seq)
	S1: Arquitecturas Codificador-Decodificador
	S2: Aplicaciones: Traducción Automática Neuronal (NMT)
	S3: El problema del “cuello de botella” y el nacimiento de la Atención
8	Redes Neuronales Convolucionales para NLP
	S1: Convoluciones 1D para texto
	S2: Max Pooling Global vs. Local	Quiz 6
	S3: Comparación RNNs vs. CNNs para clasificación	📝 Tarea 2: Generador de nombres a nivel de caracteres con LSTM
9	Auto-Atención & Transformers
	S1: Atención de Producto Escalar (Queries, Keys, Values)
	S2: Atención Multi-Cabeza y Codificación Posicional
	S3: El bloque Transformer completo (Residuales, Normalización)
10	BERT y la Revolución del Codificador
	S1: Modelado de Lenguaje Enmascarado (MLM)
	S2: Fine-tuning de BERT para tareas downstream (NER, SQuAD)	Repaso para examen parcial
	S3: Variaciones: RoBERTa, ALBERT y DistilBERT	Quiz 7
11	📚 EXAMEN PARCIAL	🎯 Examen Parcial (Semanas 1-10)
	Evaluación teórica de conceptos fundamentales	Cubre: Fundamentos, Modelos Clásicos, RNNs, Transformers básicos
12	GPT y la Revolución del Decodificador
	S1: Modelado de Lenguaje Causal
	S2: Aprendizaje Zero-shot, One-shot y Few-shot
	S3: Comparación modelos Autoregresivos (GPT) vs. Autoencoding (BERT)	📝 Tarea 3: Fine-tuning de BERT para Clasificación de Noticias con Hugging Face
13	Etiquetado de Secuencias & NER
	S1: Reconocimiento de Entidades Nombradas (NER) a profundidad
	S2: Campos Aleatorios Condicionales (CRF) vs. Softmax	Quiz 8
	S3: Extracción de Información y Extracción de Relaciones
14	Leyes de Escalamiento & Entrenamiento de LLMs
	S1: Cómputo, Datos y Parámetros: Por qué más grande es (usualmente) mejor
	S2: Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF)
	S3: Ajuste por Instrucciones vs. Pre-entrenamiento
15	Ingeniería de Prompts & Aprendizaje en Contexto
	S1: Prompting Cadena de Pensamiento (CoT)	Quiz 9
	S2: Auto-Consistencia y Árbol de Pensamientos
	S3: Hacking de Prompts y Vulnerabilidades
16	RAG: Generación Aumentada por Recuperación
	S1: Bases de Datos Vectoriales: Pinecone, Milvus, FAISS
	S2: Construyendo un pipeline RAG: Recuperador + Generador
	S3: Búsqueda Semántica vs. Búsqueda por Palabras Clave	📝 Tarea 4: Aplicación “Chat con tu PDF” usando RAG y API de Llama-3 o GPT-4o
17	Fine-Tuning Eficiente en Parámetros (PEFT)
	S1: Adaptadores y LoRA (Adaptación de Bajo Rango)	Quiz 10
	S2: Cuantización (4-bit, 8-bit) y bitsandbytes
	S3: Despliegue de modelos: ONNX y TensorRT
18	Ética en NLP & Dominios Especializados
	S1: Sesgo en Word Embeddings y LLMs
	S2: Alucinaciones, Seguridad y Red Teaming
	S3: NLP Multimodal (CLIP/LLaVA), NLP para Salud/Legal, Idiomas de bajos recursos	Entrega de propuesta de proyecto final
19	Taller de Proyecto Final I
	S1: Presentación de Propuestas de Proyectos	🎤 Presentaciones de propuestas (grupos)
	S2: Sesiones de revisión de código	Retroalimentación entre pares
	S3: Resolución de problemas / Horas de oficina
20	Taller de Proyecto Final II & Presentaciones
	S1: Depuración final
	S2: Presentaciones de Proyectos de Estudiantes	🎤 Presentaciones finales (grupos)
	S3: Futuro del NLP: AGI, Agentes y más allá	📦 Entrega final del proyecto

Resumen de Entregables

Entregable	Semana	Porcentaje
Quizzes (10 en total)	1-17	10%
Tarea 1: Analizador de Sentimiento	4	10%
Tarea 2: Generador de Nombres LSTM	8	10%
Examen Parcial	11	20%
Tarea 3: Fine-tuning BERT	12	10%
Tarea 4: Chat con PDF (RAG)	16	10%
Proyecto Final (Capstone)	20	30%
TOTAL		100%

Herramientas y Librerías Recomendadas

Lenguaje: Python 3.10+
Librerías principales:
- NLTK - Procesamiento de texto clásico
- spaCy - NLP industrial
- PyTorch - Framework de deep learning (preferido para investigación)
- Hugging Face (Transformers, Datasets, PEFT) - Modelos preentrenados
- LangChain - Aplicaciones con LLMs

Fechas Importantes

Evento	Semana	Descripción
📝 Tarea 1	4	Analizador de sentimiento TF-IDF
📝 Tarea 2	8	Generador LSTM de nombres
🎯 Examen Parcial	11	Evaluación teórica (Semanas 1-10)
📝 Tarea 3	12	Fine-tuning BERT
📝 Tarea 4	16	Aplicación RAG
📄 Propuesta Proyecto	18	Entrega de propuesta escrita
🎤 Presentación Propuestas	19	Presentaciones grupales
🎤 Presentaciones Finales	20	Demo de proyectos
📦 Entrega Final	20	Código + Documentación