Timeline: Mar 2018 – Nov 2025
•
La escasez de documentos etiquetados en la mayorÃa de los conjuntos de datos en distintos dominios dificulta la correcta clasificación de documentos y la generación de aprendizaje, además de implicar altos costos en términos de recursos para su proceso de etiquetado. En este contexto, los modelos de aprendizaje semi-supervisados (Semi-Supervised Learning, SSL) surgen como una alternativa para mitigar esta limitación, sin embargo, la falta de un análisis comparativo que evidencie las fortalezas y debilidades de los distintos tipos de modelos dificulta su selección. AsÃ, se plantea una Revisión de Literatura Sistemática (Systematic Literature Review, SLR) que identifica que las principales limitaciones de los modelos están relacionadas con los lÃmites de decisión y la adaptación de dominio, factores que afectan sus niveles de rendimiento medidos en precisión. Es por esta razón que en la presente tesis se propone diseñar un modelo combinado de clasificación SSL que optimiza el proceso de etiquetado y la clasificación de documentos, mejorando su eficacia y niveles de precisión. Para ello, se desarrolla un marco comparativo que evalúa los distintos tipos de modelos y se implementa una estructura que integra las mejores prácticas identificadas. La metodologÃa de trabajo para el análisis de los modelos se fundamenta en el enfoque PICOC para la estrategia de búsqueda y en la guÃa PRISMA para la definición de los criterios de exclusión. El modelo propuesto se estructura empleando una combinación de técnicas de coentrenamiento y transferencia de aprendizaje (COTRA) para el procesamiento y entrenamiento de datos respectivamente, su entrenamiento se refuerza mediante el uso del conjunto de datos pre-entrenado de BERT. A diferencia de modelos previos, la estructura de COTRA fortalece el estado del arte al abordar de manera conjunta los desafÃos de adaptación de dominio y lÃmite de decisión. Esto se logra mediante una representación multivista optimizada que integra diversas representaciones de documentos con información complementaria proveniente de fuentes pre-entrenadas. Esta estrategia permite reducir la incertidumbre en la asignación de etiquetas y mejorar la capacidad de generalización en escenarios con datos etiquetados limitados, proporcionando un modelo más robusto y adaptable para la clasificación de textos en contextos con restricciones de datos. Para la evaluación de COTRA, se llevaron a cabo experimentos con documentos cientÃficos clasificados en cinco y once categorÃas correspondientes a sus áreas de estudio. El modelo se comparó con modelos SSL individuales basados en auto-entrenamiento, asà también con modelos que incorporan co-entrenamiento, algoritmos genéticos y aprendizaje por transferencia a través de pipelines de clasificación como enfoques zero-shot. COTRA ha logrado los mejores niveles de rendimiento en comparación con el resto de modelos, alcanzando una precisión máxima de 0,87 entre los modelos de co-entrenamiento, frente a la mejor métrica de 0,78 obtenida por los modelos individuales de auto-entrenamiento en la clasificación de cinco categorÃas. Estos resultados indican que el co-entrenamiento representa una estrategia efectiva para mejorar el desempeño predictivo en la clasificación de documentos.
clasificación de documentos, machine learning, aprendizaje de máquina, modelos de lenguaje, aprendizaje semi-supervizado