Modelo combinado de co-training y aprendizaje por transferencia para clasificación de documentos, a partir de un análisis comparativo de modelos de aprendizaje semi-supervisados

Timeline: Mar 2018 – Nov 2025

•

100% Progress

Thesis Abstract

La escasez de documentos etiquetados en la mayoría de los conjuntos de datos en distintos dominios dificulta la correcta clasificación de documentos y la generación de aprendizaje, además de implicar altos costos en términos de recursos para su proceso de etiquetado. En este contexto, los modelos de aprendizaje semi-supervisados (Semi-Supervised Learning, SSL) surgen como una alternativa para mitigar esta limitación, sin embargo, la falta de un análisis comparativo que evidencie las fortalezas y debilidades de los distintos tipos de modelos dificulta su selección. Así, se plantea una Revisión de Literatura Sistemática (Systematic Literature Review, SLR) que identifica que las principales limitaciones de los modelos están relacionadas con los límites de decisión y la adaptación de dominio, factores que afectan sus niveles de rendimiento medidos en precisión. Es por esta razón que en la presente tesis se propone diseñar un modelo combinado de clasificación SSL que optimiza el proceso de etiquetado y la clasificación de documentos, mejorando su eficacia y niveles de precisión. Para ello, se desarrolla un marco comparativo que evalúa los distintos tipos de modelos y se implementa una estructura que integra las mejores prácticas identificadas. La metodología de trabajo para el análisis de los modelos se fundamenta en el enfoque PICOC para la estrategia de búsqueda y en la guía PRISMA para la definición de los criterios de exclusión. El modelo propuesto se estructura empleando una combinación de técnicas de coentrenamiento y transferencia de aprendizaje (COTRA) para el procesamiento y entrenamiento de datos respectivamente, su entrenamiento se refuerza mediante el uso del conjunto de datos pre-entrenado de BERT. A diferencia de modelos previos, la estructura de COTRA fortalece el estado del arte al abordar de manera conjunta los desafíos de adaptación de dominio y límite de decisión. Esto se logra mediante una representación multivista optimizada que integra diversas representaciones de documentos con información complementaria proveniente de fuentes pre-entrenadas. Esta estrategia permite reducir la incertidumbre en la asignación de etiquetas y mejorar la capacidad de generalización en escenarios con datos etiquetados limitados, proporcionando un modelo más robusto y adaptable para la clasificación de textos en contextos con restricciones de datos. Para la evaluación de COTRA, se llevaron a cabo experimentos con documentos científicos clasificados en cinco y once categorías correspondientes a sus áreas de estudio. El modelo se comparó con modelos SSL individuales basados en auto-entrenamiento, así también con modelos que incorporan co-entrenamiento, algoritmos genéticos y aprendizaje por transferencia a través de pipelines de clasificación como enfoques zero-shot. COTRA ha logrado los mejores niveles de rendimiento en comparación con el resto de modelos, alcanzando una precisión máxima de 0,87 entre los modelos de co-entrenamiento, frente a la mejor métrica de 0,78 obtenida por los modelos individuales de auto-entrenamiento en la clasificación de cinco categorías. Estos resultados indican que el co-entrenamiento representa una estrategia efectiva para mejorar el desempeño predictivo en la clasificación de documentos.

Related Projects

Técnicas de Inteligencia Artificial Neuro-simbólica

Agency: Comisión de Investigaciones Científicas y Facultad de Informática y Universidad Abierta Interamericana

Timeline: 2019 - 2025

Ingeniería de software centrada en el usuario de plataformas de participación ciudadana motorizadas por inteligencia artificial

11/F033

Agency: UNLP

Timeline: 2025 - 2026

Related Publications

Cevallos-Culqui, A., Pons, C., & Rodríguez, G. (2024). A Co-Training Model Based in Learning Transfer for the Classification of Research Papers. 2024 IEEE 12th International Conference on Intelligent Systems (IS), 1–6. https://doi.org/10.1109/is61756.2024.10705226

inproceedings

#requirements engineering

#software engineering

PDF BibTeX Details

Thesis Profile

Student

Alex Santiago Cevallos Culqui

Career / Program

Doctorado en Ciencias Informáticas de la UNLP

Director

Claudia Pons

Co-Director

Gustavo Rodriguez Barcenas (Universidad Técnica de Cotopaxi)

Thesis Completion Milestone

100%

Download Thesis Manuscript

Involved lab members

Gabriela Perez

Investigador

Claudia Pons

Investigador

Scientific Keywords

Keywords:

clasificación de documentos, machine learning, aprendizaje de máquina, modelos de lenguaje, aprendizaje semi-supervizado

#ai-assisted development

#formal methods