Este artÃculo presenta un conjunto de procedimientos automatizados aplicados a la codificación y al análisis de un corpus poético que incluye las obras de Cayo Valerio Catulo, Albio Tibulo y Sexto Propercio. Para ello se diseñó un pipeline reproducible de procedimientos automatizados con el fin de codificar y analizar los textos latinos, integrando PLN con LatinCy (spaCy) y codificación XML-TEI. El flujo genera TEI con teiHeader y cuerpo, versos segmentados y numerados, marcado preliminar de entidades (personas, lugares o grupos) y anotación temática basada en el Diccionario de motivos amatorios de Moreno Soldevila mediante n-gramas y distancia de Levenshtein, implementada en tres modalidades TEI (stand-off, flatten e hÃbrida). Como productos principales, se obtuvieron 200 archivos TEI validados, un CSV consolidado de entidades con candidatos e identificadores recuperados desde VIAF, Pleiades y Wikidata (reutilizable para curadurÃa y enriquecimiento posterior), y un conjunto de visualizaciones (barras y grafos de coocurrencia) para comparar patrones del imaginario amoroso entre autores; en la ejecución completa se registraron, además, 371 tópicos en Catulo, 450 en Tibulo y 730 en Propercio. Aunque los resultados no reemplazan la validación filológica (por ambigüedad, ruido de NER y falsos positivos/negativos en el matching), el enfoque ofrece una base técnica sólida para ediciones digitales semánticamente enriquecidas y para análisis exploratorios o cuantitativos con trazabilidad y supervisión editorial.
@article{Nusch_TEI_2026,
doi = {10.4000/16a7i},
year = {2026},
month = {Mayo},
title = {De Catulo a Wikidata: Automatización de tareas de codificación utilizando modelos de lenguaje, esquemas de metadatos y ontologÃas para un borrador de edición digital con el estándar XML-TEI},
author = {Nusch, Carlos Javier and Calarco, Gabriel Alejandro and Riande, Gimena del Rio and Cagnina, Leticia Cecilia and Antonelli, Leandro and Errecalde, Marcelo Luis},
volume = {2026},
journal = {Journal of the Text Encoding Initiative},
abstract = {Este artÃculo presenta un conjunto de procedimientos automatizados aplicados a la codificación y al análisis de un corpus poético que incluye las obras de Cayo Valerio Catulo, Albio Tibulo y Sexto Propercio. Para ello se diseñó un pipeline reproducible de procedimientos automatizados con el fin de codificar y analizar los textos latinos, integrando PLN con LatinCy (spaCy) y codificación XML-TEI. El flujo genera TEI con teiHeader y cuerpo, versos segmentados y numerados, marcado preliminar de entidades (personas, lugares o grupos) y anotación temática basada en el Diccionario de motivos amatorios de Moreno Soldevila mediante n-gramas y distancia de Levenshtein, implementada en tres modalidades TEI (stand-off, flatten e hÃbrida). Como productos principales, se obtuvieron 200 archivos TEI validados, un CSV consolidado de entidades con candidatos e identificadores recuperados desde VIAF, Pleiades y Wikidata (reutilizable para curadurÃa y enriquecimiento posterior), y un conjunto de visualizaciones (barras y grafos de coocurrencia) para comparar patrones del imaginario amoroso entre autores; en la ejecución completa se registraron, además, 371 tópicos en Catulo, 450 en Tibulo y 730 en Propercio. Aunque los resultados no reemplazan la validación filológica (por ambigüedad, ruido de NER y falsos positivos/negativos en el matching), el enfoque ofrece una base técnica sólida para ediciones digitales semánticamente enriquecidas y para análisis exploratorios o cuantitativos con trazabilidad y supervisión editorial.},
}