article

De Catulo a Wikidata: Automatización de tareas de codificación utilizando modelos de lenguaje, esquemas de metadatos y ontologías para un borrador de edición digital con el estándar XML-TEI

Bibliography Reference

Format:
Nusch, C. J., Calarco, G. A., Riande, G. del R., Cagnina, L. C., Antonelli, L., & Errecalde, M. L. (2026). De Catulo a Wikidata: Automatización de tareas de codificación utilizando modelos de lenguaje, esquemas de metadatos y ontologías para un borrador de edición digital con el estándar XML-TEI. Journal of the Text Encoding Initiative, 2026. https://doi.org/10.4000/16a7i

Publication Abstract

Este artículo presenta un conjunto de procedimientos automatizados aplicados a la codificación y al análisis de un corpus poético que incluye las obras de Cayo Valerio Catulo, Albio Tibulo y Sexto Propercio. Para ello se diseñó un pipeline reproducible de procedimientos automatizados con el fin de codificar y analizar los textos latinos, integrando PLN con LatinCy (spaCy) y codificación XML-TEI. El flujo genera TEI con teiHeader y cuerpo, versos segmentados y numerados, marcado preliminar de entidades (personas, lugares o grupos) y anotación temática basada en el Diccionario de motivos amatorios de Moreno Soldevila mediante n-gramas y distancia de Levenshtein, implementada en tres modalidades TEI (stand-off, flatten e híbrida). Como productos principales, se obtuvieron 200 archivos TEI validados, un CSV consolidado de entidades con candidatos e identificadores recuperados desde VIAF, Pleiades y Wikidata (reutilizable para curaduría y enriquecimiento posterior), y un conjunto de visualizaciones (barras y grafos de coocurrencia) para comparar patrones del imaginario amoroso entre autores; en la ejecución completa se registraron, además, 371 tópicos en Catulo, 450 en Tibulo y 730 en Propercio. Aunque los resultados no reemplazan la validación filológica (por ambigüedad, ruido de NER y falsos positivos/negativos en el matching), el enfoque ofrece una base técnica sólida para ediciones digitales semánticamente enriquecidas y para análisis exploratorios o cuantitativos con trazabilidad y supervisión editorial.

BibTeX Source Entry

@article{Nusch_TEI_2026,
  doi = {10.4000/16a7i},
  year = {2026},
  month = {Mayo},
  title = {De Catulo a Wikidata: Automatización de tareas de codificación utilizando modelos de lenguaje, esquemas de metadatos y ontologías para un borrador de edición digital con el estándar XML-TEI},
  author = {Nusch, Carlos Javier and Calarco, Gabriel Alejandro and Riande, Gimena del Rio and Cagnina, Leticia Cecilia and Antonelli, Leandro and Errecalde, Marcelo Luis},
  volume = {2026},
  journal = {Journal of the Text Encoding Initiative},
  abstract = {Este artículo presenta un conjunto de procedimientos automatizados aplicados a la codificación y al análisis de un corpus poético que incluye las obras de Cayo Valerio Catulo, Albio Tibulo y Sexto Propercio. Para ello se diseñó un pipeline reproducible de procedimientos automatizados con el fin de codificar y analizar los textos latinos, integrando PLN con LatinCy (spaCy) y codificación XML-TEI. El flujo genera TEI con teiHeader y cuerpo, versos segmentados y numerados, marcado preliminar de entidades (personas, lugares o grupos) y anotación temática basada en el Diccionario de motivos amatorios de Moreno Soldevila mediante n-gramas y distancia de Levenshtein, implementada en tres modalidades TEI (stand-off, flatten e híbrida). Como productos principales, se obtuvieron 200 archivos TEI validados, un CSV consolidado de entidades con candidatos e identificadores recuperados desde VIAF, Pleiades y Wikidata (reutilizable para curaduría y enriquecimiento posterior), y un conjunto de visualizaciones (barras y grafos de coocurrencia) para comparar patrones del imaginario amoroso entre autores; en la ejecución completa se registraron, además, 371 tópicos en Catulo, 450 en Tibulo y 730 en Propercio. Aunque los resultados no reemplazan la validación filológica (por ambigüedad, ruido de NER y falsos positivos/negativos en el matching), el enfoque ofrece una base técnica sólida para ediciones digitales semánticamente enriquecidas y para análisis exploratorios o cuantitativos con trazabilidad y supervisión editorial.},
}

Publication Details

Publication Year
2026
Type
article
Keywords
#digital edition
#xml-tei
#latin poetry
#natural language processing
#latincy
#named entity recognition
#lemmatization
#thematic annotation
#levenshtein distance