Characterizing Asymmetries in the TenTen Corpus Family Membership: An Implicit Hierarchy in Multilingual Digital Tools
Resumen: In this work, we examine the limitations of digital tools in facilitating cross-linguistic and cross-cultural research from a humanistic perspective. Our primary objective is to draw comparisons between the TenTen corpora, assessing their degree of similarity. In order to achieve this goal, we will conduct cluster analysis on the 43 corpora within the TenTen Corpus Family using a set of parameters that characterize this family membership. This analysis pinpoints the TenTen corpora that exhibit the most similar characteristics within the family, bringing to the surface an implicit hierarchy within the Sketch Engine platform, a multilingual digital tool environment. This hierarchy is structured into four distinct clusters, definable by size, number of functional tools, versions, and Part-of-Speech (PoS) tagging. The findings of the current study call for prudence when comparing the TenTen corpora, but also suggest a way of improving a multilingual environment; the examination and establishment of connections among the TenTen corpora are imperative for a comprehensive understanding of multilingualism in Digital Humanities.

Dans ce travail, nous examinons les limites des outils numériques dans la facilitation de la recherche interlinguistique et interculturelle d’un point de vue humaniste. Notre objectif principal est de comparer les corpus TenTen, en évaluant leur degré de similarité. Pour atteindre cet objectif, nous réaliserons une analyse de regroupement sur les 43 corpus de la famille des corpus TenTen en utilisant un ensemble de paramètres caractérisant cette appartenance familiale. Cette analyse identifie les corpus TenTen qui présentent les caractéristiques les plus similaires au sein de la famille, révélant une hiérarchie implicite au sein de la plateforme Sketch Engine, un environnement d’outils numériques multilingues. Cette hiérarchie est structurée en quatre groupes distincts, définis par la taille, le nombre d’outils fonctionnels, les versions et le marquage des parties du discours (PoS). Les résultats de l’étude actuelle appellent à la prudence lors de la comparaison des corpus TenTen, mais suggèrent également un moyen d’améliorer un environnement multilingue ; l’examen et l’établissement de connexions entre les corpus TenTen sont impératifs pour une compréhension complète du multilinguisme dans les Humanités Numériques.

Idioma: Inglés
DOI: 10.16995/dscn.16533
Año: 2025
Publicado en: Digital Studies/ Le Champ Numerique 15, 1 (2025), [18 pp.]
ISSN: 1918-3666

Financiación: info:eu-repo/grantAgreement/ES/DGA/H34
Financiación: info:eu-repo/grantAgreement/ES/MICINN/PID2021-122872NB-C21
Financiación: info:eu-repo/grantAgreement/ES/MICIU/PID2023-150396OA-I00
Tipo y forma: Artículo (Versión definitiva)
Área (Departamento): Área Estudios Arabes Islámicos (Dpto. Lingüíst.y Liter.Hispán.)

Creative Commons Debe reconocer adecuadamente la autoría, proporcionar un enlace a la licencia e indicar si se han realizado cambios. Puede hacerlo de cualquier manera razonable, pero no de una manera que sugiera que tiene el apoyo del licenciador o lo recibe por el uso que hace.


Exportado de SIDERAL (2025-10-17-14:13:41)


Visitas y descargas

Este artículo se encuentra en las siguientes colecciones:
Artículos > Artículos por área > Estudios Arabes e Islámicos



 Registro creado el 2025-08-18, última modificación el 2025-10-17


Versión publicada:
 PDF
Valore este documento:

Rate this document:
1
2
3
 
(Sin ninguna reseña)