1. Conceptos básicos de análisis de datos y su gestión en las HD
Lectura 3 - García-Serrano, A. y Menta-Garuz, A (2022). ‘La inteligencia artificial en las Humanidades Digitales: dos experiencias con corpus digitales.’ Revista de Humanidades Digitales, 7, 19-39. ISSN 2531-1786.
García-Serrano, A. y Menta-Garuz nos exponen dos proyectos de inteligencia artificial donde resaltan la interrelación de las competencias humanistas y tecnológicas en el desarrollo de las diferentes fases del proyecto. Una correcta definición del alcance implica analizar el problema y relacionarlo con la tecnología necesaria, es un proceso que requiere una efectiva comunicación y colaboración entre los equipos. Destaca la versatilidad de las técnicas consciente de que éstas no pueden “hacerlo todo” así como también la importancia de la comunicación eficaz en las pruebas de usuario.
El primer proyecto es la atribución de autoría de texto, con el uso de técnicas y herramientas de estilometría, agrupamiento (clustering) y clasificación, los datos se muestran en un grafo “dendograma”. El segundo proyecto parte de la la Colección de mapas, planos y dibujos del Archivo General de Simancas para el desarrollo de una aplicación web de búsquedas sobre el contenido como apoyo a la investigación histórica. La aplicación del Análisis formal de Conceptos permite inferir nuevas relaciones entre los datos que resultan en nuevos criterios de organización de los mismos.
Resumen EGA: A continuación se incluye texto original y se ha realizado en base a la referencia bibliográfica que se indica y ha sido realizado con fines exclusivamente académicos.
Las Humanidades Digitales (HD) son un área de investigación, enseñanza y creación en la que convergen las Humanidades y la Informática y en la que se trabaja sobre materiales previamente digitalizados u originados en el medio digital. Conocer el problema e identificar la tecnología necesaria exige la comunicación efectiva y procesos colaborativos.
IA, el PLN y el análisis de datos son las tres áreas de la Informática que más aparecen en proyectos actuales de Humanidades.
En PLN, hay ejemplos bien conocidos, como los diccionarios digitales, los asistentes de voz, como Alexa o Cortana, traductores como el de Google o analizadores sintácticos.
El análisis de los datos con técnicas estadísticas básicas o con aproximaciones más avanzadas que exigen la disponibilidad de corpus digitales de gran tamaño y convenientemente anotados para facilitar a los algoritmos ejemplos de las regularidades e irregularidades del corpus.
La atribución de autoría para una serie de novelas italianas de gran éxito de ventas y que se publicaban bajo pseudónimo. explotan técnicas y herramientas de estilometría y de agrupamiento (clustering) y clasificación.
El inicio de la investigación es el desarrollo de un corpus digital con 150 obras de 40 autores italianos (modernos), entre los que se destacan 13 mujeres novelistas y 11 autores de una determinada región italiana.
Una fuente muy importante de información para el análisis de corpus textuales (text mining) en el área de la Informática son las referencias PAN (Webis Group, 2021), un foro internacional en el que se comparan y evalúan los resultados obtenidos por diferentes investigadores al aplicar sus algoritmos y aproximaciones al mismo corpus y en una misma tarea bien definida.
Para el análisis de la autoría se estudia el estilo de la escritura del autor. utilizan la teoría léxica de Correspondence Analysis (CA) (Murtagh, 2017) que agrupa objetos (palabras, párrafos o
novelas) de acuerdo con su similitud. Las novelas consideradas para cada autor forman cuarenta sub-corpus representativos de cada autor. Se utiliza la técnica estadística de Hierarchical Aglomerative Clustering (HAC) (Kunenets, 2016) con el fin de dividir un conjunto de objetos en grupos homogéneos utilizando un principio de similitud. Este método permite mostrar el resultado con un tipo de gráfico especial (figura 2) denominado dendrograma (representación en forma de árbol donde cada nivel indica una subcategoría del anterior) que muestra la cercanía o similitud entre los objetos que se clasifican.
El corpus digital con el que se comienza a trabajar en el proyecto DIMH ya estaba desarrollado: es la Colección de mapas, planos y dibujos del Archivo General de Simancas (AGS).
Una de las primeras actuaciones que se realizan en los corpus digitales en las HD es identificar las palabras de contenido denominadas entidades nombradas, que se refieren a nombres propios, localidades, organizaciones y otras para indicar su aparición mediante anotaciones.
Se desarrolló una aplicación web para búsquedas sobre el contenido, tanto basadas en palabras clave como configurables por el usuario, sobre algunos de los parámetros de la estructura de metadatos de los documentos del corpus o sobre el tipo de información lingüística contenida en el corpus. Se desarrolló una aplicación que utilizando una técnica analítica identificara automáticamente la estructura no visible de la información (sus relaciones).
Uno de los enfoques analíticos muy utilizado en HD se basa en el análisis de las características del contenido mediante la aplicación de técnicas probabilísticas, principalmente
Latent Dirichlet Allocation (LDA). Aunque las técnicas probabilísticas han demostrado su potencial, su desventaja más importante está relacionada con la dificultad de visualización e interpretación de la agrupación obtenida. Para resolver este problema, en el caso de estudio DIMH se propuso una organización de contenido basada en una representación conceptual de los datos, el Análisis formal de Conceptos (FCA, en sus siglas en inglés) para inferir relaciones entre los datos y organizarlos de acuerdo con estas relaciones.
En DIMH se diseñó e implementó el modelo basado en FCA El proceso consiste en:
- Extracción de información de las fichas: Se extrajo solo el contenido de los metadatos.
- Creación del contexto formal: mediante una matriz de adyacencia (tabla) que indica cuándo una palabra (término o atributo) aparece o no en el contenido de cada ficha
(objeto). - Reducción del contexto formal: La reducción consistió en encontrar aquella terminología que permite identificar más relaciones entre las fichas, sin pérdida significativa de información,
- Ejecución del algoritmo de FCA: Se generan los conceptos formales con el algoritmo de Next Neighbourhoods
Las pruebas de usuario con los historiadores del arte, agrupaciones echaron en falta otras que ellos deseaban encontrar. Se decidió, construir una taxonomía que además de la información contenida en las fichas, incorporara los detalles de interés. Tanto la etapa de desarrollo de interfaces como la de evaluación de la aplicación desarrollada con usuarios son cruciales, sin embargo, en los proyectos de investigación no suele haber tiempo ni recursos para realizarlas.
Del trabajo realizado en este caso de estudio se han obtenido resultados como un software relacionado el corpus DIMH y una ontología en Protégé (herramienta open source)
desarrollada para una práctica en un curso de máster de investigación en tecnologías de la lengua.
Desataca la versatilidad de las técnicas disponibles actualmente, y que van desde la utilización de la estilometría y el posterior agrupamiento de las características obtenidas, hasta la utilización de análisis formal de conceptos y la extracción de entidades nombradas como pueden ser nombres propios o localidades.
El caso del análisis de datos masivos y del deep learning, campos en los que no tienen los mismos objetivos en Informática y en Humanidades. Las dos son aproximaciones de tipo caja negra en la que la casi total ausencia de explicaciones y visualización de los resultados dificulta el análisis final cualitativo de los usuarios, aspecto muy relevante en los proyectos de HD.