Skip to main content

Técnicas y aproximaciones básicas para las humanidades digitales

1. Conceptos básicos de análisis de datos y su gestión en las HD.

Resumen EGA: Este documento incluye texto original y se ha realizado en base a la referencia bibliográfica que se indica y ha sido realizado con fines exclusivamente académicos.

Tema 1 – Lectura 4 – Técnicas y aproximaciones básicas para las humanidades digitales. Este documento (https://agora.uned.es/mod/resource/view.php?id=187269, disponible en el aula virtual) ha sido preparado para este curso con una breve descripción de herramientas que permiten utilizar técnicas de interés en las humanidades digitales. Se necesita hacer una lectura exploratoria en aquellas que sean de especial interés. Y se propone una actividad (PEC)

Técnicas básicas

Técnica: Conjunto de procedimientos o recursos que se usan en un arte, en una ciencia o en una actividad determinada, en especial cuando se adquieren por medio de su práctica y requieren habilidad. Las técnicas pueden clasificarse en cualitativas o cuantitativas.

Catálogos para buscar técnicas, herramientas y recursos para las HD. Entre ellos:

Análisis de frecuencias: VOYANT TOOLS

Voyant (https://voyant-tools.org/) es una aplicación web para el análisis de textos digitales.

Facilita información sobre la frecuencia y tendencia de las palabras que los componen. A nivel visual se muestra una nube de palabras que las representa con una magnitud proporcional a su frecuencia en el texto, y un gráfico que muestra las frecuencias de las palabras en cada segmento del texto. Un cuadro de búsqueda nos permite encontrar palabras e identificar los contextos en los que aparecen.

La lectura a distancia (Distant Reading) es un enfoque en los estudios literarios que aplica métodos computacionales a los datos literarios, generalmente derivados de grandes bibliotecas digitales.

Transcripción de documentos: TRANSKRIBUS

  • Transkribus (https://readcoop.eu/transkribus/) es una plataforma para la digitalización, el reconocimiento de texto, la transcripción y la búsqueda de documentos históricos,
  • OCR4all (http://www.ocr4all.org/en/home.php), que permite transcribir cualquier tipo de textos, incluyendo los antiguos.


Crear un corpus: OMEKA y Neatline

  • OMEKA (https://omeka.org/, descargable con licencia PL-3.0), es una plataforma para publicar y compartir colecciones digitales y crear ediciones en línea enriquecidas con materiales multimedia. Facilita la presentación de los resultados de una investigación. 
  • NETLINE (https://www.netline.com/about.html, con licencia GPL-3.0) es una herramienta de representación espacio-temporal que permite crear mapas anotados a partir de colecciones Omeka y conectar los mapas y las narrativas mediante líneas temporales. Está diseñado como una colección de plugins 13 para Omeka

Etiquetar colecciones de documentos

  • Tagtog (https://www.tagtog.com/), que permite entrenar modelos de inteligencia artificial y así facilitar la obtención de información relevante del texto de manera automática. 
  • TEITOK (http://www.teitok.org/index.php?action=home) es una plataforma muy extendida para ver, crear y editar corpus tanto con anotaciones lingüísticas como con marcado de texto enriquecido siguiendo es estándar TEI y está muy extendida en las HD. 
  • Brat Rapid Annotation Tool (https://brat.nlplab.org/examples.html). Esta herramienta de anotación rápida es un entorno en línea para la anotación colaborativa estructurada de textos. 

Creación de una base de datos online: HEURIST

HEURIST (http://heuristnetwork.org/, con licencia GPL-3.0) es una aplicación web que permite la gestión, visualización y publicación de datos. Está específicamente diseñada para humanidades. 

Visualización y análisis de grafos y redes: GEPHI

GEPHI (https://gephi.org/p, libre y en abierto) permite la visualización y el análisis de grafos, redes y sistemas complejos. El objetivo de Gephi es ayudar a los analistas de datos a hacer hipótesis, descubrir intuitivamente patrones, aislar singularidades de estructuras o fallos durante la obtención de datos. Es imprescindible para trabajar con redes sociales o con grafos de palabras.

Gestor de referencias bibliográficas: ZOTERO

Zotero es uno de los gestores de referencias bibliográficas más usado y permite crear, almacenar, organizar, compartir e insertar referencias bibliográficas recogidas de las fuentes de información y permite citarlas. https://www.zotero.org/download

Otras herramientas

  • Stanford NLP Group (https://nlp.stanford.edu/) para análisis de texto (sintáctico y semántico), tokenización, indetificación de entidades, etiquetado PoS.
  • NLTK (https://www.nltk.org/) es una herramienta con un conjunto de técnicas propias del procesamiento automático del lenguaje natural (NLP, de sus siglas en inglés) y especialmente
    adecuada para crear programas de NLP en Python.
  • R-Studio (https://www.rstudio.com/products/rstudio/) es una herramienta (en concreto un entorno de trabajo o Integrated Development Environment (IDE) para R).
  • MALLET (MAchine Learning for LanguagE Toolkit, http://mallet.cs.umass.edu) es una colección de herramientas basadas en Java.
  • Digital Humanities Box (DHbox). Proporciona una versión de diversas herramientas incluidas, entre ellas Omeka, NLTK, IPython, R Studio y Mallet. 
  • ANTCONC (http://www.laurenceanthony.net/software/antconc/), es una herramienta gratuita y multiplataforma que se utiliza para el aprendizaje basado en datos y para llevar a cabo
    investigaciones que se fundamentan en la lingüística de corpus. 
  • Google Ngram Viewer (https://books.google.com/ngrams/info, https://es.wikipedia.org/wiki/Google_Ngram_Viewer) es una herramienta que trabaja con la técnica de las Ngramas 18 a modo de buscador sobre los libros digitalizados por Google, informando del número de veces que una palabra ha sido utilizada en la literatura ‒ en los libros escaneados desde
    1500 hasta 2008 ‒ en un año en concreto. También se pueden analizar los trending topics de la literatura, esto es los temas relacionados con el contexto histórico.


REDES SOCIALES

 

Interés
Válido