/mid

Material para clase de Datashare en máster de investigación

Primary LanguageShell

Workshop Datashare @ICIJ.org

Miguel Fiandor Gutiérrez

Índice

  1. Intro
    1. Qué es?
    2. Qué datos vamos a usar?
    3. Enlaces importantes
  2. Documentación
  3. Descargar
  4. Instalar
  5. Tour
    1. Añadir docs
    2. Ejecutar
    3. Analizar docs
      1. Text
      2. NER
      3. Emails
    4. Buscar
    5. Varios: ordenar, favs, ...
    6. Filtros
    7. Búsquedas por metadata
    8. Búsquedas avanzadas
    9. Búsquedas por lotes
  6. Ejercicios
  7. Extras: plugins, soporte, traducción, ...

Qué es?

Datashare is a free open-source desktop application developed by non-profit International Consortium of Investigative Journalists (ICIJ).

Datashare allows investigative journalists to:

  • access all their documents in one place locally on their computer while securing them from potential third-party interferences
  • search pdfs, images, texts, spreadsheets, slides and any files, simultaneously
  • automatically detect and filter by people, organizations and locations

Datos

Descargar

Documentación

Instalar

  • NO RECOMENDADO usar las instalaciones con docker

Actualizar

  1. Desinstalar cualquier versión anterior
  2. Instalar nueva versión

Actualizar Docker

  1. Parar Datashare
  2. Parar containedores docker de redis y elasticsearch
  3. Eliminar imagenes de dichas versiones
  4. Descargar un nuevo script de una versión nueva
  5. Dar persmisos de ejecución al script
  6. Ejecutar el script

Resetear ficheros indexados

  1. Parar Datashare
  2. Borrar ficheros
  3. Borrar índice elasticsearch
  4. Borrar cola redis

Con docker

docker exec -ti datashare_elasticsearch_1 curl -XDELETE http://localhost:9200/local-datashare/

docker exec -ti datashare_redis_1 redis-cli
127.0.0.1:6379> FLUSHALL

docker stop datashare datashare_elasticsearch_1 datashare_redis_1 

Tour

Settings

  • Idioma
  • Plugins
  • Extensiones

Percepciones/Estadísticas

Ver número de docs

Analizar

Extraer texto

Extraer Entidades Nombre

  • Extraer Nombres, Lugares y Organizaciones
  • Filtrar
  • Mostrar en vista de documento
  • Borrar

Extraer Emails

Percepciones/Estadísticas 2

Ver número de docs

Vista Documento

  1. Texto extraído
  2. Vista previa
  3. Etiquetas y detalles
  4. Entidades identificadas

Busquedas simples

"alcaldes"
"andalucía"
"asociación"
"hotmail"
  1. Modo vista de resultados

Búsqueda dentro del Documento

Ctrl+F

Varios

  • Ordenar documentos
  • Favoritos
  • Etiquetar documentos
  • Recomendar documentos

Filtros

  1. Favoritos
  2. Etiquetas
  3. Recomendado por
  4. Tipo de archivo
  5. Fechas de creación
  6. Idiomas
  7. Personas
  8. Organizaciones
  9. Ubicaciones
  10. Rutas
  11. Niveles de extracción
  12. Fecha de indexación

Buscar en campos específicos

  • mismo autor
  • mismo lenguaje
  • ...

Búsquedas avanzadas

https://icij.gitbook.io/datashare/all/search-with-operators

  1. Operadores de búsqueda: AND, OR, NOT
  2. Wildcards ? *
  3. Fuzziness ~
  4. Exact phrase ""
  5. Proximity ""~
  6. Boosting operators ""^ ()^
  7. Regex: ("Ada Lovelace" OR "Ado Lavelace") AND paris AND /...@.../
  8. Campos de metadata
  9. operadores >,=,<: metadata.tika_metadata_creation_date:>=2010-01-01
  10. rango de números: [min TO max] {min TO max}

Buscar por lotes

  • Ejemplo 1: Alcaldes csv
  • Visitar un resultado
  • Ejemplo 2: Alcaldes csv con proximidad 2
  • Visitar un resultado
  • Ejemplo 3: Alcaldes csv sin full phrase
  • Filtrar los resultados obtenidos
  • Ejemplo 4: Alcaldes csv con fuzzy 2
  • Descargar resultados
  • Ejemplo 5: Alcaldes csv en una ruta

Historial de archivos visitados

Ejercicios

Ejercicios

  1. Ver preview de un BOE
  2. Aplicar filtro: de 01/01/2019 a 12/01/2020
  3. Aplicar filtro: de 01/01/2019 a 12/01/2020
  4. Aplicar filtro por metadata.tika_metadata_author de un doc
  5. Buscar por NE.location='pontevedra'
  6. Instalar plugin Email
  7. Ordenar valores en filtro Email por ocurrencia ascendente
  8. Fechas de creación para los pdf de la carpeta BOE
  9. Batch search
  10. Filtrar emails: solo de 'gmail'
  11. Filtrar emails: ¿hay algún hotmail?

Extras

Modo Servidor

Github

Soporte

FAQ

Guías

  1. Añadir documentos
  2. Filtrar documentos
  3. Buscar documentos
  4. Busqueda con operadores y regex
  5. Etiquetar documentos
  6. Atajos de teclado
  7. Búsquedas masivas (por lotes)

Traducción

https://crowdin.com/project/datashare/invite/public?show_welcome&d=c5db50c77f3f3beb9c363ae8e596f2b01136183

Customize

Otros

Instalar fuentes