DockIns: una interfaz para usuarios finales

DockIns: una interfaz para usuarios finales

Written by

A inicios de este año, MuckRock recibió la invitación para ser parte del JournalismAI Collab, y trabajar con organizaciones en las Américas para exportar, probar y desarrollar nuevas formas de aplicar inteligencia artificial y machine learning en algunos de los retos que enfrenta el periodismo de investigación. Nos asociamos con CLIP, Ojo Público, y La Nación para retroalimentarnos y continuar desarrollando Sidekick. En estos artículos compartimos los resultados de esta colaboración. Puedes leer todos los materiales en inglés y en español en la página del proyecto DockIns.

En los últimos seis meses de nuestra colaboración con LSE, testeamos diferentes herramientas y técnicas para construir una plataforma que ayude a los periodistas de investigación a comprender y procesar documentos poco estructurados y obtener conocimientos útiles.

Desafortunadamente, no pudimos desarrollar una herramienta que combine esas técnicas con la misma interfaz de usuario final. Por esa razón, ideamos algunas funcionalidades para incluir en las ya existentes para cargar, procesar y obtener conocimientos de un conjunto de documentos.

En este sentido, presentamos el proceso de trabajo que imaginamos:

  1. Cargar documentos desde el inicio.
  2. Aplicar NER – nube de palabras por proyecto o por documento.
  3. Etiquetar – Procesar – Mejorar el loop.
  4. Obtener conocimientos

1. Cargar conjunto de documentos desde el inicio

Al cargar un nuevo conjunto de documentos se ofrecerá la opción de asociar y heredar o aplicar las entidades y etiquetas/palabras clave aprendidas desde otro el conjunto de documentos precargado y preetiquetado.

A screenshot showing additional proposed buttons that would let users add tags and entities to documents as they upload them into DocumentCloud

2. Aplicar NER

DocumentCloud ya cuenta con una herramienta de extracción de entidades basada sobre la API de Google Cloud. En el Collab también experimentamos con SpaCy, una biblioteca NER y su EntityRuler, un pipeline que permite alimentar el modelo con un diccionario personalizado y potenciar su precisión.

Como resultado, DockIns proveería una visualización con diferentes nubes de palabras por proyecto o por documento. Al identificar las entidades y más términos frecuentes, el modelo NER permitirá seleccionar palabras y filtros personalizados por tipo de entidad (evento, dirección, organización).

A screenshot of an illustrative wordcloud

3.- Etiquetar – Procesar – Mejorar el loop.

Y alimentar el modelo de aprendizaje. Sobre la base de la interfaz existente y nuestra experiencia, proponemos estas mejoras a la interfaz:

  • Evitar la necesidad de eliminar la puntuación (score)
  • Etiquetas ordenadas por puntuación
  • Permitir que estén completas con anticipación con etiquetas/palabras clave anteriores (etiquetas diccionarios) Permitir impulsar un reproceso
  • Un tracker de etiqueta nueva permite suscribir a una etiqueta o a una entidad y da aviso a los periodistas de una nueva correspondencia entre documentos.

A mockup showing suggested changes to DocumentCloud, allowing users to sort key values by numerical rank and quicker reprocessing of trained models with updated and corrected data

4. Obtener conocimientos

Ejemplo de visualización de documentos etiquetados, ordenados por puntuación (score) y agrupados por temas.

A screenshot of DocumentCloud's current project view, which could be modified to offer additional sorting options


This project is part of the 2021 JournalismAI Collab Challenges, a global initiative that brings together media organizations to explore innovative solutions to improve journalism via the use of AI technologies.

It was developed as part of the Americas cohort of the Collab Challenges that focused on “How might we use AI technologies to innovate newsgathering and investigative reporting techniques?” with the support of the Knight Lab at Northwestern University.

JournalismAI is a project of Polis – the journalism think-tank at the London School of Economics and Political Science – and it’s sponsored by the Google News Initiative. If you want to know more about the Collab Challenges and other JournalismAI activities, sign up for the newsletter or get in touch with the team via hello@journalismai.info.

Header image via Shutterstock under commercial license.