Nota tomada de la página de el Banco Interamericano de Desarrollo https://blogs.iadb.org/abierto-al-publico/2018/09/07/smartreader-herramienta-de-analisis-de-texto/ ;PUBLICADO POR: KYLE STRAND DANIELA COLLAGUAZO
En el BID estamos motivados a aprender cómo las herramientas de código abierto para el análisis de texto y otras tecnologías pueden ayudarnos en la identificación de conocimiento relevante. Con esto en mente, colaboramos con el Instituto para el Futuro para crear SmartReader, una herramienta de análisis de texto que ponemos a disposición de aquellas personas interesadas en trabajar con la Inteligencia Artificial.
Si alguna vez te ha tocado trabajar en un artículo científico, estamos seguros de que la siguiente escena te será muy familiar: te preparaste, te enterraste en una pila de artículos, libros, y ventanas abiertas en el navegador, tratando de darle sentido a todo y de seguir todos los hilos sinuosos del tema que estás investigando. Estás ahora leyendo el quinto documento que encontraste. De repente te das cuenta de que el autor no hizo mucho esfuerzo en hacer una redacción muy entretenida pero lamentablemente te toca llegar hasta el final. Después de todo, ¿qué pasa si la perspectiva que te hace falta para tu investigación está oculta en las profundidades del documento? Lees una página, pero te distraes, tu mente está en otro lado. ¿Deberás leer la página de nuevo o simplemente leer algo más? ¿Pero qué pasa si te pierdes de algo importante?
SmartReader es tu respuesta: un experimento en el uso de técnicas de Procesamiento del Lenguaje Natural para hacer que tu proceso de revisión de la literatura sea más eficiente y efectiva al momento de identificar los argumentos clave que de otro modo podrían pasar desapercibidos. La versión prototipo de la herramienta y su código en Python están ahora disponibles al público como parte de la iniciativa Código para el Desarrollo del BID.
¿Qué hace SmartReader?
Esta herramienta toma el cuerpo de documentos de texto que recopilaste para respaldar tu pregunta de investigación y en minutos, resalta el contenido que te es más relevante.
Los resultados incluyen:
Palabras clave
Mapas de palabras clave, entidades y ubicaciones más relevantes del tema general, así como de cada tema secundario que especificaste.
Contenido relevante
Una lista de oraciones relevantes y únicas al corpus por cada subtema que ingresaste. Estas oraciones también están vinculadas y resaltadas en el texto original para que las puedas consultar en contexto.
Seguramente estarás pensando: “¡Necesito SmartReader!” ¡Y tienes razón! Pero primero, repasemos con más detalle el mecanismo que hace que toda esta magia suceda.
¿Cómo puedes usar SmartReader?
Primero, deberás pensar en una pregunta de investigación como por ejemplo “¿Cómo influirá la tecnología a la economía informal en la próxima década?”
A continuación, recopilarás un conjunto de publicaciones (un cuerpo de documentos) que te parezcan relevantes a tu pregunta de investigación, tal como si estuvieras haciendo una revisión de literatura para resolver una hipótesis. Luego, con el objetivo de establecer un marco con el cual SmartReader analizará el corpus, deberás identificar un tema central (por ejemplo, “economía informal”) acompañado de un conjunto de subtemas relevantes (por ejemplo, “innovación, productividad, cadena de bloques e impuestos”). Con estas entradas, el SmartReader consultará a Google para agregar contexto al marco elegido y utilizará los resultados obtenidos en tiempo real para crear un modelo. Finalmente, compararás el modelo creado con tu corpus. De este modo SmartReader extraerá los términos y entidades más destacadas. Al mismo tiempo se extraerán las frases más relevantes y únicas del cuerpo de documentos. Aquí hay una descripción más a detalle de las diferentes interfaces que encontrarás en SmartReader:
Interfaz 1: Definición del modelo
En esta interfaz es donde le indicas a SmartReader qué tema te interesa y en qué subtemas quisieras enfocar tu investigación para que la herramienta cree un modelo. “¿Qué es un modelo?”, preguntas. Bueno, en este contexto, es un conjunto de palabras clave construidas con base a los resultados de una búsqueda en Google y ponderadas por su relevancia respecto a tu pregunta de investigación.
Interfaz 2: Estado del modelo
En esta interfaz podrás verificar el estado de creación del modelo. El estado de un modelo estará “en cola” inmediatamente después de que el tema y los correspondientes subtemas fueron enviados. El estado cambiará a “procesando” mientras se ejecutan tanto la búsqueda de Google como el análisis del contenido. Finalmente, el estado cambiará a “Hecho” cuando el modelo esté creado y listo para ser utilizado.
Interfaz 3: Aplicación del modelo
Una vez que se el modelo haya sido creado es el momento de decirle a SmartReader que lo use para analizar tu corpus de documentos. Para esto, deberás subir un archivo .zip con tus documentos en formato .txt y elegir de una lista desplegable el modelo quieres aplicar para el análisis. ¡Ahora es cuando la magia sucede!
Interfaz 4: Visualización de resultados
Esta interfaz te permitirá acceder a los resultados. Aquí visualizarás los mapas de las palabras clave, ubicaciones y entidades más relevantes para cada uno de los subtemas, y el tema general. Debajo de cada uno de los subtemas, también verás una lista de oraciones que vale la pena consultar, con enlaces a su ubicación en el texto original. Finalmente podrás descargar los resultados en .json si eso es lo tuyo.
https://i1.wp.com/blogs.iadb.org/abierto-al-publico/files/2018/09/smartreader-results-overview.png?resize=300%2C102&ssl=1 300w, https://i1.wp.com/blogs.iadb.org/abierto-al-publico/files/2018/09/smartreader-results-overview.png?resize=768%2C261&ssl=1 768w" sizes="(max-width: 600px) 100vw, 600px" width="600" height="204" data-scroll="2861" />
https://i2.wp.com/blogs.iadb.org/abierto-al-publico/files/2018/09/smartreader-results-unstructured.png?resize=300%2C100&ssl=1 300w, https://i2.wp.com/blogs.iadb.org/abierto-al-publico/files/2018/09/smartreader-results-unstructured.png?resize=768%2C257&ssl=1 768w" sizes="(max-width: 600px) 100vw, 600px" width="600" height="201" data-scroll="3084.90625" />
¡Ahora está en TUS manos! ¿Cómo puedes contribuir con esta herramienta de análisis de texto?
SmartReader tiene mucho potencial de mejora para convertirse en una herramienta muy útil para los investigadores y las mentes curiosas. Es por esta razón que la hemos puesto a tu disposición en Código para el Desarrollo como una herramienta de código abierto para el análisis de texto. Allí encontrarás las instrucciones de instalación, una guía del usuario y otra documentación que te ayudará a configurar SmartReader. ¡No podemos estar más a la expectativa de que nos cuentes acerca de tu experiencia! Y si la programación en Python es lo tuyo, hemos compilado una lista de mejoras en la que podrías trabajar como por ejemplo hacer visible los resultados del modelo, incorporar Google Scholar, ajustar las cadenas de consulta utilizadas para crear el modelo y mejorar el algoritmo que establece la relevancia del contenido.
¿Te escuchamos decir “acepto el desafío”?
GRATIS - APRENDA SOBRE INNOVACION EN EMPRESAS Y COMUNIDADES EN NUESTRO CANAL
Comentarios
ABRIMOS INSCRIPCIÓN PARA EL CURSO:
FORMACIÓN DE CONSULTORES EN GESTIÓN DE INNOVACIÓN