José Luis Larroque presento su tesina de grado titulada “Indexado de Wikipedia a través de una arquitectura Map-Reduce”

Descargar presentación | Descargar portada

En el mes de marzo, José Luis Larroque presentó su tesina de grado titulada “Indexado de Wikipedia a través de una arquitectura Map-Reduce con la que obtuvo la Licenciatura en Informática. Este trabajo de grado fue dirigido por Alicia Diaz y codirigido por Diego Torres.

La tesina de José consta de un algoritmo que permite generar un indice de caminos entre dos artículos cualesquiera de Wikipedia. Este algoritmo fue desarrollado adaptando Wikipedia para ser procesada como un grafo en Giraph. La plataforma de computo utilizada para ejecutar este trabajo fue Amazon Web Services y Elastic Map Reduce, a través de una subvención para investigación. El tesista probó el mismo en la plataforma de Cloud Computing Amazon Web Services, documentó los resultados de estas evaluaciones y se los analizó.

Para realizar esta tesina, José investigó como construir localmente un cluster en Hadoop, así como cómo desarrollar algoritmos que corran en el. Investigó, también, el funcionamiento de Giraph para poder realizar algoritmos en este framework de procesamiento de grafos (utilizado por grandes compañías como Facebook, Twitter, etc.). Luego de esto desarrolló un algoritmo capaz de buscar caminos en un grafo del tamaño de Wikipedia (versión en español), usando como tecnologías principales el framework sobre el que investigó (que está preparado para correr en arquitecturas Map Reduce).

Este trabajo de grado logró el objetivo de poder generar los caminos posibles entre dos artículos cualesquiera de Wikipedia. Asimismo José plantea continuar con el desarrollo para adaptar el algoritmo a contextos mas desafiantes, como grafos mas densos.

Como trabajo a futuro José propone:

  • Optimizar el algoritmo adaptando el mismo a Giraph 1.2.
  • Implementar la búsqueda desde múltiples orígenes y múltiples destinos en un grafo.
Vuelve al inicio