GUÍA PARA LA IMPLEMENTACIÓN DE UN ALGORITMO DE CLUSTERING CON APACHE SPARK UTILIZANDO EL LENGUAJE SCALA EN UN ENTORNO BIG DATA: CASO DE ESTUDIO K-MEANS

Al generarse cada día una gran cantidad de datos, surge la necesidad de contar con herramientas capaces de analizar ese gran cúmulo de información. Al no encontrar un manual que mostrara la forma de implementar un ambiente Big Data, el cual resulta una buena opción para el análisis de datos de gran...

Full description

Saved in:
Bibliographic Details
Main Authors: Cazares Aguirre, Magaly Stephanie, Martínez Gómez, Paula
Other Authors: Florencia Juárez, Rogelio
Format: Trabajo recepcional licenciatura
Language:spa
Published: Universidad Autónoma de Ciudad Juárez 2019
Subjects:
Online Access:http://hdl.handle.net/20.500.11961/4660
Tags: Add Tag
No Tags, Be the first to tag this record!
Description
Summary:Al generarse cada día una gran cantidad de datos, surge la necesidad de contar con herramientas capaces de analizar ese gran cúmulo de información. Al no encontrar un manual que mostrara la forma de implementar un ambiente Big Data, el cual resulta una buena opción para el análisis de datos de gran tamaño, se realizó este proyecto. El objetivo principal del proyecto fue realizar una guía para la implementación de un algoritmo de clustering con Apache Spark utilizando el lenguaje Scala en un entorno Big Data y tomando como caso de estudio K-means. Primeramente, se instaló Hadoop junto a una versión compatible de Apache Spark. Para comprobar que las herramientas funcionaban de manera adecuada, se hicieron pequeñas pruebas que demostraron que las versiones utilizadas y la manera de configurarlas fue la correcta. Después de culminar con las instalaciones necesarias, se compararon los resultados que se obtuvieron de K-means al utilizar una base de datos descargada de Internet. La comparación fue entre el ambiente Big Data implementado y un ambiente tradicional utilizando Python. Los resultados fueron altamente similares lo que corroboró el buen funcionamiento del ambiente implementado a lo largo del proyecto de investigación. Palabras clave: Big Data, K-means, Spark, Scala.