GUÍA PARA LA IMPLEMENTACIÓN DE UN ALGORITMO DE CLUSTERING CON APACHE SPARK UTILIZANDO EL LENGUAJE SCALA EN UN ENTORNO BIG DATA: CASO DE ESTUDIO K-MEANS

Al generarse cada día una gran cantidad de datos, surge la necesidad de contar con herramientas capaces de analizar ese gran cúmulo de información. Al no encontrar un manual que mostrara la forma de implementar un ambiente Big Data, el cual resulta una buena opción para el análisis de datos de gran...

Полное описание

Сохранить в:
Библиографические подробности
Главные авторы: Cazares Aguirre, Magaly Stephanie, Martínez Gómez, Paula
Другие авторы: Florencia Juárez, Rogelio
Формат: Trabajo recepcional licenciatura
Язык:spa
Опубликовано: Universidad Autónoma de Ciudad Juárez 2019
Предметы:
Online-ссылка:http://hdl.handle.net/20.500.11961/4660
Метки: Добавить метку
Нет меток, Требуется 1-ая метка записи!
Описание
Итог:Al generarse cada día una gran cantidad de datos, surge la necesidad de contar con herramientas capaces de analizar ese gran cúmulo de información. Al no encontrar un manual que mostrara la forma de implementar un ambiente Big Data, el cual resulta una buena opción para el análisis de datos de gran tamaño, se realizó este proyecto. El objetivo principal del proyecto fue realizar una guía para la implementación de un algoritmo de clustering con Apache Spark utilizando el lenguaje Scala en un entorno Big Data y tomando como caso de estudio K-means. Primeramente, se instaló Hadoop junto a una versión compatible de Apache Spark. Para comprobar que las herramientas funcionaban de manera adecuada, se hicieron pequeñas pruebas que demostraron que las versiones utilizadas y la manera de configurarlas fue la correcta. Después de culminar con las instalaciones necesarias, se compararon los resultados que se obtuvieron de K-means al utilizar una base de datos descargada de Internet. La comparación fue entre el ambiente Big Data implementado y un ambiente tradicional utilizando Python. Los resultados fueron altamente similares lo que corroboró el buen funcionamiento del ambiente implementado a lo largo del proyecto de investigación. Palabras clave: Big Data, K-means, Spark, Scala.