GUÍA PARA LA IMPLEMENTACIÓN DE UN ALGORITMO DE CLUSTERING CON APACHE SPARK UTILIZANDO EL LENGUAJE SCALA EN UN ENTORNO BIG DATA: CASO DE ESTUDIO K-MEANS

Al generarse cada día una gran cantidad de datos, surge la necesidad de contar con herramientas capaces de analizar ese gran cúmulo de información. Al no encontrar un manual que mostrara la forma de implementar un ambiente Big Data, el cual resulta una buena opción para el análisis de datos de gran...

Ful tanımlama

Kaydedildi:
Detaylı Bibliyografya
Asıl Yazarlar: Cazares Aguirre, Magaly Stephanie, Martínez Gómez, Paula
Diğer Yazarlar: Florencia Juárez, Rogelio
Materyal Türü: Trabajo recepcional licenciatura
Dil:spa
Baskı/Yayın Bilgisi: Universidad Autónoma de Ciudad Juárez 2019
Konular:
Online Erişim:http://hdl.handle.net/20.500.11961/4660
Etiketler: Etiketle
Etiket eklenmemiş, İlk siz ekleyin!
Diğer Bilgiler
Özet:Al generarse cada día una gran cantidad de datos, surge la necesidad de contar con herramientas capaces de analizar ese gran cúmulo de información. Al no encontrar un manual que mostrara la forma de implementar un ambiente Big Data, el cual resulta una buena opción para el análisis de datos de gran tamaño, se realizó este proyecto. El objetivo principal del proyecto fue realizar una guía para la implementación de un algoritmo de clustering con Apache Spark utilizando el lenguaje Scala en un entorno Big Data y tomando como caso de estudio K-means. Primeramente, se instaló Hadoop junto a una versión compatible de Apache Spark. Para comprobar que las herramientas funcionaban de manera adecuada, se hicieron pequeñas pruebas que demostraron que las versiones utilizadas y la manera de configurarlas fue la correcta. Después de culminar con las instalaciones necesarias, se compararon los resultados que se obtuvieron de K-means al utilizar una base de datos descargada de Internet. La comparación fue entre el ambiente Big Data implementado y un ambiente tradicional utilizando Python. Los resultados fueron altamente similares lo que corroboró el buen funcionamiento del ambiente implementado a lo largo del proyecto de investigación. Palabras clave: Big Data, K-means, Spark, Scala.