%0 Trabajo recepcional licenciatura %A Cázarez Aguirre, Magaly Stephanie %E Florencia Juárez, Rogelio %I Universidad Autónoma de Ciudad Juárez %D 2019 %G spa %T GUÍA PARA LA IMPLEMENTACIÓN DE UN ALGORITMO DE CLUSTERING CON APACHE SPARK UTILIZANDO EL LENGUAJE SCALA EN UN ENTORNO BIG DATA: CASO DE ESTUDIO K-MEANS %U http://hdl.handle.net/20.500.11961/4929 %X Al generarse cada día una gran cantidad de datos, surge la necesidad de contar con herramientas capaces de analizar ese gran cúmulo de información. Al no encontrar un manual que mostrara la forma de implementar un ambiente Big Data, el cual resulta una buena opción para el análisis de datos de gran tamaño, se realizó este proyecto. El objetivo principal del proyecto fue realizar una guía para la implementación de un algoritmo de clustering con Apache Spark utilizando el lenguaje Scala en un entorno Big Data y tomando como caso de estudio K-means. Primeramente, se instaló Hadoop junto a una versión compatible de Apache Spark. Para comprobar que las herramientas funcionaban de manera adecuada, se hicieron pequeñas pruebas que demostraron que las versiones utilizadas y la manera de configurarlas fue la correcta. Después de culminar con las instalaciones necesarias, se compararon los resultados que se obtuvieron de K-means al utilizar una base de datos descargada de Internet. La comparación fue entre el ambiente Big Data implementado y un ambiente tradicional utilizando Python. Los resultados fueron altamente similares lo que corroboró el buen funcionamiento del ambiente implementado a lo largo del proyecto de investigación. Palabras clave: Big Data, K-means, Spark, Scala.