IMPLEMENTACIÓN DE HERRAMIENTAS DE EXTRACCIÓN, TRANSFORMACIÓN Y CARGA DE DATOS ESTRUCTURADOS EN BIG DATA

En vista de la problemática que existe hoy en día respecto los grandes cúmulos de datos que se generan diariamente se planteó el desarrollo de este proyecto. El proyecto consistió en la implementación de una arquitectura Big Data la cual se implementó mediante Hadoop en el sistema operativo Ubuntu X...

Descrizione completa

Salvato in:
Dettagli Bibliografici
Autori principali: García Del Río, Alonso, López Contreras, Irvin Raúl
Altri autori: Florencia Juárez, Rogelio
Natura: Trabajo recepcional licenciatura
Lingua:spa
Pubblicazione: Universidad Autónoma de Ciudad Juárez 2019
Soggetti:
Accesso online:http://hdl.handle.net/20.500.11961/4665
Tags: Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne! !
Descrizione
Riassunto:En vista de la problemática que existe hoy en día respecto los grandes cúmulos de datos que se generan diariamente se planteó el desarrollo de este proyecto. El proyecto consistió en la implementación de una arquitectura Big Data la cual se implementó mediante Hadoop en el sistema operativo Ubuntu Xenial 16.04. La configuración de Hadoop se llevó a cabo de forma Stand-Alone, es decir, se realizó todo en un solo equipo, esto debido a que no se contaba con el equipo necesario para armar un Clúster. Dentro de una arquitectura Big Data, una de las partes más importantes es donde se llevan a cabo los procesos ETL que es la parte en la que se enfocó este proyecto. La manipulación de datos en ambientes Big Data ya no suele ser como comúnmente se realiza en bases de datos tradicionales, para esto existen herramientas que ofrecen una gran cantidad de métodos para el control y manejo de datos en esta arquitectura. El enfoque del proyecto recae sobre la implementación de 2 de estas herramientas en la arquitectura preparada mediante Hadoop. Estas herramientas son Sqoop y Hive, las cuales permiten un control y manejo de grandes cúmulos de información en arquitecturas Big Data. La implementación de estas herramientas implicó una serie de pasos para su correcto funcionamiento en Hadoop. También se abarcaron todas aquellas problemáticas que surgieron durante la implementación de estas y cómo fue que se mitigaron para su correcto funcionamiento. La implementación de estas herramientas se realizó sobre una base de datos y archivos CSV (Comma-Separated Values), esto debido a que hoy en día las instituciones públicas y privadas, entre otras; generan información generalmente en este tipo de bases de datos y en este formato.