IMPLEMENTACIÓN DE HERRAMIENTAS DE EXTRACCIÓN, TRANSFORMACIÓN Y CARGA DE DATOS ESTRUCTURADOS EN BIG DATA

En vista de la problemática que existe hoy en día respecto los grandes cúmulos de datos que se generan diariamente se planteó el desarrollo de este proyecto. El proyecto consistió en la implementación de una arquitectura Big Data la cual se implementó mediante Hadoop en el sistema operativo Ubuntu X...

Full description

Saved in:
Bibliographic Details
Main Authors: García Del Río, Alonso, López Contreras, Irvin Raúl
Other Authors: Florencia Juárez, Rogelio
Format: Trabajo recepcional licenciatura
Language:spa
Published: Universidad Autónoma de Ciudad Juárez 2019
Subjects:
Online Access:http://hdl.handle.net/20.500.11961/4665
Tags: Add Tag
No Tags, Be the first to tag this record!
Description
Summary:En vista de la problemática que existe hoy en día respecto los grandes cúmulos de datos que se generan diariamente se planteó el desarrollo de este proyecto. El proyecto consistió en la implementación de una arquitectura Big Data la cual se implementó mediante Hadoop en el sistema operativo Ubuntu Xenial 16.04. La configuración de Hadoop se llevó a cabo de forma Stand-Alone, es decir, se realizó todo en un solo equipo, esto debido a que no se contaba con el equipo necesario para armar un Clúster. Dentro de una arquitectura Big Data, una de las partes más importantes es donde se llevan a cabo los procesos ETL que es la parte en la que se enfocó este proyecto. La manipulación de datos en ambientes Big Data ya no suele ser como comúnmente se realiza en bases de datos tradicionales, para esto existen herramientas que ofrecen una gran cantidad de métodos para el control y manejo de datos en esta arquitectura. El enfoque del proyecto recae sobre la implementación de 2 de estas herramientas en la arquitectura preparada mediante Hadoop. Estas herramientas son Sqoop y Hive, las cuales permiten un control y manejo de grandes cúmulos de información en arquitecturas Big Data. La implementación de estas herramientas implicó una serie de pasos para su correcto funcionamiento en Hadoop. También se abarcaron todas aquellas problemáticas que surgieron durante la implementación de estas y cómo fue que se mitigaron para su correcto funcionamiento. La implementación de estas herramientas se realizó sobre una base de datos y archivos CSV (Comma-Separated Values), esto debido a que hoy en día las instituciones públicas y privadas, entre otras; generan información generalmente en este tipo de bases de datos y en este formato.