Como elegir una herramienta ETL para Big Data — AprenderBigData.com

Oscar Fmdc
2 min readMay 1, 2019

--

Aspectos clave de ETL y función en el Big Data

En este artículo se explica brevemente en qué consiste una herramienta ETL para big data y las consideraciones que se deben tener en cuenta para elegir una herramienta ETL para un proyecto. ¡No te pierdas el video resumen en 1 minuto!

ETL: Extract, transform, load. Estas tres funciones se integran en una herramienta

1. Extracción

La fase de extracción consiste en la recuperación de información de varios sistemas de origen, como pueden ser RDBMS o en formato JSON o XML, etc.

2. Transformación

Esta fase involucra varios procesos, los datos extraídos se transforman en un formato fácil de entender:

  • Eliminar las entradas duplicadas
  • Realizar un filtrado y una validación de los datos
  • Unir los datos de diferentes fuentes

3. Carga

Esta es la fase final del proceso ETL en la cual los datos se cargan en un almacén de datos. Existen dos tipos de cargas:

  • Carga completa: Todos los datos se mueven al almacén al mismo tiempo.
  • Incremental: El movimiento de datos se produce en lotes.

Parámetros a considerar al elegir una herramienta ETL para big Data

Volumen de datos a gestionar

¿La herramienta está diseñada para la recuperación de datos desde una única fuente o desde múltiples fuentes?
Las herramientas utilizadas para la recuperación de datos de una sola fuente difieren de las diseñadas para la recuperación de datos de múltiples fuentes.

Naturaleza de los datos

Los datos pueden ser estructurados y no estructurados y provenir de diversas fuentes.
En ocasiones, los datos deben procesarse en un formato que sea uniforme y comprensible para las herramientas analíticas.
También se debe verificar si la herramienta ETL tiene la capacidad de transformar un tipo particular de datos producidos por otras herramientas en su organización.

Tareas que se espera que realice la herramienta

¿De qué sistemas recuperará los datos y dónde se entregarán?
Se debe comprender el tipo de datos que se espera que la herramienta recupere y procese, así como el punto final de todo el ETL.

Consideraciones adicionales

- Evaluar si es necesaria la extracción de datos de fuentes no estructuradas (web, email, etc)
- Forma de gestionar la pérdida o indisponibilidad de datos durante la extracción
- Cambios en los formatos de datos
- Aumento en el volumen y en la velocidad de los datos a lo largo del tiempo

Echa un ojo a mi lista de reproducción Introducción al Big Data

Originally published at https://aprenderbigdata.com on May 5, 2019.

--

--