¿Qué es el BIG DATA? ✅ — AprenderBigData.com

Oscar Fmdc
4 min readDec 10, 2019

--

Big Data: ¿En qué consiste?

El término Big Data se refiere a grandes conjuntos de datos, con un volumen tan grande que es necesario el uso de técnicas y herramientas específicas para tratarlos. Debido a sus características de tamaño, velocidad de crecimiento y variabilidad, las tecnologías y métodos tradicionales no son suficientes para gestionar estos datos de una manera eficiente. Entre estas tecnologías tradicionales se encuentran las bases de datos relacionales.

Entre estas herramientas informáticas diseñadas para tratar grandes cantidades de datos se encuentra software específico, generalmente distribuido y capaz de escalar con el volumen y la velocidad en la que se generan los datos.

No existe un tamaño de datos específico a partir del cual se puede considerar Big Data, ya que esta referencia evoluciona con el tiempo y con los avances tecnológicos. Sin embargo, los especialistas suelen referirse con el término Big Data a conjuntos de datos a partir de decenas de Terabytes.

Importancia del Big Data

Esta generación de datos masivos y su almacenamiento, procesamiento y análisis se ha vuelto crítica para muchas organizaciones, siendo uno de los sectores con más crecimiento y trayectoria profesional en la actualidad.

El valor que las organizaciones pueden extraer de estos datos se centra en su uso para la toma de mejores decisiones estratégicas, desarrollo de modelos matemáticos, inteligencia artificial, etc.

En muchas ocasiones, el análisis de los datos obtenidos por una organización puede dar pistas e ideas acerca de nuevos problemas, y responder a muchas preguntas basándose en información objetiva, lo que aumenta la seguridad y la confianza.

Mediante el conocimiento extraído del análisis de los datos, las organizaciones son capaces de encontrar nuevas tendencias, por ejemplo de consumo. Ésto aporta mucho valor y permite reaccionar en tiempo y con una velocidad más alta que si no se dispusiera de esta información.

Naturaleza de los datos

En gran medida, los datos generados en la actualidad son de naturaleza no estructurada. Las fuentes de datos son muy diversas, pueden ser desde sensores y dispositivos IoT hasta datos generados por dispositivos móviles o páginas web.

En general, los datos no estructurados necesitan combinarse con datos estructurados procedentes de bases de datos relacionales para obtener información de valor. De esta forma, los datos se combinan, se enriquecen y se agregan mediante procesos de transformación como ETL.

Es posible clasificar los datos en tres grandes grupos en función de su naturaleza.

Datos estructurados

Los datos estructurados tienen definida su longitud, tamaño y formato (tipo). Esta organización externa facilita su procesamiento y su almacenamiento en bases de datos. El ejemplo más sencillo de datos estructurados son los almacenados en las bases de datos relacionales en forma de tablas.

Datos no estructurados

Los datos no estructurados se caracterizan por no tener un esquema fijo, suelen estar producidos por fuentes heterogéneas. Estos datos no han sido organizados en formatos óptimos para su procesamiento y almacenamiento.

Como ejemplos de datos no estructurados podemos considerar las siguientes categorías:

  • Documentos
  • Imágenes
  • Vídeos
  • Audio

Datos semiestructurados

Los datos semiestructurados son una mezcla entre los dos tipos anteriores. Estos datos no tienen una estructura fija como los datos estructurados, sin embargo, están organizados mediante metadatos (información asociada) o mediante relaciones simples entre ellos.

Debido a estas características, los datos semiestructurados son más fáciles de procesar que los datos no estructurados. A menudo, los datos semiestructurados se denominan autodescriptivos, ya que contienen las etiquetas o separadores necesarios para separar sus campos y elementos.

El marcado implícito de estos datos, facilita su uso para la comunicación entre aplicaciones y su serialización. Un ejemplo de datos semiestructurados son los datos almacenados en JSON o XML.

Las Vs del Big Data

A menudo se hace referencia a las Vs del Big Data, que indican las características y principios por los que se describen los datos. Estos principios son las siguientes:

  • Volumen: Cantidad de datos generados y almacenados. Esta cantidad determina si es considerado Big Data y el valor que podría aportar. ¿A qué escala de datos se está operando? ¿Qué orden de magnitud? ¿GB o PB?
  • Velocidad: El ratio al que se generan y se procesan estos datos para cumplir con los objetivos. Generalmente, el Big Data se genera a una frecuencia alta y de forma continua. ¿Cuál es la frecuencia de los eventos que se procesan?
  • Variedad: La tipología y naturaleza de los datos. Su variación y diversidad. Se compone de datos estructurados, no estructurados y semiestructurados. ¿Cuántas fuentes de datos existen en el sistema? Si los datos son estructurados, ¿su esquema varía en el tiempo?
  • Veracidad: Se refiere al origen y la confianza que se tiene en los datos. La calidad de los datos es fundamental para determinar su potencial valor y relevancia. ¿Puedes confiar en los datos? ¿Se deben realizar operaciones de limpieza antes de manipular los datos?
  • Valor: Los datos deben ser útiles y generar un valor.

¿Cómo Aprender Big Data?

Hoy en día existen numerosos recursos y vías de todo tipo para aprender Big Data y Data Science y convertirte en un experto desde casa.

Aquí te dejo el enlace a la guía para elegir un máster en Big Data que puedes cursar de forma online o presencial.

No lo dudes e invierte tiempo en tu formación. ¡Lo agradecerás a largo plazo!

Echa un ojo a la lista de reproducción Introducción al Big Data

Originally published at https://aprenderbigdata.com on December 10, 2019.

--

--

No responses yet