Un Data Lake es un repositorio o sistema de almacenamiento para grandes cantidades de datos de cualquier tipo, almacenados en su formato nativo y utilizado principalmente por especialistas en datos (estadísticos, científicos de datos o analistas) para la extracción de conocimiento mediante tecnologías de bajo costo que mejoran la exploración de datos dentro de una empresa y que contiene un conjunto de datos que pueden ser estructurados, semiestructurados o no estructurados.

El Data Lake va más allá del Data Warehouse superando las limitaciones de espacio. A las empresas los almacenes de datos ya se hayan empezado a quedar pequeños, creando así la necesidad de buscar nuevas formas donde guardar su información a un precio más accesible, para estos complejos problemas surge la solución del Data Lake.

  IMPORTANTE

El Data Lake es un repositorio que almacena grandes cantidades de datos, donde los datos pueden ser estructurados,  semiestructurados o no estructurado.

^

ventajas de un data lake

 1.- Permite centralizar todos los datos en un mismo lugar, sea cual sea su origen. 

2.- Es posible que la fuente original del dato esté obsoleta o se haya desactivado, pero su contenido puede seguir siendo valioso para el análisis. Con este sistema se puede acceder a dicha información.

3.- Todos los datos que llegan al sistema pueden ser normalizados y enriquecidos.

4.- Los datos se preparan de acuerdo con las necesidades del momento, lo que reduce notablemente los costes y los tiempos.

5.- Cualquier usuario autorizado puede acceder a la información y enriquecerla desde cualquier lugar, lo que ayuda a la organización a reunir con más facilidad los datos necesarios para tomar decisiones.

^

capacidades de un data lake

1.- Capturar y almacenar datos sin procesar a escala a un bajo costo.
2.- Almacenar muchos tipos de datos en el mismo repositorio.
3.- Realizar transformaciones en los datos.
4.- Definir la estructura de los datos en el momento en que se utilizan, evitando el esfuerzo complejo y costoso de modelado e integración de datos.
5- Realizar nuevos tipos de procesamiento de datos.
6.- Realizar análisis de un solo sujeto basados en casos de uso muy específicos.

 

 

Data lake y sus datos

Relacionado

Subscribe & Follow

Disfruta de mi Newsletter

Inscríbete de forma gratuita a mi newsletter y podrás recibir cada mes en tu correo electrónico, información resumida acerca de mis últimos posts.