Un Data Lake es un repositorio o sistema de almacenamiento para grandes cantidades de datos de cualquier tipo, almacenados en su formato nativo y utilizado principalmente por especialistas en datos (estadísticos, científicos de datos o analistas) para la extracción de conocimiento mediante tecnologías de bajo costo que mejoran la exploración de datos dentro de una empresa y que contiene un conjunto de datos que pueden ser estructurados, semiestructurados o no estructurados.

El Data Lake va más allá del Data Warehouse superando las limitaciones de espacio. A las empresas los almacenes de datos ya se hayan empezado a quedar pequeños, creando así la necesidad de buscar nuevas formas donde guardar su información a un precio más accesible, para estos complejos problemas surge la solución del Data Lake.

  IMPORTANTE

El Data Lake es un repositorio que almacena grandes cantidades de datos, donde los datos pueden ser estructurados,  semiestructurados o no estructurado.

^

ventajas de un data lake

 1.- Permite centralizar todos los datos en un mismo lugar, sea cual sea su origen. 

2.- Es posible que la fuente original del dato esté obsoleta o se haya desactivado, pero su contenido puede seguir siendo valioso para el análisis. Con este sistema se puede acceder a dicha información.

3.- Todos los datos que llegan al sistema pueden ser normalizados y enriquecidos.

4.- Los datos se preparan de acuerdo con las necesidades del momento, lo que reduce notablemente los costes y los tiempos.

5.- Cualquier usuario autorizado puede acceder a la información y enriquecerla desde cualquier lugar, lo que ayuda a la organización a reunir con más facilidad los datos necesarios para tomar decisiones.

^

capacidades de un data lake

1.- Capturar y almacenar datos sin procesar a escala a un bajo costo.
2.- Almacenar muchos tipos de datos en el mismo repositorio.
3.- Realizar transformaciones en los datos.
4.- Definir la estructura de los datos en el momento en que se utilizan, evitando el esfuerzo complejo y costoso de modelado e integración de datos.
5- Realizar nuevos tipos de procesamiento de datos.
6.- Realizar análisis de un solo sujeto basados en casos de uso muy específicos.

 

 

Data lake y sus datos

Relacionado

¿Es Excel una base de datos?

¿Es Excel una base de datos?

Antes de definir: ¿Si Excel es un base de datos o no?, vamos a definir ¿Qué es una base de datos?, veamos las definiciones de algunos autores reconocidos como C. J. Date, Adoración de Miguel,...

Habilidades Blandas: Manejo de la frustración

Habilidades Blandas: Manejo de la frustración

Desde hace 7 años comencé la aventura de mudarme del país donde nací y enfrentarme a nuevos retos a nivel laboral y personal, que por cierto no ha sido nada fácil.  Desde que salí de mi país el...

¿Qué es la computación en la nube?

¿Qué es la computación en la nube?

La computación en la nube es el uso de una red de servidores remotos conectados a internet para almacenar, administrar y procesar datos, servidores, bases de datos, redes y software, bajo demanda....

Subscribe & Follow

Disfruta de mi Newsletter

Inscríbete de forma gratuita a mi newsletter y podrás recibir cada mes en tu correo electrónico, información resumida acerca de mis últimos posts.