Data Lake

Data Lake

Se denomina Data Lake o lago de datos a la información almacenada en su forma original, es decir, los datos que aún no han sido procesados para el análisis. Estos pueden contener información relevante para una empresa y se utilizarán posteriormente para crear informes, análisis avanzados o desarrollar técnicas de aprendizaje automático.

¿Qué es el Data Lake?

Es el nombre que se utiliza para denominar a los datos que se almacenan con fines no específicos, suelen guardarse en archivos físicos o digitales, de forma no estratégica y sin un orden en específico. Esta información puede repartirse en datos estructurados como documentos con filas y columnas, semi-estructurados (archivos CSV o XML), datos binarios (imágenes, vídeo y audio) y datos no estructurados (emails, PDF, Word).

Por otro lado, puede utilizarse para almacenar toda la información referente a las auditorías SEO que luego serán organizadas y analizadas por un tercero, por ejemplo, un experto en análisis web. Pero, el objetivo principal de este es almacenar digitalmente información en un espacio determinado, como un banco de información, que se utilizará en el momento y con los fines indicados.

¿Para qué se usa?

Es un método que se utiliza para procesar Big Data, estos a su vez suelen utilizarse para analizar escenarios y oportunidades comerciales en el mercado, entender las preferencias de los usuarios a través de sus interacciones o guardar información relevante para el desarrollo de apps. Aunque ésta metodología ha sido cuestionada por expertos en analítica web como David Needle, ya que esta estrategia no organiza la información, lo que provoca una gran pérdida de datos que “planean utilizarse para el futuro”, cuando realmente no es así.

Sin embargo, actualmente existen muchas herramientas que permiten que las empresas que están interesados en esta práctica puedan almacenar sus datos de forma segura. Una de ellas es Google Cloud Store, muchas de ellas se basan en la nube para evitar la pérdida de datos físicos.

Extracción de datos del Data Lake

La ventaja más importante de este sistema es que puede almacenar datos de manera estructurada, semi-estructurada o sin estructuración. Lo que es ideal para evitar generar ficheros independientes en diferentes herramientas, con el fin de ser utilizados en el momento en que se requieran.

Igualmente, parte de este beneficio es facilitar la extracción de esos datos, algunos clientes de herramientas de data lake, como Apache Hadoop, mencionan que la información se puede procesar por lotes y compartir a través de diferentes canales, como email.

Ventajas del Data Lake

  • Los datos se almacenen con un sistema denominado “schema-on-read “, que significa sistema contra escritura. Lo que favorece que sean archivados sin ningún tipo de clasificación o esquema.
  • Con este sistema, solo serán clasificados al momento de extraerse, según las necesidades del usuario.
  • Los datos ya almacenados podrán ser utilizados por los expertos informáticos con mayor rapidez, precisión y sin errores.

 

Más información sobre Data Lake