El mundo de los datos evoluciona a ritmos muy altos con el objetivo de hacer los procesos de gestión más fáciles y certeros.
En este post te explicamos qué es el data mesh, las ventajas de aplicarlo y un ejemplo real de la empresa alemana Zalando.
Pero antes de eso, vamos a introducirnos en el mundo del big data para entender de dónde viene este concepto conocido en español como “malla de datos”.
Cuando hablamos de los procesos ETL, explicamos que el data warehouse es como un almacén de materias primas pero lleno de datos.
Estos procesos y almacenes fueron un gran descubrimiento y han ayudado a muchas empresas a llegar a los clientes de una forma que hace años era impensable. Pero a medida que pasa el tiempo, las innovaciones continúan y se busca acelerar los procesos, pues la extracción, el traslado y la carga de datos puede ser, en ocasiones, demasiado lenta.
Para conseguir un mayor ritmo en la gestión, nació lo que se conoce como lago de datos o data lake.
El data lake es un almacén de datos, igual que el data warehouse, pero a diferencia de este, admite cualquier tipo de datos y los conserva tal como han llegado a la nube.
La ventaja del data lake es que se adapta rápidamente a los cambios debido a que se almacenan en una arquitectura plana, y no en forma de ficheros como en el data warehouse.
Los usuarios acceden a los datos antes de haberlos transformado y filtrado, por lo que es más sencillo acceder a ellos.
El data mesh divide esos datos almacenados en el data lake en muchos dominios de negocio que contarán con un equipo de profesionales que se van a encargar de crear productos de datos para hacérselos llegar a diversas áreas de la organización.
El data mesh es un paso más hacia la personalización de los productos o servicios que las empresas ofrecen a cada cliente, pues jerarquiza los niveles de datos y, a su vez, hace los procesos más rápidos para las necesidades digitales que demanda el mercado.
Al fin y al cabo, el usuario navega desde más de un dispositivo y las sincronizaciones entre ellos deben ser ágiles. El data mesh permite esto, que los productos de datos se unan entre dominios permitiendo el intercambio de datos sin almacén. En el siguiente apartado lo desengranamos.
Para entender mejor cómo puede el data mesh revolucionar el mundo de los datos, vamos a explicar los 4 principios que lo diferencian.
Ya lo hemos comentado, pero el hecho de que no haya un almacén ofrece una gestión mucho más cómoda y barata mediante dominios, sin almacén. Es una gestión de datos independiente.
Los datos analíticos proporcionados por los dominios deben tratarse como un producto, y los consumidores de esos datos deben tratarse como clientes.
Para que esto funcione, el propietario del producto de datos de dominio debe tener un conocimiento profundo de quiénes son los usuarios de esos datos, cómo los usan y cuáles son los métodos con los que se sienten cómodos para consumirlos. Este conocimiento de los usuarios permite el diseño de interfaces de productos de datos que satisfacen sus necesidades.
Los integrantes de cada dominio pueden acceder a ella para hacer uso de los datos, requiere de alta tecnología si se quiere acceder a los productos de los datos correctamente.
Hemos dicho que estos conjuntos de datos son independientes, pero para serlo de verdad, para no necesitar un almacén, deben ser capaces de interoperar entre sí. De esta forma, se crean uniones, se encuentran intersecciones, se realizan gráficos y operaciones a gran escala.
En nuestro artículo sobre el perfil del arquitecto de datos comentamos que el big data es un entorno muy cambiante y que este profesional tendría que ir adaptándose a cambios de tendencia cierto tiempo, la malla de datos es otra prueba de ello.
Ahora vamos a ver un ejemplo de cómo una empresa ha conseguido cambiar su forma de trabajo con los datos, desde el data warehouse hasta el data mesh.
La empresa alemana Zalando está consiguiendo resultados extraordinarios en el nicho del calzado, aquí vamos a desgranar cómo ha sido su uso de los datos con el tiempo.
Originalmente, era bastante fácil obtener conectividad con las bases de datos de back-end para obtener la información que realmente necesitaba la empresa y luego reunirlo todo para elaborar informes, por lo que se ejecutaba en el data warehouse.
Pero llegó un momento en que Zalando quería escalar su negocio, por lo que comenzó a migrar su base de datos a la nube. En realidad, esto significa que estaban comenzando a construir una arquitectura de microservicios ubicados en entornos separados.
Para unir esos datos se empezó a utilizar un data lake, que formaba parte de la gestión e integración de datos y que conseguía que los procesos fueran más ágiles.
Zalando buscaba interoperabilidad en la gestión de datos, que es lo que ofrece un almacén de datos, pero al mismo tiempo, ese almacén ralentizaba los pasos del proceso de gestión y provocaba que se formaran cuellos de botella en algún punto de la tarea.
Después de observar que, aunque el uso de datos estaba siendo bueno, podía mejorarse, empezaron a implementar la malla de datos o data mesh.
Lo primero que hicieron fue seguir el principio de “tratar los datos como un producto”, preguntándose cómo hacer marketing sobre sus datos. Para ello, crearon el puesto de “propietario del producto de datos”, pues necesitaban a alguien que supervisara cada producto de datos autónomamente.
Después, crearon dominios reales. Gracias a esto, las personas que estaban en el equipo podían concentrarse específicamente en cada dominio y convertirse en expertos en él.
Cuando una empresa realiza esta transformación hacia el data mesh, les está dando mucha responsabilidad a sus empleados, por lo que demuestra una gran confianza en ellos.
En Zalando, los datos dejaron de estar archivados por defecto y empezaron a coger forma a través del estudio de las personas que estaban a cargo de ellos. Gracias a esto, se dieron cuenta de que había una cantidad ingente de datos que no se utilizaban y eran simplemente una carga en la nube.
Por último, recomendarte nuestro Máster en Business Intelligence y Data Management para que inicies tu carrera profesional dentro del sector de los datos.