Uno de los retos de los expertos son los datos desestructurados. Afortunadamente, hay una manera de aprovecharlos y su nombre es Dark Data. En este artículo vamos a darte las indicaciones básicas que necesitas para entender cómo funciona. Aunque ya sabes que la mejor manera de aprender todo lo que necesitas a este respecto es mediante una buena formación. Por ejemplo, en nuestro Máster en Business Intelligence y Data management.
Los datos no estructurados pueden tener forma de imágenes, audio, nubes de puntos 3D, documentos, correos electrónicos y prácticamente cualquier tipo de archivo digital. El término “no estructurado” es en realidad inexacto, ya que siempre hay un esquema o formato de archivo conocido que nos permite identificarlos. Por eso sabemos si son imágenes, audio o texto.
Así que cuando decimos datos oscuros o datos no estructurados, a lo que nos referimos no es tanto a los archivos en sí, sino a cómo las personas ven los datos. Y es que, como seres humanos, tendemos a no pensar en los bits del disco cuando vemos los datos, sino que nos preocupa más su contenido. Así que decimos que los datos son no estructurados cuando no podemos ver lo que contienen.
Los metadatos de los datos no estructurados proporcionan un punto de partida para trabajar con datos oscuros. Se pueden clasificar en tres niveles:
Los metadatos de primer orden son los datos en el encabezado de un archivo. Es el mínimo de metadatos que uno puede obtener de un archivo. Es decir, puedes leer los datos EXIF de una imagen, pero si no puedes leer la propia imagen, no sabrás lo que realmente se capturó.
Los metadatos de segundo orden son los datos que ayudan a leer el archivo e identificar su contenido. En el caso de las imágenes, se utilizan modelos para detectar objetos e identificar lo capturado. Los cuadros delimitadores y sus etiquetas, que a menudo se usan para entrenar modelos de aprendizaje automático, son ejemplos perfectos de metadatos de segundo orden en imágenes.
Los metadatos de tercer orden son datos extraídos al hacer inferencias a través de un montón de datos relacionados y bases de datos vinculadas. Estos datos proporcionan un marco para la contextualización. Un poco como una telaraña que se hace más grande a medida que se crean más bordes; es decir, a medida que se extraen más inferencias.
Los datos oscuros son datos que están en un archivo y que ya no se utilizan. La cuestión es que los datos no estructurados tienden a oscurecerse rápidamente.
Cuando una empresa recibe un flujo de datos muy grande diariamente, tiende a desechar los datos antiguos para centrarse en los nuevos. Esos datos antiguos se convierten en Dark Data.
La estructuración de estos datos en un gráfico de conocimiento proporciona una forma de analizar años de datos y comenzar a ver tendencias y puntos en común. Los gráficos de conocimiento ayudan a cerrar las brechas entre los flujos de trabajo diarios y el análisis histórico.
Los modelos son una parte esencial de la construcción de gráficos de conocimiento. Son la columna vertebral para construir bordes y enlaces sobre los cuales se pueden hacer más inferencias. Para desarrollar estos modelos, se debe poner a un humano en el circuito. Esta persona será la responsable de entrenar el modelo, revisar y luego validar sus resultados.
El entrenamiento del modelo es un proceso continuo para mejorar su precisión en la detección de objetos. Si el modelo se equivoca, las inferencias hechas sobre ese resultado también serán inexactas.
Hoy en día, existen proveedores externos que proporcionan modelos que se entrenan de forma genérica. Estos pueden usarse como punto de partida para filtrar resultados, pero pueden no ser útiles para identificar elementos más específicos
Los modelos de aprendizaje automático y los gráficos de conocimiento proporcionan una puerta de entrada a nuevos productos que se pueden construir a partir del procesamiento de datos no estructurados. Una búsqueda semántica es una de las posibilidades.
Esto puede resultar muy útil para industrias como la del petróleo y el gas o la inmobiliaria. Por ejemplo, un inspector de bienes raíces puede usar fotos de apartamentos de alquiler para extraer gran cantidad de información sobre las instalaciones, los resultados de la última inspección, datos sobre delitos, informes y mucho más.
Un servicio de catálogo web en el que se pudieran hacer búsquedas podría ayudar a llevar estas funcionalidades al público. Por ejemplo, mediante una API pública y abierta que sirviera como un catálogo de colaboración colectiva para publicar datos en un gráfico de conocimiento, que luego se haría accesible al público.
¿Te ha resultado útil este artículo? Aprende ahora cómo aplicar el Business Intelligence a tu empresa.