“Los datos son la nueva ciencia. El Big Data son las respuestas». Pat Gelsinger. Director ejecutivo de VMware
Cuando hablamos de conjuntos de datos que por su estructura y diversidad hacen inadecuado su procesado desde los sistemas tradicionales, hablamos de Big Data. Pero lo importante del Big Data no es esta idiosincrasia, lo importante es lo que las organizaciones pueden hacer con esos datos para ayudarles a tomar decisiones estratégicas, y a la hora de tomar la mejor decisión algo que no podemos olvidar es la importancia de contemplar la variable geográfica.
Sin duda, es la pregunta que muchas organizaciones se están planteando y que no todas son capaces de resolver. Sin embargo, hay algo común en los problemas de Big Data ¿qué problema podemos resolver con los datos que tenemos y cuánto tiempo y recursos tenemos para hacerlo? Porque éstas son realmente, las cuestiones que limitan nuestro posible análisis. Por ejemplo, ¿puedo responder, en una situación de emergencia y en menos de 30 min, a la cuestión de dónde será más probable que se encuentre un barco a la deriva consultando el registro histórico de posiciones de barcos en la misma zona dadas unas condiciones meteorológicas determinadas? Responder a esta pregunta podría llevarnos días en un entorno tradicional, pero en una solución de Big Data podemos resolverla en una ventana temporal que realmente es útil para mi organización.
Para responder a esta pregunta debemos partir de un hecho incuestionable: todo lo que sucede, sucede en algún lugar. Y no sólo eso, sino que una gran parte de los datos que se generan tienen una ubicación espacial explícita o implícita, explícita cuando los datos tienen coordenadas, e implícita cuando podemos obtener la ubicación a partir de una dirección o a partir en Tweet como éste: “Disfrutando de un helado con mis amigos de Roma en el centro de Sevilla.” En este último caso, si el Tweet no está georreferenciado podemos utilizar sistemas de procesado de lenguaje natural para deducir que la ubicación es el centro de Sevilla y no Roma.
Entonces, si disponemos de datos que podemos ubicar espacialmente, lo más lógico será que tengamos en cuenta esta variable a la hora de analizar nuestra información, así obtendremos el mayor potencial de nuestros datos independientemente de su formato, de la cantidad o de la frecuencia de actualización que tengamos.
Uno de los focos principales en los que Esri invierte en I+D es en el desarrollo de herramientas de la plataforma ArcGIS que den respuesta a las últimas tendencias tecnológicas del mercado, entre las cuales se encuentra el Big Data desde hace ya unos años. Un ejemplo de esto son las GIS Tools for Hadoop, un conjunto de herramientas desarrolladas por Esri que permiten realizar análisis espacial con Big Data en Hadoop.
Pero ArcGIS no para de evolucionar, y a partir de la versión 10.5, la plataforma dispone de una nueva forma de almacenar y procesar datos vectoriales de forma distribuida, ArcGIS GeoAnalytics Server. GeoAnalytics Server es un rol de ArcGIS Enterprise que facilita el análisis y la visualización de cantidades masivas de información mediante herramientas orientadas al descubrimiento de patrones, tendencias y relaciones espaciales y temporales en los datos.
Habitualmente, en Big Data, los datos que se quieren consultar, visualizar y analizar provienen de información capturada en tiempo real, como es el caso del seguimiento de vehículos, de la información recogida de las redes sociales o de la monitorización de dispositivos sensorizados. Para realizar la ingesta, seguimiento y análisis en tiempo real de este tipo de datos, la plataforma ArcGIS pone a disposición de los usuarios ArcGIS GeoEvent Server, pieza que se integra de forma natural con GeoAnalytics Server, permitiendo así realizar análisis de la información histórica que vamos capturando de una forma rápida y sencilla.
La forma más óptima de esta integración entre GeoEvent y GeoAnalytics es mediante el Spatiotemporal Big Data Store, un tipo especial de ArcGIS Data Store basado en tecnología de almacenamiento distribuido que escala en capacidad y rendimiento.
Este tipo de Data Store soporta el archivado de grandes volúmenes de datos, la lectura y escritura a gran velocidad, y la visualización de los datos en el mapa de forma agregada y renderizada al vuelo, como se muestra en la siguiente imagen.
Una vez que los datos están en el Spatiotemporal Big Data Store, o en otro de los tipos de almacenamiento soportado por GeoAnalytics, ya se puede comenzar a extraer información valiosa de esos datos que ayude en la toma de decisiones estratégicas de nuestro negocio utilizando las herramientas de análisis.
Las herramientas de GeoAnalytics están orientadas a la obtención de patrones y a la agregación de los datos contemplando la variable espacial y temporal. Estos análisis son flujos de trabajo conocidos para los analistas SIG, pero han sido rediseñados para trabajar con Big Data y contemplar la componente temporal.
Las herramientas se clasifican en las siguientes categorías:
GeoAnalytics Server está integrado con la plataforma ArcGIS, de forma que los resultados de todos estos análisis quedan disponibles mediante un servicio de entidades para que el analista lo comparta con otros miembros de la organización con tan sólo unos pocos clics.
Acabamos de decir que GeoAnalytics está integrado completamente con la plataforma ArcGIS, por esta razón la interfaz se ha diseñado para mantener la experiencia de usuario, de modo que para un analista es transparente trabajar con una herramienta de análisis tradicional, o con una herramienta de análisis que en realidad está haciendo un procesamiento de la información de forma distribuida. Esto es así porque los análisis de GeoAnalytics se exponen como servicios de geoprocesamiento en ArcGIS Enterprise, de modo que un usuario puede ejecutarlos desde ArcGIS Pro o el visor del portal mediante una interfaz gráfica e intuitiva, y un desarrollador puede ir más allá y utilizarlos desde el ArcGIS API for Python o directamente mediante llamadas REST para automatizar procesos.
Aunque en este post hablamos de Big Data haciendo especial hincapié en el análisis de información vectorial, ArcGIS también puede analizar imágenes y datos raster de forma distribuida con otro rol de ArcGIS Enterprise, ArcGIS Image Server, lo cual puede ser necesario, por ejemplo, cuando se dispone de imágenes grandes y de muy alta resolución que deben ser analizadas y actualizadas todas las noches.
ArcGIS Enterprise es la pieza clave de ESRI cuando queremos explotar toda la potencia de nuestros datos: tiempo real, Big Data, imágenes… y todo eso desde cualquier lugar y en cualquier momento.
Autora: Marta Dávila, Analista GIS de Esri España. Dpto. Preventas. Esri España.