Análisis de la biodiversidad: arquitectura de datos
La arquitectura de datos permite a los científicos establecer la manera en que se procesan, almacenan y utilizan los datos, garantizando en todo momento su protección.
Las actividades de BIOMA generan un gran volumen de datos que no están restringidos a líneas de investigación específicas. La mayoría de las líneas y actividades producirán datos que están naturalmente interrelacionados. Por ejemplo, los subproyectos que operan en la misma área geográfica producirán registros georreferenciados vinculados entre sí por la ubicación.
El cruzamiento de datos entre subproyectos separados, en particular mediante la correlación de series de datos, puede generar nuevos conocimientos. Por lo tanto, esta línea está configurada como un servicio transversal con el objetivo de organizar de manera coherente y consistente los datos de investigación generados en subproyectos separados para facilitar su trabajo y utilizar dichos datos agregados para la investigación básica, que solo se puede llevar a cabo cuando se dispone de cantidades suficientes de datos dispersos (ciencia basada en datos).
La gestión y explotación eficientes de grandes volúmenes de datos requieren una investigación de vanguardia en gestión de datos. Esto implica investigar, utilizar y eventualmente desarrollar aplicaciones y estándares de almacenamiento y visualización de datos, junto con protocolos de administración y seguridad. El almacenamiento de datos, un área de investigación en sí misma, se aplica como un servicio para todos los miembros de BIOMA.
Varios investigadores del grupo llevan trabajando mucho tiempo en el desarrollo de arquitecturas de datos y en la explotación de datos en bases de datos de biodiversidad masivas, así como en biodiversidad computacional. Su tarea consiste en configurar el servicio para todo el grupo, creando una base general de datos y una infraestructura de gestión, facilitando así la interacción entre proyectos.
Entre otras cosas, la arquitectura de datos aporta:
-
Diseño y estrategia de almacenamiento (Data Warehousing)
-
Desarrollo de una infraestructura computacional de biodiversidad.
-
Control del flujo de información a lo largo de toda la ruta de generación de datos desde el campo.
-
Experimentos para análisis finales, con especial atención a la toma de datos, verificación y mantenimiento.
-
Seguridad y confiabilidad de los conjuntos de datos a través del control de calidad, verificación de errores y datos.
-
Gestión de Acceso.
-
Herramientas de explotación, incluido el desarrollo de métodos para facilitar datos.
-
Visualización, distribución, acceso y análisis.
-
Minería de datos: recuperación eficiente de información de fuentes externas e indexación del repositorio.
-
Organización general de repositorios de datos para el grupo de investigación.
-
Implementación de herramientas de intercambio de datos y resultados para subproyectos y participantes.
-
Control de calidad y seguimiento de resultados para todo el grupo.
-
Ciencia basada en datos a partir del volumen consolidado de datos.