Con el término Big Data se denomina a las grandes colecciones de datos digitalizados que por su tamaño y complejidad no se pueden procesar con las herramientas tradicionales.
Aún con el desarrollo tecnológico actual, estas grandes bases representan problemas de gestión, tanto por la manera en que se capturan los mismos, como por los requerimientos para su búsqueda, almacenamiento, análisis y visualización, con el fin de que sean de utilidad.
La explotación de la Big Data tiene usos potenciales de gran valor; con las herramientas de minería de datos adecuadas sería posible identificar patrones y marcadores de comportamiento individual y colectivo, así como verificar los resultados de una actividad en contextos reales, no experimentales, como se ha hecho en el marketing, por ejemplo.
Dada la importancia social y la cantidad de datos que se generan en la atención sanitaria, ésta es una de las áreas con mayor potencial en esta nueva línea de las TICS. Tanto los pacientes como los financiadores, los proveedores de servicios sanitarios y los profesionales generamos gran cantidad de datos. Su explotación, por analogía con otros sectores, nos trae la promesa futura de conseguir una medicina personalizada, predictiva, preventiva y participativa (Medicina 4P). Aunque, personalmente, creo que es obligatorio incluir una quinta P: Poblacional (para toda la población).
Los resultados del uso de la Big Data sanitaria no serán ni inmediatos ni siempre beneficiosos. La complejidad es grande y los retos de su utilización son:
1. Extraer conocimiento de fuentes heterogéneas y complejas, a veces no estructuradas.
2. Comprender notas clínicas no estructuras en su contexto correcto.
3. Gestionar adecuadamente gran cantidad de datos de imagen clínica y extraer información útil para generar biomarcadores.
4. Analizar los múltiples niveles de complejidad que van desde los datos genómicos hasta los sociales.
5. Capturar los datos de comportamiento de los pacientes, a través de distintos sensores , con sus implicaciones sociales y de comunicación.
6. Evitar los problemas de privacidad y “profiling” que pueden generar riesgos para los individuos.
Un ejemplo de basa de datos abierta para uso secundario (investigación), a partir de los datos de pacientes ingresados en la UCI del Beth Israel Deaconess Medical Center, en colaboración con el Massachusetts Institute of Technology, cuyo director es Leo Celi, es MIMIC II
Tenemos que afrontar esos retos y dedicar esfuerzos a gestionarlos desde los niveles político, tecnológico y sanitario. Mientras, habrá que ir desarrollando nuevos marcos y sistemas de referencia que faciliten trabajar en las tres grandes fuentes de Big Data sanitaria para el éxito de una Medicina 5P: 1. Historia Clínica e Imagen Médica 2. Redes sociales y sensores 3. Las “ómicas” (genómica, transcriptómica, epigenómica, proteomica, metabolomica, microbiomica, exposómica y «socialómica»).