Guía para la gestión de datos (en construcción)
Tipos de datos
Los datos de investigación son un conjunto de información, digitalizada en fichero o en otro soporte físico, que en el proceso de investigación contribuyan a la producción de un resultado científico. Constituyen la evidencia para las contribuciones de un proceso de investigación.
Existen muchas formas de clasificar los datos. Mostramos alguns ejemplos:
- Según el soporte en el que se encuentra la información:
- Físicos: datos de investigación en papel, formato analógico.
- Digitais: producidos en un ordenador o con un sistema de output digital.
- Según el nivel de procesamiento de la información:
- Primarios: que no han sufrido modificaciones en el proceso de investigación
- Secundarios: que fueron procesados, resultados intermedios, etc.
- Según el tipo de contenidos:
- Personales: se refieren a características personales y permiten la identificación de las mismas
- No personales: no se refieren a personas, o de serlo no permiten la identificación de las mismas
Los datos de investigación pueden ser datos experimentales, datos observacionales, datos operacionales, datos de terceros, públicos, de monitorización, procesados, reutilizados,…
Datos personales
Se consideran datos personales toda información sobre una persona física identificada o identificable.
Se considera persona física identificable toda persona de la cual la identidad se pueda determinar, directa o indirectamente, en particular mediante un identificador, como por ejemplo un nombre, un número de identificación, datos de localización, un identificador en línea, uno ou varios elementos propios de la identidad física, fisiológica, genética, psíquica, económica, culturar o social de dicha persona. Se consideran categorías especiales de datos personales, o datos sensibles los datos personales que:
- Revelan el origen étnico o racial
- Las opiniones políticas, las convicciones religiosas o filosóficas, la afiliación sindical
- El tratamiento de datos genéticos, datos biométricos dirigidos a identificar de manera unívoca a una persona física
- Datos relativos a la salud o datos relativos a la vida sexual o orientaciones sexuales de una persona física.
Cuando se aplican procesos de anonimización que impiden la identificación de los inviduos estos pasan a considerarse anónimos. Los datos pseudo-anonimizados o encriptados que siguen permitiendo la identificación de los individuos siguen entrando dentro del alcance de la GDPR.
Privacidad y gestión de datos en la USC
La USC, a través del Comité de Bioética desarrolló una reglamentación para el trabajo con datos originados en estudios con personas y con datos de estudios de experimentación animal.
De forma previa el desarrollo de trabajos de investigación que impliquen la recopilación y el uso de datos sensibles, será necesaria la solicitud y aprobación del objeto de dicho estudio por parte del Comité de Bioética. En el caso de proyectos de investigación, será el propio Comité el responsable de dar el visto bueno para el desarrollo del proyecto o estudio.
En el caso de trabajos académicos de grado y máster serán los órganos específicos de las Facultades o Escuelas responsables de las titulaciones los que realizarán un análisis y revisión sobre el cumplimiento de los requisitos exigidos, mediante un informe previo a la emisión del informe definitivo por el Comité de Bioética. De forma más específica, en la Resolución Rectoral sobre procedimiento de evaluación previa de trabajos de fin de estudios y trabajos académicos en el caso de intervención con seres humanos, obtención de muestras o datos personales, se indica la necesidad de informe favorable del Comité, en el caso de Trabajos académicos de Investigación en las siguientes circunstancias, que se reproducen textualmente:
- Que requieren que el/la estudiante trabaje directamente con personas (entrevistas, pruebas, mediciones, intervenciones).
- Cuando se recojan muestras biológicas humanas.
- Cuando se obtengab datos personales o datos personales de categorías especiales.
- Aquellos que se realicen sobre este tipo de fuentes (datos o muestras de seres humanos) aunque no sean recogidas específicamente para el mismo.
En la Wed del Comité se pueden encontrar los formularios correspondientes para la solicitud de informes dirigidos al Comité de Bioética y las Facultades.
Gestión de datos
La Gestión de datos de investigación o Research Data Management (RDM) comprende las actividades que tienen que ver con el ciclo de vida de los datos de investigación, es decir, con la recopilación, organización, procesamiento, análisis, preservación y publicación de los datos utilizados en un proyecto de investigación. La posibilidad de reutilización de los datos creados le confiere el carácter de ciclo. En este contexto, los principios FAIR (Findable, Accesible, Interoperable, Reusable) surgen como necesidad para homogeneizar la buena gestión de los datos de investigación.
La política FAIR busca, de este modo, asegurar que los datos son localizables, accesibles, interoperables y reutilizables. La gestión adecuada de los datos facilita la integración y la reutilización de los mismos, favorece el descubrimiento y la innovación y es clave para garantizar la reproducibilidad de los resultados científicos.
A continuación se describen estos cuatro principios:
- Ser localizables: los datos son localizables cuando tienen asignado un identificador global único y persistente. En general, todos los proveedores de servicios de publicación de datos ofrecen la asignación de un DOI. Además, en el caso de la indexación de metadatos, será necesario seguir pautas y estándares. Un ejemplo es Datacite.
- Ser accesibles: los datos son accesibles cuando los metadatos se pueden recuperar a través de su identificador mediante un protocolo de comunicaciones estándar. Este protocolo debe ser abierto, gratuito, de acceso uiversal y incluir la posibilidad de establecer un procedimiento de acceso con autenticación y autorización cuando sea necesario.
- Ser interoperables: que se cumple cuando se usan lenguajes formales, accesibles, compartidos y ampliamente aplicables para representar el conocimiento tanto para los datos como los metadatos.
- Ser reutilizables: los datos serán reutilizables cuando los metadatos utilicen en su descripción atributos precisos y relevantes, se divulguen con licencias de uso claras y accesibles, se vinculen de manera clara con su procedencia y cumplan con los estándares de la comunidad correspondiente.
Los principios FAIR y las iniciativas de datos abiertos asociadas a Open Science no son equivalentes ni excluyentes, sino complementarios.
Ciclo de Gestión de datos de investigación
La siguiente tabla muestra las tareas asociadas a gestión de datos durante la planificación, ejecución y difusión de resultados de proyectos de I+D
Fase de Investigación | Fase GDI | |
---|---|---|
Comienzo del proyecto | Comienzo del proyecto de I+D | Elección de la herramienta de edición |
Planificación de revisiones y actualizaciones | ||
Identificación de los datos existentes y de los permisos/derechos para acceder a ellos y utilizarlos | ||
Procesamiento | Elección de la infraestructura para la preservación de los datos creados o recogidos (actividad FAIR) | |
Definición de la estructura de carpetas y convenciones para nombres de ficheros (actividad FAIR) | ||
Investigación (Análisis) | Análisis | Elección y documentación de datos, formatos y metadatos (FAIR) |
Preservación | Definición de mecanismos de backup y preservación. Seguridad y control de accesos, repositorios institucionales (FAIR) | |
Publicación de resultados | Publicación | Publicación de datos en repositorios temáticos o multidisciplinares |
Elección de licencias de uso, protección de datos y copyright | ||
Evaluación | Gestión de datos | Evaluación de los costes de gestión |
Evaluación y revisión del plan de gestión |
Plan de Gestión de datos de investigación
El Plan de Gestión de Datos (PGD) es un documento vivo, actualizable y versionable, que recoge la descripción de los datos, las herramientas y decisión de gestión elegidas antes y durante la execución de un proyecto de investigación. Su elaboración y revisión puede recaer en el/la investigador/a principal u otro miembro de un equipo de investigación.
Se trata de un documento dinámico que ayuda al persoal investigador a mejorar a su investigación, diseñando como se utilizarán los datos, identificando posibles problemas que puedan surgir, e ideando alternativas.
El PGD debería indicar:
- Que datos se van generar, recoger, observar y reusar y en qué formatos, además de como se reutilizarán datos existentes,
- Como se van a procesar, almacear y preservar los datos
- Cuando los datos serán accesibles y quien tendrá acceso a los mismos
- El/la responsable de los datos y quien posee los derechos sobre los mismos
- Como se tuveron en cuenta las cuestións éticas
- Como se reutilizarán los datos
Una propuesta razonable es desarrollar 3 actualizaciones del Plan de Gestión de Datos para los proyectos de investigación:
- Una versión inicial al comienzo del proyecto
- Una actualización a mitad del mismo
- Una actualización a la finalización del proyecto
En cualquier caso, las actualizaciones del Plan de Gestión de Datos deben adaptarse a las características de cada proyecto. El objetivo es que el plan permita una buena gestión de los datos durante el ciclo de vida de los proyectos.
A continuación mostramos una lista de planes de gestión de datos públicos:
Herramientas para la elaboración de un plan de gestión de datos
Existen multitud de herramientas para la geración de planes de gestión de datos. Algunos ejemplos son DMP online, Data Steward Wizard, Argos, la herramienta desarrollada por OpenAire…
Algunas herramientas, como el Data Steward Wizard, pueden suponer una ayuda importante para el desarrollo del DMP. Aunque para la primera versión pueden resultar, en ocasiones, excesivamente complejas.
Formatos y organización de datos
Para garantizar que los datos sean FAIR, es importante seleccionar cuidadosamente los formatos a utilizar. A veces, estos formatos serán condicionados por el equipo o dispositivo que se emplea en la investigación, pero en otras ocasiones existe la opción de escoger el formato más adecuado. La recomendación será siempre usar formatos estándar y no depender de programas propietarios o software especializado, si es posible. La elección de los formatos es, por tanto, un aspecto crucial a la hora de compartir los datos y promover su reutilización, ya que puede obligar a transformar posteriormente los datos si no cumplen con los requisitos de preservación del repositorio donde se van a archivar.
En el caso de que solo sea posible guardar los datos en un formato propietario, se recomienda acompañar los datos con una indicación del programa utilizado para generar los datos, así como la versión específica del programa. A priori, no se puede establecer una lista cerrada de formatos porque cada disciplina puede utilizar diferentes formatos establecidos y consolidados por la comunidad. Sin embargo, se puede ofrecer una lista con recomendaciones o formatos de preferencia, que pueden estar condicionados por la política de preservación.
En el caso de Data Archiving and Networked Services (DANS), el centro nacional holandés de datos de investigación, establecen unos formatos de preferencia para diferentes tipos de datos. En la siguiente tabla se indican algunos de los formatos de datos recomendados por DANS.
Tipo | Formatos preferidos | Formatos no preferidos |
---|---|---|
Texto | PDF/A, ODT | DOC, DOCX, PDF |
Lenguaje de marcas | XML, HTML | SGML, MD |
Hojs de cálculo | ODS, CSV | XLS, XLSX, PDF/A |
Datos estafísticos | DAR, SPS, DO, R | POR, SAV, DTA |
Imágenes vectoriales | SVG | AI, EPS, WMF |
Gestión de la propiedad intelectual
La propiedad intelectual se refiere a los derechos sobre las producciones, como obras científicas o artísticas, que corresponden a sus autores. En lo que se refiere a bases de datos, la ley de propiedad intelectual vigente en España, así como en la mayoría de los países europeos, recoge el derecho de extraer y reutilizar contenidos a los creadores de las bases de datos. Por lo tanto, ese titular del derecho puede conceder los permisos necesarios para reutilizar los datos de las bases de datos. Además, hay que ter en cuenta que si la investigación que se desarolla puede dar derecho a resultados de propiedad industrial, se deben establecer los mecanismos de protección oportunos (por ejemplo, cuando los datos pueden contribuir a generar una patente).
Una posibilidad para otorgar derechos de reutilización a los datos son las licencias Creative Commons. Se indican a continuación dos posibilidades de protección y sus mecanismos de protección:
Existe la posibilidad de ceder una obra o espacio público con la licencia CC0-public domain . De esta forma, un Dataset se publicaría sin ninguna restricción para su uso, aunque las normas de la comunidade entienden que es aconsejable hacer referencia a los autores.
Reutilización de datos de terceros
Siempre que se reutilicen datos de terceros es necesario comprobar que la licencia de los datos permite el uso que queremos hacer de los datos. En ocasiones, será necesaro la firma de acuerdos de cesión onde se indiquen los derechos de uso.
La no existencia de licencia asociada a datos públicos, nunca debe interpretarse como que no existen restricciones para su uso. Si un dataset no tiene licencia esto debe interpretarse como “todos los derechos restringidos”.
Publicación de datos y repositorios
La USC no dispones en este momento de un repositorio institucional o política de gestión de datos. Tampoco existen repositorios nacionales.
Por este motivo se aconseja usar Zenodo para publicar los Datasets del CiTIUS. Zenodo es un repositorio de investigación de acceso abierto creado por OpenAIRE y CERN para permitir a científicos/as e investigadores/as compartir y preservar cualquier tipo de datos y resultados de investigación. Zenodo permite el almacenamiento de Datasets de hasta 50G.
La rede de supercomputación nacional también ofrece, previa solicitud y aceptación, servicios para el almacenamiento de Datasets, por encima de los límites de almacenamiento proporcionados por Zenodo.
Por otra parte, también es posible no publicar los datos en un repositorio y permitir acceso por contraseña o mediante otros mecanismos de acceso. Se puede considerar la firma de un Data User Agreement (DUA) previamente a la compartición de datos.
La gestión de datos en las publicaciones científicas
Se está convirtiendo en práctica habitual la gestión adecuada de los datos de investigación como requisito para la publicación científica.
Existen publicaciones que ya exigen la gestión y publicación de los datos en repositorios adecuados para garantizar la calidad y reproducibilidad de la investigación.