Los datos de investigación son un conjunto de información, digitalizada en fichero o en otro soporte físico, que en el proceso de investigación contribuyan a la producción de un resultado científico. Constituyen la evidencia para las contribuciones de un proceso de investigación.
Existen muchas formas de clasificar los datos. Mostramos alguns ejemplos:
Los datos de investigación pueden ser datos experimentales, datos observacionales, datos operacionales, datos de terceros, públicos, de monitorización, procesados, reutilizados,…
Se consideran datos personales toda información sobre una persona física identificada o identificable.
Se considera persona física identificable toda persona de la cual la identidad se pueda determinar, directa o indirectamente, en particular mediante un identificador, como por ejemplo un nombre, un número de identificación, datos de localización, un identificador en línea, uno ou varios elementos propios de la identidad física, fisiológica, genética, psíquica, económica, culturar o social de dicha persona. Se consideran categorías especiales de datos personales, o datos sensibles los datos personales que:
Cuando se aplican procesos de anonimización que impiden la identificación de los inviduos estos pasan a considerarse anónimos. Los datos pseudo-anonimizados o encriptados que siguen permitiendo la identificación de los individuos siguen entrando dentro del alcance de la GDPR.
La USC, a través del Comité de Bioética desarrolló una reglamentación para el trabajo con datos originados en estudios con personas y con datos de estudios de experimentación animal.
De forma previa el desarrollo de trabajos de investigación que impliquen la recopilación y el uso de datos sensibles, será necesaria la solicitud y aprobación del objeto de dicho estudio por parte del Comité de Bioética. En el caso de proyectos de investigación, será el propio Comité el responsable de dar el visto bueno para el desarrollo del proyecto o estudio.
En el caso de trabajos académicos de grado y máster serán los órganos específicos de las Facultades o Escuelas responsables de las titulaciones los que realizarán un análisis y revisión sobre el cumplimiento de los requisitos exigidos, mediante un informe previo a la emisión del informe definitivo por el Comité de Bioética. De forma más específica, en la Resolución Rectoral sobre procedimiento de evaluación previa de trabajos de fin de estudios y trabajos académicos en el caso de intervención con seres humanos, obtención de muestras o datos personales, se indica la necesidad de informe favorable del Comité, en el caso de Trabajos académicos de Investigación en las siguientes circunstancias, que se reproducen textualmente:
En la Wed del Comité se pueden encontrar los formularios correspondientes para la solicitud de informes dirigidos al Comité de Bioética y las Facultades.
La Gestión de datos de investigación o Research Data Management (RDM) comprende las actividades que tienen que ver con el ciclo de vida de los datos de investigación, es decir, con la recopilación, organización, procesamiento, análisis, preservación y publicación de los datos utilizados en un proyecto de investigación. La posibilidad de reutilización de los datos creados le confiere el carácter de ciclo. En este contexto, los principios FAIR (Findable, Accesible, Interoperable, Reusable) surgen como necesidad para homogeneizar la buena gestión de los datos de investigación.
La política FAIR busca, de este modo, asegurar que los datos son localizables, accesibles, interoperables y reutilizables. La gestión adecuada de los datos facilita la integración y la reutilización de los mismos, favorece el descubrimiento y la innovación y es clave para garantizar la reproducibilidad de los resultados científicos.
A continuación se describen estos cuatro principios:
Los principios FAIR y las iniciativas de datos abiertos asociadas a Open Science no son equivalentes ni excluyentes, sino complementarios.
La siguiente tabla muestra las tareas asociadas a gestión de datos durante la planificación, ejecución y difusión de resultados de proyectos de I+D
Fase de Investigación | Fase GDI | |
---|---|---|
Comienzo del proyecto | Comienzo del proyecto de I+D | Elección de la herramienta de edición |
Planificación de revisiones y actualizaciones | ||
Identificación de los datos existentes y de los permisos/derechos para acceder a ellos y utilizarlos | ||
Procesamiento | Elección de la infraestructura para la preservación de los datos creados o recogidos (actividad FAIR) | |
Definición de la estructura de carpetas y convenciones para nombres de ficheros (actividad FAIR) | ||
Investigación (Análisis) | Análisis | Elección y documentación de datos, formatos y metadatos (FAIR) |
Preservación | Definición de mecanismos de backup y preservación. Seguridad y control de accesos, repositorios institucionales (FAIR) | |
Publicación de resultados | Publicación | Publicación de datos en repositorios temáticos o multidisciplinares |
Elección de licencias de uso, protección de datos y copyright | ||
Evaluación | Gestión de datos | Evaluación de los costes de gestión |
Evaluación y revisión del plan de gestión |
El Plan de Gestión de Datos (PGD) es un documento vivo, actualizable y versionable, que recoge la descripción de los datos, las herramientas y decisión de gestión elegidas antes y durante la execución de un proyecto de investigación. Su elaboración y revisión puede recaer en el/la investigador/a principal u otro miembro de un equipo de investigación.
Se trata de un documento dinámico que ayuda al persoal investigador a mejorar a su investigación, diseñando como se utilizarán los datos, identificando posibles problemas que puedan surgir, e ideando alternativas.
El PGD debería indicar:
Una propuesta razonable es desarrollar 3 actualizaciones del Plan de Gestión de Datos para los proyectos de investigación:
En cualquier caso, las actualizaciones del Plan de Gestión de Datos deben adaptarse a las características de cada proyecto. El objetivo es que el plan permita una buena gestión de los datos durante el ciclo de vida de los proyectos.
A continuación mostramos una lista de planes de gestión de datos públicos:
Existen multitud de herramientas para la geración de planes de gestión de datos. Algunos ejemplos son DMP online, Data Steward Wizard, Argos, la herramienta desarrollada por OpenAire…
Algunas herramientas, como el Data Steward Wizard, pueden suponer una ayuda importante para el desarrollo del DMP. Aunque para la primera versión pueden resultar, en ocasiones, excesivamente complejas.
Para garantizar que los datos sean FAIR, es importante seleccionar cuidadosamente los formatos a utilizar. A veces, estos formatos serán condicionados por el equipo o dispositivo que se emplea en la investigación, pero en otras ocasiones existe la opción de escoger el formato más adecuado. La recomendación será siempre usar formatos estándar y no depender de programas propietarios o software especializado, si es posible. La elección de los formatos es, por tanto, un aspecto crucial a la hora de compartir los datos y promover su reutilización, ya que puede obligar a transformar posteriormente los datos si no cumplen con los requisitos de preservación del repositorio donde se van a archivar.
En el caso de que solo sea posible guardar los datos en un formato propietario, se recomienda acompañar los datos con una indicación del programa utilizado para generar los datos, así como la versión específica del programa. A priori, no se puede establecer una lista cerrada de formatos porque cada disciplina puede utilizar diferentes formatos establecidos y consolidados por la comunidad. Sin embargo, se puede ofrecer una lista con recomendaciones o formatos de preferencia, que pueden estar condicionados por la política de preservación.
En el caso de Data Archiving and Networked Services (DANS), el centro nacional holandés de datos de investigación, establecen unos formatos de preferencia para diferentes tipos de datos. En la siguiente tabla se indican algunos de los formatos de datos recomendados por DANS.
Tipo | Formatos preferidos | Formatos no preferidos |
---|---|---|
Texto | PDF/A, ODT | DOC, DOCX, PDF |
Lenguaje de marcas | XML, HTML | SGML, MD |
Hojs de cálculo | ODS, CSV | XLS, XLSX, PDF/A |
Datos estafísticos | DAR, SPS, DO, R | POR, SAV, DTA |
Imágenes vectoriales | SVG | AI, EPS, WMF |
La propiedad intelectual se refiere a los derechos sobre las producciones, como obras científicas o artísticas, que corresponden a sus autores. En lo que se refiere a bases de datos, la ley de propiedad intelectual vigente en España, así como en la mayoría de los países europeos, recoge el derecho de extraer y reutilizar contenidos a los creadores de las bases de datos. Por lo tanto, ese titular del derecho puede conceder los permisos necesarios para reutilizar los datos de las bases de datos. Además, hay que ter en cuenta que si la investigación que se desarolla puede dar derecho a resultados de propiedad industrial, se deben establecer los mecanismos de protección oportunos (por ejemplo, cuando los datos pueden contribuir a generar una patente).
Una posibilidad para otorgar derechos de reutilización a los datos son las licencias Creative Commons. Se indican a continuación dos posibilidades de protección y sus mecanismos de protección:
Existe la posibilidad de ceder una obra o espacio público con la licencia CC0-public domain . De esta forma, un Dataset se publicaría sin ninguna restricción para su uso, aunque las normas de la comunidade entienden que es aconsejable hacer referencia a los autores.
Siempre que se reutilicen datos de terceros es necesario comprobar que la licencia de los datos permite el uso que queremos hacer de los datos. En ocasiones, será necesaro la firma de acuerdos de cesión onde se indiquen los derechos de uso.
La no existencia de licencia asociada a datos públicos, nunca debe interpretarse como que no existen restricciones para su uso. Si un dataset no tiene licencia esto debe interpretarse como “todos los derechos restringidos”.
La USC no dispones en este momento de un repositorio institucional o política de gestión de datos. Tampoco existen repositorios nacionales.
Por este motivo se aconseja usar Zenodo para publicar los Datasets del CiTIUS. Zenodo es un repositorio de investigación de acceso abierto creado por OpenAIRE y CERN para permitir a científicos/as e investigadores/as compartir y preservar cualquier tipo de datos y resultados de investigación. Zenodo permite el almacenamiento de Datasets de hasta 50G.
La rede de supercomputación nacional también ofrece, previa solicitud y aceptación, servicios para el almacenamiento de Datasets, por encima de los límites de almacenamiento proporcionados por Zenodo.
Por otra parte, también es posible no publicar los datos en un repositorio y permitir acceso por contraseña o mediante otros mecanismos de acceso. Se puede considerar la firma de un Data User Agreement (DUA) previamente a la compartición de datos.
Se está convirtiendo en práctica habitual la gestión adecuada de los datos de investigación como requisito para la publicación científica.
Existen publicaciones que ya exigen la gestión y publicación de los datos en repositorios adecuados para garantizar la calidad y reproducibilidad de la investigación.