Diferenzas

Isto amosa as diferenzas entre a revisión seleccionada e a versión actual da páxina.

Enlazar a esta vista de comparación

Both sides previous revisionPrevious revision
Next revision
Previous revision
centro:xestion-de-datos:start [2023/07/07 13:44] felix.diazcentro:xestion-de-datos:start [2023/10/20 11:12] (actual) felix.diaz
Liña 1: Liña 1:
- +===== Xestión de Datos no CiTIUS===== 
-===== Xestión de Datos =====+Nesta entrada presentamos a información correspondente a Xestión de Datos do CiTIUS, que inclúe referencia a Comisión de Datos do Centro (posta en marcha no último trimestre de 2023), os protocolos e servizos de xestión de datos do CiTIUS, así como unha guía (en construcción) para a Xestión de Datos.
  
    * [[centro:xestion-de-datos:comision-datos | Comisión de Datos]]    * [[centro:xestion-de-datos:comision-datos | Comisión de Datos]]
-   * [[centro:xestion-de-datos:srevizo-datos | Servizo de apoio protocolo para a Xestión de Datos]] +   * [[centro:xestion-de-datos:srevizo-datos | Protocolo recomendacións para a Xestión de Datos]] 
-   * [[centro:xestion-de-datos:manexo-datos|guia-datos| Guía para a xestión de datos]] +   * [[centro:xestion-de-datos:manexo-datos| Guía para a xestión de datos]]
- +
- +
-GDPR, Datos en USC, Gestión de Datos, Políticas FAIR, IA, FAQ. Ejemplos +
- +
- +
-As malas políticas de xestión de datos son unha das causas das dificultades para a reproducibilidade dos resultados científicos. +
-===== Tipos de datos ===== +
-Os datos de investigación son un conxunto de información, dixitalizada en ficheiro ou noutro soporte físico, que no proceso de investigación contribúan a producción dun resultados científico. Constitúen a evidencia para as achegas dun proceso de investigación. +
- +
-Existen moitas formas de clasificar os datos. Amósanse algúns exemplos: +
-  * Segundo o soporte no que se encontra a información: +
-    * Físicos: datos de investigación en papel, formato analóxico. +
-    * Dixitais: producidos nun ordenador ou cun sistema de output dixital +
-  * Segundo o nivel de procesamento da información: +
-    * Primarios: que non sufriron modificacións no proceso de investigación +
-    * Secundarios: que foron procesoados, resultados intermedios, etc. +
-  * Segundo o tipo de contidos: +
-    * Persoais: refírense a características persoales e permiten a identificación das mesmas +
-    * Non persoais: non se refiren a persoas, ou de selo non permiten a identificación das mesmas  +
- +
-Os datos de investigación poden ser datos experimentales, datos observacionales, datos operacionales, datos, de terceiros, públicos, de monitorización, procesados  +
-Research data may be experimental data, observational data, reutilizados,... +
- +
-===== Datos persoais ===== +
- +
-Consideranse **datos persoais** toda información sobre unha persoa física identificada ou identificable. +
- +
-Se considera **persoa física identificable** toda persoa da cal a identidade se poida determinar, directa ou indirectamente, en particular mediante un identificador, como por exemplo un nome, un número de identificación, datos de localización, un identificador en línea, un ou varios elementos propios da identidade física, fisiolóxica, xenética, psíquica, económica, culturar ou social de dita persoa.  +
-Considéranse categorías especiais de datos persoais, ou **datos sensibles** os datos persoais que: +
-  * Revelan a orixe étcnica ou racial +
-  * As opinións políticas, as conviccións relixiosos ou filosóficas, a afiliación sindical +
-  * O tratamento de datos xenéticos, datos biométricos dirixidos a identificar de maneira unívoca a unha persona física +
-  * Datos relativos á saúde ou datos relativos á vida sexual ou as orientacións sexuais dunha persoa física. +
- +
-Cando se aplican procesos de anonimización que impiden a identificación dos inviduos estos pasan a considerarse anónimos. Os datos pseudo-anonimizados ou encriptados que seguen permitindo a identificación dos individuos seguen entrando dentro do alcance da GDPR. +
- +
-===== Privacidade e xestión de datos na USC ===== +
- +
-A USC, a través do [[http://imaisd.usc.es/seccion.asp?i=es&s=-2-26-229 | Comité de Bioética]] desenvolveu unha reglamentación para o traballo con datos orixinados en estudos con persoas e con datos de estudos de experimentación animal. +
- +
-De forma previa o desenvolvemento de **traballos de investigación** que impliquen a recopilación e o uso de datos sensibles, será necesario a solicitude e aprobación do obxecto de dito estudo por parte do Comité de Bioética. No caso de proxectos de investigación, será o propio Comité o responsable de dar o visto bo para o desenvolvemento do proxecto ou estudo.  +
- +
-No caso de **traballos académicos de grao e mestrado** serán os órganos específicos das Facultades ou Escolas responsables das titulacións os que realizarán unha análise e revisión sobre o cumprimento dos requisitos esixidos, mediante un informe previo á emisión do informe definitivo polo Comité de Bioética. De forma máis específica, na [[http://imaisd.usc.es/ftp/oit/documentos/5128_gl.pdf | Resolución Rectoral sobre procedemento de avaliación previa de traballos de fin de estudos e traballos académicos no caso de intervención con seres humanos, obtención de mostras ou datos persoais]], indícase a necesidade de informe favorable do Comité, no caso de Traballos académicos de Investigación nas seguintes circunstancias, que se reproducen textualmente: +
- +
-  - Que requiren que o/a estudante traballe directamente con persoas (entrevistas, probas, medicións, intervencións). +
-  - Cando se recollan mostras biolóxicas humanas. +
-  - Cando se obteñan datos personais ou datos personais de categorías especiais. +
-  - Aqueles que se realicen sobre este tipo de fontes (datos o mostras de seres humanos) aínda que non sexan recollidas específicamente para o mesmo. +
- +
- +
-Na [[http://imaisd.usc.es/seccion.asp?i=es&s=-2-26-229 | Wed do Comité]] pódense encontrar os formularios correspondentes para a solicitude de informes dirixidos ao Comité de Bioética e as Facultades. +
- +
-===== Xestión de datos ===== +
- +
-A Xestión de datos de investigación o //Research dAta Management// (RDM) comprende as actividades que teñen que ver co ciclo de vida dos datos de investigación, é dicir, coa recopilación, organización, procesamento, análise, preservación e publicación dos datos utilizados nun proxecto de investigación. A posibilidade de reutilización dos datos creados lle confire o carácter de ciclo. Neste contexto, os [[https://www.go-fair.org/fair-principles/ | principios FAIR]] (Findable, Accesible, Interoperable, Reusable) xurden como necesidade para homoxeneizar a boa xestión dos datos de investigación. +
- +
-{{:centro:xestion-de-datos:principiosfair.png?700|}} +
- +
-A política FAIR busca, deste modo, asegurar que os datos son localizables, accesibles, interoperables e reusables. A xestión adecuada dos datos facilita á integración e a reutilización dos mesmos, favorece o descubrimento e a innovación e é clave para garantir a reproducibilidade dos resultados científicos. +
- +
-A continuación se describen estes catro principios: +
-  * **Ser localizables:** os datos son localizables cando teñen asignado un identificador global único e persistente. En xeral, todos o proveeddores de servicios de publicación de datos ofrecen a asignación dun DOI. Ademáis, no caso da indexación de metadatos, será necesario seguir pautas e estándares. Un exemplo é [[https://datacite.org/|Datacite]]. +
-  * **Ser accesibles** os datos son accesibles cando os metadatos se poden recuperar a través do seu identificador mediante un protocolo de comunicacións estándar. Este protocolo debe ser aberto, gratuito, de acceso uiversal e incluir a posibilidade de establecer un procedemento de acceso con autenticación e autorización cando sea necesario. +
-  * **Ser interoperables** que se cumpre cando se usan linguaxes formais, accesibles, compartidos e ampliamente aplicables para representar o coñecemento tanto para os datos como os metadatos. +
-  * **Ser reutilizables** os datos serán reutilizables cando os metadatos utilicen na súa descrición atributos precisos e relevantes, se divulguen con licencias de uso claras e accesibles, se vinculen de maneira clara coa súa procedencia e cumplan cos estándares da comunidade correspondente. +
- +
-Os principios FAIR e as iniciativas de datos abertos asociadas a Open Science non son equivalentes nin excluíntes, senon complementarios. +
- +
- +
-===== Ciclo de Xestión de datos de investigación ===== +
- +
-A seguinte táboa amosa as tarefas asociadas a xestión de datos durante a planificación, execución e difusión de resultados de proxectos de I+D +
- +
-^ Fase de Investigación ^ Fase XDI ^ Actividades de Xestión de Datos +
-| Comezo do proxecto | Comezo do proxecto de I+D | Elección da ferramenta de edición | +
-|  |  | Planificación de revisións e actualizacións | +
-|  |  | Identificación dos datos existentes e dos permisos/dereitos para acceder a eles e utilizalos | +
-|  | Procesamento | Elección da infraestrutura para a preservación dos datos creados ou recollidos (actividade FAIR) | +
-|  |  | Definición da estrutura de carpetas e convencións para nomes de ficheiros (actividade FAIR) | +
-| Investigación (Análise) | Análise | Elección e documentación de datos, formatos e metadatos (FAIR) | +
-|  | Preservación | Definición de mecanismos de backup e preservación. Seguridade e control de accesos, repositorios institucionais (FAIR) | +
-| Publicación de resultados | Publicación | Publicación de datos en repositorios temáticos ou multidisciplinares | +
-|  |  | Elección de licencias de uso, protección de datos e copyright | +
-| Evaluación | Xestión de datos | Evaluación dos costes de xestión | +
-|  |  | Evaluación e revisión do plan de gestión | +
- +
-===== Plan de Xestión de datos de investigación ===== +
- +
-O Plan de Xestión de Datos (PXD) é un documento vivo, actualizable e versionable, que recolle a descrición dos datos, as ferramentas e decisión de xestión elexidas antes e durante a execución dun proxecto de investigación. A súa elaboración e revisión pode recaer no investigador principal ou outro membro dun equipo de investigación.  +
- +
-Trátase dun documento dinámico que axuda o persoal investigador a mellorar a súa investigación, deseñando como se utilizarán os datos, identificando posibles problemas que poidan xurdir, e ideando alternativas. +
- +
-O PXD debería indicar: +
-  * Que datos se van xerar, recoller, observar e reusar e en qué formatos, ademais de como se reutilizarán datos existentes, +
-  * Como se van a procesar, almacear e preservar os datos +
-  * Candos os datos serán accesibles e quen terá acceso os mesmos +
-  * O responsable dos datos e quen posúe os dereitos sobre os mesmos +
-  * Como se tiveron en conta as cuestións éticas +
-  * Como se reutilizarán os datos +
- +
-Unha proposta razoable é desenvolver 3 actualizacións do Plan de Xestión de Datos para os proxectos de investigación: +
-  * Unha versión inicial o comezo do proxecto +
-  * Unha actualización a metade do mesmo +
-  * Unha actualización á finalización de proxecto +
- +
-En calquera caso, as actualizacións do Plan de Xestión de Datos deben adaptarse as características de cada proxecto. O **obxetivo é que o plan permita unha boa xestión dos datos durante o ciclo de vida dos proxectos**. +
- +
-A continuación amosamos unha lista de plans de xestión de datos públicos: +
-  * [[https://dmponline.dcc.ac.uk/public_plans | Exemplos de plans de xestión da ferramenta DMP Online]] +
- +
-===== Ferramentas para a elaboración dun plan de xestión de datos ===== +
- +
-Existen multitude de ferramentas para a xeración de plans de xestión de datos. Algúns exemplos son [[https://dmponline.dcc.ac.uk/ | DMP online]], [[https://ds-wizard.org/ | Data Steward Wizard]], [[https://argos.openaire.eu/splash/ | Argos]], a ferramenta desenvolta por [[ https://www.openaire.eu/| OpenAire]]... +
- +
-Algunahas ferramentas, como o Data Steward Wizard, poden supoñer unha axuda importante para o desenvolvemento do DMP. Aínda que para a primeira versión poden resultar, en ocasións, excesivamente complexas.  +
- +
-===== Formatos e organización de datos ===== +
-Para garantir que os datos sexan FAIR, é importante seleccionar coidadosamente os formatos a utilizar. Ás veces, estes formatos serán condicionados polo equipo ou dispositivo que se emprega na investigación, pero noutras ocasións existe a opción de escoller o formato máis axeitado. A recomendación será sempre usar formatos estándar e non depender de programas propietarios ou software especializado, se é posible. A escolla dos formatos é, por tanto, un aspecto crucial na hora de compartir os datos e promover a súa reutilización, xa que pode obrigar a transformar posteriormente os datos se non cumpren cos requisitos de preservación do repositorio onde se van a arquivar. +
- +
-No caso de que só sexa posible gardar os datos nun formato propietario, recoméndase acompañar os datos cunha indicación do programa utilizado para xerar os datos, así como a versión específica do programa. A priori, non se pode establecer unha lista pechada de formatos porque cada disciplina pode utilizar diferentes formatos establecidos e consolidados pola comunidade. Porén, pódese ofrecer unha lista con recomendacións ou formatos de preferencia, que poden estar condicionados pola política de preservación. +
- +
-No caso de Data Archiving and Networked Services (DANS), o centro nacional holandés de datos de investigación, establecen uns formatos de preferencia para diferentes tipos de datos. Na seguinte táboa indicanse algúns dos formatos de datos recomendados por DANS. +
- +
-^Tipo ^ Formatos preferidos ^ Formatos non preferidos ^ +
-| Texto | PDF/A, ODT | DOC, DOCX, PDF | +
-| Linguaxe de marcas | XML, HTML | SGML, MD | +
-| Folla de cálculo | ODS, CSV | XLS, XLSX, PDF/A | +
-| Datos estatísticos | DAR, SPS, DO, R | POR, SAV, DTA | +
-| Imáxenes vectoriais | SVG | AI, EPS, WMF | +
- +
- +
-===== Xestión da propiedade intelectual ===== +
- +
-A propiedade intelectual refírese os dereitos sobre as produccións, como obras científicas ou artísticas, que corresponden ós seus autores. No que se refire as bases de datos, a lei de propiedade intelectual vixente en España, así coma na maioría dos países europeos, recolle o dereito de extraer e reutilizar contidos aos creadores das bases de datos. Polo tanto, ese titular do  dereito pode conceder os permisos necesarios para reutilizar os datos das bases de datos. Ademais, hai que ter en conta que se a investigación que se desenrola pode dar dereito a resultados de propiedade industrial, se deben establecer os mecanismos de protección oportunos (por exemplo, cando os datos poden contribuir a xerar  unha patente). +
- +
-Unha posibilidade para outorgar dereitos de reutilización os datos son as licenzas [[https://creativecommons.org/licenses/?lang=es_ES|Creative Commons]]. Indícanse a continuación dúas posibilidades de protección e os seus mecanismos de protección: +
- +
-^ Logo                  ^ Licenza              ^ Permite                                            ^ +
-| {{:centro:xestion-de-datos:cc_by_nc.png?80|}} | Non comercial, compartir igual | Esta licenza permite a outros remezclar, adaptar e construir a partir do traballo de forma non comercial, sempre que se referencie aos autores e as novas creacións se licencien en termos equivalentes. |  +
-| {{:centro:xestion-de-datos:cc_by-nc-nd.png?80|}} | Non comercial, sen obras derivadas | Esta licenza é a mais restrictiva das licenzas Creative Commons, permitindo únicamente a descarga das obras e a compartición sempre e cando se dea crédito, pero non se poden cambiar as obras de forma algunha nen usalas de forma comercial |   +
- +
-Existe a posibilidade de ceder unha obra  o espazo público coa licenza CC0-public domain {{:centro:xestion-de-datos:cc_0_public_domain.jpg?75|}}. Desta forma, un Dataset se publicaría sen ningunha restricción para o seu uso, aínda que as normas da comunidade entende que é aconsellable facer referencia ós autores. +
-===== Reutilización de datos de terceiros ===== +
- +
-Sempre que se reutilicen  datos de terceiros é necesario comprobar que a licenza dos datos permite o uso que queremos facer dos datos. En ocasións, será necesaro a firma de acordos de cesión onde se indiquen os dereitos de uso. +
- +
-A non existencia de licenza asociada a datos públicos, nunca debe interpretarse como que non existen restriccións para o seu uso. Se **un dataset non ten licenza esto debe interpretarse como "todos os dereitos restrinxidos"**.  +
- +
-===== Repositorios para a publicación de datos ===== +
- +
-A USC non dispón neste momento dun repositorio institucional ou política de xestión de datos. Tampouco existen repositorios nacionais. +
- +
-Por este motivo aconsellase usar [[https://zenodo.org/ | Zenodo]] para publicar os Datasets do CiTIUS. Zenodo é un repositorio de investigación de acceso aberto creado por OpenAIRE e CERN para permitir aos científicos e investigadores compartir e preservar calquera tipo de datos e resultados de investigación. Zenodo permite o almaceamento de Datasets de ata 50G. +
- +
-A [[ https://www.res.es/ | rede de supercomputación nacional ]] tamén ofrece, previa solicitude e aceptación, servizos para o almaceamento de Datasets, por encima dos límites de almaceamento proporcionados por Zenodo. +
-  +
- +
-===== Política de Xestión de datos do CiTIUS ===== +
- +
-Incluímos nesta sección referencia as políticas de obrigado cumprimento derivadas da reglamentación existente na USC así como un protocolo de actuación para os proxectos que traballen con xestión de datos no CiTIUS. +
- +
-==== Normas Xerais ==== +
- +
-1. É necesario cumplir coas leis e regulamentos oportunos (e.x. RGPD) cando se traballa con datos. +
- +
-2. Cando se utilizan ou reutilizan datos doutras institucións, hai que asegurarse de que as licenzas dos datos permiten os usos que se fan dos mismos. É necesario asegurar as condicións de acceso, uso e publicación. Neste sentido, e importante que público non é sinónimo de aberto. No caso de ausencia de licenza, os datos non se poden utilizar, polo que neste caso, se debería contactar cos autores do Dataset e obter os permisos oportunos, de ser o caso. +
- +
-==== Regulamentación da USC ==== +
- +
-1. Sempre que se traballe con datos sensibles haberá que seguir as políticas da USC e obter as autorizacións pertinentes do Comité de Bioética. +
- +
-2. Seguindo estas recomendacións, será necesario contar e almacear adecuadamente os consentimentos informados dos individuos que participen nun estudo como suxeitos experimentais. +
- +
-3. Por defecto, o almacenamento de datos tense que facer na ferramenta corporativa Microsoft One Drive, que é a oficialmente contratada e a que conta cos respaldos legais oportunos. +
- +
-==== Protocolo do CiTIUS ==== +
-O CiTIUS declara o seu **compromiso co seguimiento dos principios FAIR** De cara a cumprir este compromiso, designase o persoal de apoio identificado no **Servizo de asesoramento en Xestión de Datos** como responsable de apoiar os investigadores do Centro no seguimento e cumprimento dos principios FAIR.  +
- +
-1. Contactar cos responsables da Comisión de Datos cando se vaian xerar ou reutilizar datos de investigación. +
- +
-2. A Comisión de Datos do CiTIUS manterá un rexistro e farán un seguimento adecuado dos conxuntos de datos xerados dende o Centro. +
- +
-3. Todos os integrantes do equipo de investigación que vai traballar na creación de repositorios de datos, deben coñecer as restriccións de uso e seguridade dos mesmos para evitar problemas asociados a posible perda de datos, incorrecta utilización ou alteración, etc. Para iso, deben definirse unhas pautas de actuación común así como compartir o Plan de Xestión de Datos sempre que resulte oportuno. +
- +
- +
-3. Elaboración do Plan de Xestión de datos +
-5. Anonimizar os datos persoais coas técnicas metodolóxicas oportunas antes da súa publicación en aberto. +
- +
-=== Utilización de datasets doutras institucións === +
- +
-  * Comprobar as licenzas ou contar coas autorizacións oportunas. +
- +
-  * Os integrantes do equipo deben coñocer o plan de xestión de datos. +
- +
-  * O almaceamento debe estar protexido por contraseña ou sistema de logeado. Todos os membros do equipo deben coñecer as restriccións de confidencialidade asociadas o traballo cos datos. Débese ser especialmente coidadoso coa descarga e compartición de datos, especialmente en memorias volátiles.+
  
 +===== Servizo de Apoio en Xestión de Datos no CiTIUS=====
  
-**Si los datos personales se van abrirhay que anonimizarlos** +O CiTIUS, través das súas Unidades de Xestiónofrece un servizo de apoio en xestión de datos para aqueles investigadores que así o necesitenOs responsables de ofrecer este servizo serán [[https://citius.gal/es/team/felix-diaz-hermida|Félix Díaz Hermida]] (Unidade de Xestión do Coñecemento e Transferencia) e [[https://citius.gal/es/team/fernando-guillen-camba|Fernando Guillén Camba]] (Unidade de Infraestructuras TIC).
-**Cuestionario de consentimento informado para datos persoais** +
-**Para datos sensibles, considerar que datos son imprescindibles para la investigación. COMPLETAR** +
-**Si se detecta que se pueden violar derechos fundamentales...** +
-**Cuidado con liberar datos que puedan dar derechos a patentes o similares**+