FAIR data a další požadavky

FAIR principy

Na cestě k otevřeným datům mají vědci možnost samostatně a za podpory různých nástrojů rozhodnout o tom, zda daná data budou dostupné otevřeně nebo ne, zda a v jaké fázi projektu data zveřejní a v jakém rozsahu, nebo kdy z nich jako autor již nebude dále těžit.

Ne všechna data je možné otevřeně sdílet. Sdílení některých dat může být v rozporu s pravidly o ochraně osobních údajů nebo v rozporu s autorským právem. Dosažitelným cílem pro data je „As open as possible as closed as necessary“, tedy „Otevřít tak, jak je to možné, uzavřít tak, jak je to nezbytné”

Vhodnou podobu zveřejnění výzkumných dat popisují tzv. FAIR principy, Principy kladou důraz na dostupnost dat pro automatizovanou práci výpočetních systémů bez lidského zásahu. FAIR data respektují realitu praktického sdílení dat a tedy nemusí být za všech okolností open daty.

FAIR data jsou:

Vyhledatelná (Findable) Data jsou uložena na vhodném místě umožňujícím komukoliv je dohledat. Data jsou popsána metadaty a opatřena jedinečným a perzistentním identifikátorem.

  • Data mají perzistentní identifikátor
  • Data mají dostatečný metadatový popis
  • Metadata jsou online (katalog, datový repozitář)
  • Metadata mají připojen perzistentní identifikátor

Dostupná (Accessibile) Data mají být dostupná za jasně daných podmínek. Pokud není možné zpřístupnit data, měl by být dostupný alespoň metadatový záznam.

  • K datům, či alespoň metadatům se dostanu vždy a pomocí perzistentního identifikátoru
  • Protokol k získání dat se řídí uznávanými standardy
  • V případě potřeby je pro přístup požadována autentizace a autorizace

Interoperabilní (Interoperable) (Meta)data jsou provázána s jinými (meta)daty prostřednictvím uznávaných standardů a formátů, aby je bylo možné kombinovat a sdílet.

  • Data jsou v běžných a ideálně otevřených formátech
  • Metadata se řídí relevantními standardy
  • Pokud je to možné, jsou pro popis použity řízené slovníky, klíčová slova, tezaury atd.
  • Jsou poskytnuté reference a odkazy k dalším souvisejícím datům

Znovupoužitelná (Reusable) Ke správné interpretaci mají být (meta)data detailně popsána. (Meta)data mají splňovat standardy daného vědeckého oboru. Data jsou sdílena pod co nejméně restriktivní a jasně danou licencí.

  • Data jsou kvalitně popsána
  • Data jsou opatřeny licencí
  • Jsou použity relevantní standardy daného oboru

Více na stránkách iniciativy GoFair.

Požadavky na formát dat a metadat

Pro dobrou orientaci v datech je důležité data dobře popsat. A to pro orientaci svoji i ostatních, pokud budou data sdílena.  Je vhodné zodpovědět si např. otázku: „Co bych potřeboval vědět pro práci s těmito daty za 10 let?“

Součástí metadatového popisu konkrétní datové sady je také označení trvalými identifikátory např. perzistentním identifikátorem DOI, nebo identifikátorem autorů ORCID.

Dále je vhodné připojit vzor vhodného formátu citace zveřejněných dat.

Doporučuje se dbát na oborové zvyklosti a používat vhodné formáty a standardizované oborové slovníky tak, aby bylo možné datům dobře porozumět, jednoduše je použít a co nejvíce zabránit možné dezinterpretaci dat. Vhodné standardy lze vyhledat např. na Seznamu metadatových standardů DCC, nebo na stránkách otevřených dat veřejné správy  ČR- otevřené formální normy. Pravidlům a standardům týkajících se repozitářů se věnuje stránka Open AIRE.

Anonymizace dat

Při zveřejňování dat je nutné řešit jejich anonymizaci, pokud je to nutné. Jde o proces utajení identity všech zkoumaných osob nebo institucí ve všech dokumentech, které jsou výstupem z vědeckých výzkumů. Můžete využít například nástroj Amnesia dostupný na webu OpenAIRE.

Pokud není možné anonymizovat data, je třeba přesně definovat osoby, které jsou oprávněny pracovat s údaji, jež zkoumané osoby nebo zkoumané instituce výzkumníkům poskytly. Výzkumníci musí zabezpečit i  databáze výzkumných dat před přístupem neoprávněných osob k datovým sadám.

Licence pro výzkumná data

Opatřit ORD licencí je důležitou podmínkou zveřejnění a dalšího volného používání dat. Vhodnou veřejnou licencí je např. Creative Commons (CC) nebo Open Data Commons. Repozitáře, mají zpravidla licenci již nastavenou. Pokud nejsou data uložena v repozitáři, je třeba licenci připojit ke zveřejněným datům nejlépe k metadatům.

Licence je možné užít jen v případech, že je poskytovaný nějaký autorskoprávně chráněný obsah, nebo databáze chráněná zvláštními právy pořizovatele databáze. Doložka CC nikoho a nijak nezavazuje v případech, když nejde o obsah, který by bylo možné licencovat. Prostá data nejsou chráněna právy duševního vlastnictví.

Použít licence Creative Commons je možné také jen v případě, že poskytovatel dat má oprávnění tímto způsobem s dílem nakládat (např. je v dostatečném rozsahu oprávněn udělovat podlicence, nebo se jedná o jeho zaměstnanecká díla).

V souladu s principy otevřených dat se doporučují dvě níže zmiňované licence.

https://lib.czu.cz/cache/article-data/SIC/Web/Open%20Science/Obr%205-125x44.jpg CC-BY 4.0 licence umožňuje využít data komukoli a za jakýmkoli účelem. Je třeba uvést jméno autora. Pokud jsou výzkumná data kvalifikována jako dílo, je vhodné užít tuto licenci.

https://lib.czu.cz/cache/article-data/SIC/Web/Open%20Science/Obr%206-125x44.png CC0 (volné dílo) licence umožňuje využít data komukoli a jakýmkoli způsobem. Uvedení jména autora je považováno za standard, ale v tomto případě není právně vymahatelné. Autor neposkytuje za dílo žádné záruky a zříká se odpovědnosti za veškeré možné způsoby užití díla, a to v nejširším možném rozsahu. Český právní řád tuto licenci neumožňuje používat, ale mimo ČR se s ní setkáte.