Skip to main content

Otvoreni istraživački podaci

Istraživački podaci su podaci koji su prikupljeni, zabilježeni ili generirani s namjerom da ih se analizira i tako dođe do originalnih znanstvenih rezultata. Nema jedinstvene definicije istraživačkih podataka te se razlikuje prema disciplinama. Sukladno tome, postoji i mnogo vrsta istraživačkih podataka – sve prikupljeno ili proizvedeno u procesu istraživanja, a s obzirom na razinu njihove obrađenosti dijele se na: sirove (inicijalno prikupljene), očišćene (pripremljene za analizu), obrađene (podaci koji su rezultat provedene analize) i prezentacijske (verzija podataka prilagođena predstavljanju).

Ideja otvorene znanosti nema za cilj samo maknuti barijere kod pristupa gotovim znanstvenim člancima nego znanstvenoj zajednici otvoriti cjelokupan proces istraživanja pa tako i istraživačke podatke s ciljem dostupnosti, pristupačnosti, ponovne uporabe i redistribucije te globalne uključenosti. Važnost širenja podataka utječe na ekonomski rast i inovacije u svim granama gospodarstva, učinkovitiju i pristupačniju znanost, ali i društvo u cjelini. 

Svejedno, istraživači su nerijetko sumnjičavi prema otvorenosti podataka, najčešće izražavajući zabrinutost oko pogrešnog tumačenja podataka, manjka ponovne korištenosti, potencijalnog ponovnog korištenja od strane stvaratelja podataka, nesigurnosti oko vlasništva podataka, kompleksnosti i složenosti podataka. Također, znaju frustrirano naglasiti da nemaju vremena za detaljnije organiziranje i dokumentiranje podataka i istraživačkog procesa. Međutim, prednosti dijeljenja istraživačkih podataka pokazuju da su upravo takvi argumenti razlozi za otvaranja podataka:

  • Izbjegavaju se nepotrebni troškovi duplikacije prikupljanja i/ili obrade podataka, čime se smanjuju i troškovi društva.
  • Otvaranje pristupa korištenim istraživačkim podacima omogućuje validaciju dobivenih rezultata te pridonosi reproducibilnosti i transparentnosti znanstvenih istraživanja.
  • Potiče se suradnja i ubrzava napredak istraživačkih procesa.
  • Povećanje vidljivosti i utjecaja istraživanja, odnosno veća citiranost znanstvenih radova s otvorenim podacima.
  • Mogućnost citiranja podataka povećava citiranost i utjecaj znanstvenika u području.
  • Pohrana podataka u javnom repozitoriju osigurava trajno i sigurno očuvanje (ovisno o repozitoriju, obično bez naplate).

Životni ciklus podataka

Shema i razumijevanje životnog ciklusa istraživačkih podataka uvelike pomaže u pripremi istraživanja, ali je bitno i za aktivnosti tijekom, na kraju i nakon istraživanja. Svaki je segment životnog ciklusa podataka u međusobnom zavisnom djelovanju s drugima, a mogu se podijeliti u tri dijela – aktivnosti prije, tijekom i nakon istraživanja. 

Prije početka istraživanja potrebno je isplanirati kako će se upravljati istraživačkim podacima, što se odnosi na cjelokupni životni ciklus istraživanja. Planiranje i upravljanje istraživačkim podacima sastavni je dio istraživačkog procesa koji osigurava pouzdanu provjeru rezultata i, kroz odgovarajuću organizaciju, opisivanje, pohranu i dijeljenje podataka, omogućuje nova istraživanja temeljena na postojećim informacijama.

Upravljanje istraživačkim podacima (engl. Research Data Management) podrazumijeva aktivnosti koje se vrše prilikom kreiranja/generiranja, spremanja, čuvanja, održavanja, dijeljenja i arhiviranja podataka. Ozbiljno planiranje uklanja nered u shemi upravljanja istraživačkim podacima, a jedan od alata koji može poslužiti je Plan upravljanja istraživačkim podacima (PUP; engl. Data Management Plan, DMP). Riječ je o važnom dokumentu u kojem se definira koji podaci će se prikupljati i/ili stvarati, dokumentirati, tko će im moći pristupiti, gdje će se pohraniti te kako će se dijeliti i dugoročno čuvati. PUP se stvara prilikom prijave ili početka istraživačkog projekta, ali se smatra tzv. “živim” dokumentom koji je potrebno ažurirati za vrijeme cjelokupnog istraživačkog procesa.

PUP

Standardi

Standard otvorenih podataka znači ispunjenje potencijala informacija, razmatranje sveobuhvatnog upravljanja informacijama i donošenje odredbi koje su u interesu javnosti. Međunarodni standard za cjelokupnu znanstvenu zajednicu mora biti usluglašen s FAIR načelima (dostupno, pristupačno, interoperabilno i ponovno upotrebljivo), koji predstavljaju temelj otvorene znanosti u cjelini, te uzeti u obzir:

  • specifičnosti pojedinih disciplina 
  • uloge i vrijednosti glavnih čimbenika
  • tehnološke zahtjeve za upravljanje i dijeljenje podataka
  • pravne i etičke procedure i regulacije 
  • pravni okvir ustanova.

Osim dobrog metapodatkovnog opisa, mogućnost ponovnog korištenja ovisi i o licenciji koja se dodijeli podacima. FAIR načela ne podrazumijevaju nužno i otvorenost podataka radi primjerice privatnosti ispitanika. Kako istraživački podaci dosta ovise o domeni iz koje dolaze te reflektiraju karakteristike tog područja, postoje standardi za određena područja, primjerice za biologiju, astronomiju, geografiju ili biomedicinu

FAIR

Kako bi upravljanje istraživačkim podacima i njihovo dijeljenje bilo doista korisno, preporuka je pratiti određene standarde. Standardi otvorenih podataka označavaju ispunjenje potencijala informacija, razmatranje sveobuhvatnog upravljanja informacijama i donošenje odredbi koje su u interesu javnosti. U tu svrhu potrebno je podatke usuglasiti s četiri temeljna načela FAIR-a. FAIR načela olakšavaju njihovo pronalaženje i nesmetan pristup podacima i metapodacima, osiguravaju mogućnost razmjene podataka te krate pripremu podataka kako bi bili razumljivi i iskoristivi za daljnju upotrebu. Prema tome, istraživački podaci trebali bi biti: 

  • pronalažljivi (Findable),
  • dostupni (Accessible),
  • interoperabilni (Interoperable) i
  • ponovo upotrebljivi (Reusable)

Svako od temeljnih načela sastoji se od popisa određenih principa koje je potrebno uzeti u obzir prilikom izrade plana upravljanja podacima. Vođenje ovim principima omogućuje znanstvenicima podići razinu svijesti o vlastitom istraživanju i dubljem promišljanju o široj slici ciklusa podataka kojima će upravljati, kao i gdje bi podaci mogli biti iskoristivi u širem znanstvenom području. 

Pronalažljivost podataka, između ostalog, podrazumijeva da ih mogu pronaći i ljudi i strojevi. 

  • Podaci su jasno opisani detaljnim metapodacima. Bogati metapodaci olakšavaju organizaciju, pronalaženje i ponovnu uporabu podataka, osiguravajući pristupačnost raznim korisnicima i za različite namjene.
  • (Meta)podacima je dodijeljen globalno jedinstveni i trajni identifikator. Dodjeljivanje trajnih identifikatora uklanja nejasnoće u značenju podataka, omogućuje interoperabilnost, te osigurava razumljivost i trajnu dostupnost podataka.
  • Identifikator je jasno naveden u metapodacima skupa podataka.
  • (Meta)podaci su registrirani ili indeksirani u pretraživoj bazi podataka.

Samo identifikatori i bogati metapodaci ne garantiraju pronalažljivost. Stoga se predlaže pohranjivanje metapodataka u strojno-čitljivim formatima te označavanje ključnim riječima za bolju pronalažljivost u bazama podataka.

Dostupnost podataka znači da su dugoročno pohranjeni i dostupni kroz standardne procese. Nije nužno da su podaci u otvorenom pristupu, ali informacije o načinu na koji se može doći do podataka moraju biti dostupne.

  • (Meta)podaci su dostupni putem svog identifikatora koristeći standardizirani komunikacijski protokol. Korišteni protokol je otvoren, besplatan i univerzalan, a kada je potrebno, omogućuje i postupak autentifikacije i autorizacije.
  • Metapodaci su dostupni, i kada je pristup podacima (više) nije.

Podaci trebaju biti razmjenjivi i primjenjivi u različitim sustavima (uključujući i one buduće), aplikacijama i radnim procesima. Ovdje je važna i mogućnost integracije s drugim podacima iz istog ili drugih znanstvenih područja.

  • (Meta)podaci koriste formalan, pristupačan i široko primjenjiv jezik za prikaz znanja. Kao što pretraživost treba biti moguća i ljudima i strojevima, tako i razumijevanje tih podataka treba biti podložno njihovu čitanju od strane ljudi i strojeva.
  • (Meta)podaci koriste rječnike koji su u skladu s FAIR načelima. Korišteni rječnik za jasnije definiranje sadržaja trebaju biti lako pronalažljivi, interoperabilni i dostupni za ponovno korištenje.

Konačni cilj FAIR načela je optimizirati ponovnu upotrebu podataka putem kvalitetno opisanih i dobro dokumentiranih podataka koji slijede standarde zajednice, obuhvaćaju bogate informacije o kontekstu nastanka te imaju jasno definirane uvjete pristupa i uporabe uz standardne, strojno čitljive licencije. Bogato opisivanje (meta)podataka ovdje se odnosi na mogućnost procjene korisnosti podataka u određenom kontekstu. Stoga nisu dovoljni samo metapodaci koji omogućuju pronalaženje, već i detaljno opisani kontekst u kojem su podaci stvoreni, čak i pružanje metapodataka koji se možda na prvu čine nevažnima. Neki od aspekata koje pritom treba uzeti u obzir:

  • Opiši obujam svojih podataka i svrhu zbog koje su stvoreni/prikupljeni.
  • Napomeni ako postoje posebnosti ili ograničenja vezana za podatke kojih bi korisnici trebali biti svjesni.
  • Navedi datum stvaranja/prikupljanja podataka, uvjeta u kojima su stvoreni/prikupljeni, ljude koji su se njima bavili, postavke, naziv i verziju korištenog softvera.
  • Je li riječ o sirovim ili obrađenim podacima?
  • Sve varijable trebaju biti objašnjene ili definirane kontroliranim rječnikog istraživačkog područja.
  • Jasno označi i dokumentiraj verziju pohranjenih i/ili ponovno korištenih podataka.

Kako da podaci postanu FAIR?

Važno je razumjeti da ne postoji univerzalno rješenje za tzv. FAIR-ificiranje istraživačkih podataka, jer se metode i strategije razlikuju ovisno o znanstvenoj disciplini, prirodi istraživanja i vrsti podataka. Ipak, FAIR načela postala su ključni aspekt modernog istraživanja jer pomažu istraživačima osigurati da podaci budu korisni ne samo njima, već i drugim znanstvenicima. Na taj način, FAIR-ificiranje podataka omogućuje učinkovitije ostvarivanje njihova potencijala. Postoji niz ključnih koraka koji istraživačima može poslužiti kao smjernica za unapređenje dostupnosti i ponovne iskoristivosti podataka:

Dodavanje trajnog identifikatora

(engl. persistent identifier, PID)

Trajni identifikator, kao što su DOI (Digital Object Identifier) ili ARK, omogućuju jedinstveno prepoznavanje skupa podataka, kako bi se osigurala dugotrajna dostupnost i pretraživost podataka. Identifikatori olakšavaju pronalaženje i citiranje podataka, čime se povećava njihova vidljivost i dostupnost.

Osiguranje bogate metapodatkovne dokumentacije

Podaci trebaju biti popraćeni standardiziranim metapodacima ključnim za razumijevanje i korištenje podataka. Metapodaci opisuju kontekst i sadržaj podataka, a trebali bi uključivati osnovne informacije (naziv, autor, datum prikupljanja), opis metodologije, kontekst istraživanja i tehničke detalje. Standardizirani formati metapodataka, poput Dublin Core ili DataCite, mogu pomoći u osiguravanju dosljednosti i interoperabilnosti.

Jasno definiranje licenci

Licenciranje omogućuje ponovnu upotrebu podataka, za što je potrebno jasno navesti uvjete korištenja podataka kako bi drugi istraživači razumjeli kako mogu koristiti te podatke. Preporučuje se pristup “otvoreno ako je moguće, ograničeno ako je nužno”, kao i korištenje otvorenih licenci poput Creative Commons.

Odabir pouzdane arhive za pohranu

Važno je pohraniti podatke u pouzdanu istraživačku arhivu koja osigurava dugoročnu dostupnost i održavanje podataka. Preporuča se pohrana podataka u renomirane repozitorije, kao što su Zenodo, Figshare i Dryad, koji često nude alate za dodavanje metapodataka i dodjelu trajnih identifikatora.

Osiguranje pristupa i interoperabilnosti

Podaci trebaju biti lako dostupni putem Interneta, uz minimalne prepreke. Korištenje otvorenih formata datoteka (npr. CSV umjesto Excel) omogućuje lakšu razmjenu i analizu podataka. Možete osigurati i da su podaci strukturirani na način koji omogućava njihovu integraciju s drugim skupovima podataka.

Implementacijom ovih koraka ne samo da povećavate vrijednost svojih istraživačkih podataka, već također doprinosite širem znanstvenom zajedništvu. Ako je istraživanje već u tijeku i potrebno je provjeriti jesu li podaci upravljani na pravilan način, mogu se koristiti različiti alati i liste za procjenu jesu li podaci u skladu s FAIR-om. Neki od najpopularnijih alata su FAIR-Aware s nizom pitanja koja pokrivaju sve aspekte FAIRa i popis za provjeru “How FAIR are your data?” s detaljnom analizom usklađenosti s FAIR načelima.

Osim toga, sudjelovanje u radionicama ili obukama o FAIR principima može dodatno pomoći u razumijevanju kako poboljšati pristup i korištenje vaših istraživačkih podataka.

ZAPAMTI!

FAIR načela tek su upute za isplativo upravljanje podacima, nisu zahtjevi koje treba ispuniti u istraživanju.

Zahtjevi financijera

Upravljanje istraživačkim podacima ključ je za istraživanje i inovacije pa često financijeri istraživanja zahtijevaju da rezultati budu javno dostupni. Tako može biti obavezna izrada plana upravljanja istraživačkim podacima u sklopu dokumentacije za prijavu projekta, ali i u sklopu odobrenih projekata kao dio izvještaja o istraživačkom procesu i napretku, najprije unutar prvih 6 mjeseci, zatim ažurno tijekom trajanja i na završetku projekta. Potrebno je provjeriti i nudi li financijer predložak PUP-a koji je potrebno ispuniti kako bi bio usklađen sa standardnom praksom dokumentiranja projekta. Obavezna može biti i pohrana istraživačkih podataka nastalih u sklopu projekta financiranog javnim sredstvima, u odgovarajućim repozitorijima i pod određenim licencijama.

Europska komisija donošenjem politika na međunarodnoj razini snažno utječe na jačanje otvorene znanosti u digitalnom okruženju. U sklopu programa Horizon 2020 od projekata financiranih unutar navedenog programa zahtijeva se da:

izrade plan upravljanja istraživačkim podacima (PUP),
pohrane istraživačke podatke (čimi je prije moguće, najkasnije do kraja projekta) u odgovarajući pouzdani repozitorij po principu “otvoreno koliko je moguće, zatvoreno koliko je potrebno”,
definiraju skupove podataka za objavljivanje, kao i popratnu dokumentaciju potrebnu za njihov opis i (ponovno) korištenje.

Plan upravljanja istraživačkim podacima donosi se unutar prvih šest mjeseci trajanja projekta, ažurira se na sredini i na kraju projekta. Podatke na kojima se temelji znanstvena publikacija potrebno je pohraniti u pouzdani repozitorij najkasnije u trenutku objave i u skladu sa standardnom praksom zajednice, pod otvorenom licencijom, po mogućnosti CC-BY ili CC0. Po potrebi, podaci ne moraju biti otvoreni, ali metapodaci o istraživačkim podacima moraju biti FAIR i dostupni pod CC0 licencijom. Putem istog repozitorija potrebno je pružiti informacije o svim rezultatima istraživanja ili bilo kojim drugim alatima i instrumentima potrebnim za ponovnu upotrebu ili provjeru valjanosti podataka.

Hrvatska zaklada za znanost

Hrvatska zaklada za znanost (HRZZ), prepoznavši važnost plana upravljanja istraživačkim podacima, uvela je obvezu izrade Plana upravljanja istraživačkim podacima za „Istraživačke projekte” (IP) i „Uspostavne istraživačke projekte” (UIP) za sva izvješća za natječajne rokove IP i UIP 2019 i 2020 od 15. ožujka 2022. godine, koji postaje obvezni dio redovitog izvješća i obvezni dio prijavne dokumentacije za sve buduće natječaje HRZZ-a. Tako HRZZ sada traži:

izradu plana upravljanja istraživačkim podacima i njegovu pohranu na Dabar,
pohranu istraživačkih podataka nastalih istraživanjem u skladu s FAIR načelima u repozitorijima po principu “otvoreno koliko je moguće, zatvoreno koliko je potrebno”,
upis rezultata projekta u CroRIS.

PUP treba sadržavati opis svih aktivnosti koje se planiraju u okviru istraživanja te kako će voditelji projekata čuvati podatke nastale tijekom istraživanja, kao i po njegovom završetku. Obavezni je dio natječajne dokumentacije, potrebno ga je ažurirati s izmjenom radnog plana, a obavezna je i pohrana PUP-a na nacionalnom repozitoriju Dabar. Podaci nastali istraživanjem mogu biti zatvoreni ako je potrebno, ali metapodaci o istraživačkim podacima trebaju biti FAIR, te se predlaže podatke zaštititi licencijom, preferabilno CC-BY, ali dozvoljeno je i korištenje restriktivnijih inačica.

Više informacija dostupno je na njihovoj stranici Priprema izvješća (pod kategorijom Plan upravljanja istraživačkim podacima).

Korisni izvori

Objave na temu otvorenih istraživačkih podataka