• Hrvatski
  • English

Upravljanje istraživačkim podacima u hrvatskoj znanosti

O istraživačkim podacima na konferenciji Dani e-infrastrukture DEI 2024

Autor: Maja Hoić, Centar za znanstvene informacije, Knjižnica IRB-a

Kod svakog istraživanja generiraju se podaci, radilo se o istraživanjima u području prirodnih, tehničkih ili društvenih znanosti. Neki studijski programi svojim studentima pružaju edukaciju iz analize podataka, ali očit je manjak edukacije kojima bi se mlade istraživače uvelo u upravljanje podatacima kako bi njihovi podaci bili čitljivi i obradivi za svakog sljedećeg istraživača koji želi raditi s tim prikupljenim podacima.

Upravljanje istraživačkim podacima obuhvaća cijeli životni ciklus podataka, od planiranja i prikupljanja do analize, očuvanja i dijeljenja. Pravilno upravljanje osigurava integritet, dostupnost i iskoristivost podataka, omogućavajući istraživačima da reproduciraju istraživanja, surađuju i nadograđuju postojeća istraživanja. Također pridonosi većoj transparentnosti, ponovljivost i odgovornosti u istraživanju, što u konačnici povećava vjerodostojnost znanstvenih radova. 

Plan upravljanja istraživačkim podacima

Plan upravljanja istraživačkim podacima (Research Data Management Plan, DMP) je dokument koji opisuje kako će se istraživački podaci prikupljati, upravljati, analizirati, dijeliti i arhivirati tijekom i nakon istraživačkog projekta. Koncept DMP-a postao je važan s rastom interesa za otvorene podatke, reproducibilnost istraživanja i transparentnost u znanstvenom radu.

Europska unija je prepoznala važnost DMP-ova i otvorenih podataka za unapređenje istraživanja i inovacija. EU također potiče primjenu FAIR principa (Findable, Accessible, Interoperable, Reusable) za upravljanje podacima. DMP-ovi unutar Horizon Europe projekata ovezni su uzeti u obzir ove principe. Nastavno na to, i Hrvatska zaklada za znanost je 2022. uvela obavezu izrade plana upravljanja istraživačkim podacima kod natječajne prijave na HRZZ istraživačke programe i kod izrade njihovih izvještaja.

Sve više hrvatskih znanstvenih i visokoškolskih ustanova također uvodi politike i prakse izrade DMP-ova i spremanja u institucijske repozitorije, čime je upravljanje istraživačkim podacima potrebno podržati infrastrukturno i obrazovanjem kadra, o čemu je bilo rasprave i na nedavno održanoj konferenciji DEI 2024.

O istraživačkim podacima na DEI 2024

Na konferenciji Dani e-infrastrukture DEI 2024, održan je panel pod nazivom “Istraživački podaci – kako iskoristiti njihov puni potencijal?” koju je moderirala dr. sc. Inga Patarčić, a okupio je sedam sugovornika iz akademskog i privatnog sektora. Panel je bio usmjeren na razmjenu iskustava i izazova u radu s istraživačkim podacima, posebice u kontekstu njihovog prikupljanja, obrade i dijeljenja. 

Panelisti, među kojima su bili dr. sc. Damir Aumiler, akademik Sven Lončarić, Ivan Marić, dr. sc. Hrvoje Meštrić, prof. dr. sc. Tomislav Josip Mlinarić, Igor Ljubi, dr. sc. Vanja Škurić i dr. sc. Kruno Vukušić, složili su se o ključnoj važnosti kvalitete podataka. Raspravljalo se o tome kako kvalitetno prikupljeni i dobro upravljani podaci mogu omogućiti šire korištenje u znanstvenoj zajednici i gospodarstvu.

Ključni izazovi

Ključni problemi dotaknuti na panelu u vezi prikupljanja i dijeljenja podataka unatoč postojećoj infrastrukturi mogli su se svesti na tri ključne točke rasprave:
1. Kvaliteta prikupljenih podataka i  njihove obrade: Pokazalo seo kako je nužno da institucije pružaju ne samo tehničku podršku, već i stručnu podršku u obliku “data managera” i “data stewarda”, odnosno kako se osim na izgradnju e-infrastruktre mora intenzivnije uložiti u obrazovanje stručnog kadra kao i predviđanje specifičnih radnih mjesta za tu vrstu znanstvene podrške.
2. Motivacija i izazovi u dijeljenju podataka: Postojeći izazovi u dijeljenju podataka proizlaze iz strukture akademske karijere i objavljivanja radova, što često rezultira “zatočenim” podacima unutar pojedinih disciplina ili infrastruktura; naime sve dok se kao kriterij za karijerno napredovanje znanstvenika gleda broj objavljenih podataka, znanstvenici posesivno ne dijele prikupljene podatke. Stoga je  panel time prepoznao potrebu za promjenom kriterija za akademska napredovanja, kako bi se više cijenilo otvaranje znanstvenih podataka i doprinos zajedničkim resursima.
3. Kriteriji za obavezno dijeljenje istraživačkih podataka koji su nastali kao rezultat znanstvenog djelovanja na javnim institucijama: S obzirom na financiranje znanstvenog djelovanja na javnim ustanovama novcem države i Europske Unije, postoji obaveza da se ono što je financirano javnim novcem i učini javno dostupnim. Time se podaci mogu koristiti ponovno u drugim znanstvenim radovima kao i u gospodarstvu. Kod privatnih gospodarskih subjekata takva praksa nije obavezna, ali njihovo iskustvo može pružiti vrijedne lekcije u iskorištavanju podataka za daljnja djelovanja. 

Sudionici panela su se složili da je rad na kvaliteti i otvorenosti istraživačkih podataka, te suradnja s javnim sektorom i gospodarstvom ključna za realizaciju treće misije zagrebačkog Sveučilišta, koja podrazumijeva transfer znanja i tehnologije.

Trenutna e-infrastruktura za istraživačke podatke

Na panelu je  naglašena važnost superračunalnih resursa koje pruža Srce, nacionalni pružatelj e-infrastrukture, ali i potreba za strukturiranim upravljanjem tim podacima. Trenutno znanstvenici pohranjuju planove upravljanja istraživačkim podacima na institucijski repozitoriji (sustav Dabar omogućuje spremanje kao reakcija na zahtjeve HRZZ-a za pohranom i objavom PUP-a) ili sustav PUH u koji je pripadnicima akademske i znanstvene zajednice RH omogućeno pohranjivanje na spremišnim sustavima Srca; ali znanstvenici uglavnom pohranjuju istraživačke podatke na Zenodo i na repozitorije koji su specijalizirani za njihovo područje iz čega se vidi puno mjesta za razvoj bolje institucijske infrastrukture. 

Društveni benefiti otvorenih znanstvenih podataka

Panel je također obuhvatio važnost otvorene znanosti i kako pravilno implementirane istraživačke infrastrukture mogu podržati koristi za šire društvo, promovirajući napredne tehnologije kao što su strojno učenje i umjetna inteligencija. Na primjer, pojavom sve većeg korištenja AI-a vidi se i važnost dobro prikupljenih i obrađenih podataka, kao i važnost stvaranja vlastitih modela kako bi se osigurala konkurentnost hrvatskih sveučilišta i gospodarstva.

Jedan od primjera društvenih benefita je i korištenje bio-medicinskih otvorenih podataka u zdravstvenim istraživanjima. Otvoreni pristup takvim podacima može ubrzati istraživanje novih tretmana i lijekova, te omogućiti znanstvenicima diljem svijeta da surađuju i dijele otkrića. Jedan od poznatijih primjera je projekt Cancer genome atlas database (TCGA) koji je omogućio pristup velikim skupovima podataka o genomima različitih vrsta raka i identificiraju moguće mete za terapije. 

Drugi široko primjenjiv primjer važnosti otvorene znanosti za društvo uključuje geografske i klimatske podatke. Otvoreni pristup tim podacima može podržati održivi razvoj, borbu protiv klimatskih promjena i upravljanje resursima, ili poput OpenStreetMap koji omogućuje stvaranje i dijeljenje geografske mape za humanitarnu pomoć, planiranje urbanog razvoja, te za stvaranje drugih geografskih alata i usluga. 

Organizacije poput Opendata.ch, koje su posvećene promoviranju transparentnosti podataka, sudjelovanja i inovacija, pružaju vrijedan doprinos otvorenoj znanosti. Opendata.ch je osnovana 2011. godine i kao neprofitna udruga zalaže se za jačanje pristupa otvorenim podacima u Švicarskoj. Njezina vizija je stvaranje otvorenog, inovativnog i pravednog društva koje osnažuje ljude putem otvorenih podataka i otvorenog znanja, te redovito održavaju događaje poput Open data hackathona.

Vrijedni izvori

Za one koji žele znati više, postoji mnogo korisnih materijala online. Pripremili smo nekoliko izvora o samoj organizaciji podataka i o planovima upravljanja podataka i politikama o obaveznosti njihove izrade.

Organizacija podataka:

O planovima upravljanja istraživačkim podacima:

Zabavno o istraživačkim podacima:
međuutjecaj Excela i imenovanja gena – autocorrect u Excelu “autocorrecta” imena gena u datume  

O Autoru:
Maja Hoić je zaposlena kao knjižničarka na Institutu Ruđer Bošković. U sklopu doktorskog studija na Sveučilištu Sjever bavi se optimizacijom znanstvenih metapodataka, znanstvenim bazama podataka i znanstvenom komunikacijom, te piše radove i vodi radionice o novostima koje umjetna inteligencija donosi u znanstvenu komunikaciju.

150 150 Blog Penkala