Mitä tutkimusdatan hyvä ja vastuullinen hallinta tarkoittaa?

11.8.2021
Vastuullisen tieteen ja tutkitun tiedon teemavuoden logot

Tutkimusaineistojen pelkkä avoimeksi saattaminen ei ole itseisarvo, vaan se on toteutettava vastuullisesti – eikä vastuullinen tutkimusdatan avaaminen tapahdu vahingossa.

Tutkimusdatan ja muun tutkimusaineiston avoin saatavuus on yksi avoimen tieteen kulmakiviä. Sen avulla parannetaan mahdollisuuksia tutkimuksen todentamiseen ja edistetään tutkimuksen toistettavuutta ja datan uudelleenkäyttöä. Avoimuus myös lisää globaalia yhdenvertaisuutta, kun tutkijat ympäri maailmaa voivat hyödyntää dataa tutkimuksissaan.

Pelkkä avoimeksi saattaminen ei kuitenkaan ole itseisarvo, vaan se on toteutettava vastuullisesti – eikä vastuullinen tutkimusdatan avaaminen tapahdu vahingossa. Se vaatii suunnittelua koko tutkimuksen elinkaaren ajan, ja tutkimusdatan hyvä hallinta onkin sen avoimen saatavuuden edellytys.

Yhtenäinen sanasto puuttuu

Tutkimusdatasta puhuttaessa on hyvä muistaa, että alalla ei ole yhtenäistä sanastoa. Määritelmät ovat erilaisia tieteenalasta riippuen, ja termien käännöksiä käytetään eri tavoin. Mikä on tutkimusdatan (research data) suhde tutkimusaineistoon, ja onko tutkimusaineisto sama asia kuin research material?

Tutkimusaineistojen ja -menetelmien kansallisessa linjauksessa käytetään termiä tutkimusdata tutkimusaineistosta, joka on kerätty, havaittu, mitattu tai luotu hypoteesien vahvistamiseksi ja tutkimustulosten todentamiseksi. Katsauksessaan ”Tutkimusdata tieteellisenä julkaisuna” Mari Elisa Kuusniemi ja Susanna Nykyri toteavat, että datasta tulee tutkimusdataa kontekstin myötä: ”Mikä tahansa tietoaineisto (data) voi olla tutkimusdataa, jos sitä analysoidaan tutkimustarkoituksessa.”

Tutkimusaineisto puolestaan viittaa tutkijan tai tutkimusryhmän tutkimusprosessin aikana käyttämiin resursseihin, eli se on digitaalisessa, analogisessa tai fyysisessä muodossa olevaa tieteellisen ja taiteellisen tutkimuksen perusaineistoa. Tutkimusaineisto on siis laajempi käsite kuin tutkimusdata ja kattaa myös lähdekirjallisuuden sekä esimerkiksi artefaktit ja näytteet, kuten verinäytteet ja sammalet.

Niin avointa kuin mahdollista, niin suljettua kuin välttämätöntä

Tutkimusdatan hyvä hallinta tarkoittaa, että tutkimusdata ja siihen liittyvä kuvaileva tieto (metadata) on, kuten Tietoarkiston Aineistonhallinnan käsikirjassa todetaan, ”luotu, tallennettu ja järjestetty siten, että tutkimusdata säilyy käyttökelpoisena ja luotettavana ja että tietosuoja ja tietoturva on varmistettu tutkimusdatan koko elinkaaren ajan”.

Nimenomaan avoimen tieteen mukaista tutkimusdatan hyvää hallintaa noudatettaessa keskeinen periaate on ”niin avointa kuin mahdollista, niin suljettua kuin välttämätöntä”. Periaatteen mukaan kaikki, mikä voidaan avata julkiseksi ja uudelleen käytettäväksi, myös avataan. Kääntöpuoli on, että sellainen, mitä ei voida julkistaa ja jakaa, suojataan ja säilytetään turvallisesti. Se, kumpaan ryhmään tietty tutkimusdata kuuluu, on tutkijan vastuulla, ja avaamatta jättäminen edellyttää aina perusteen.

Periaatteen mukaan kaikki, mikä voidaan avata julkiseksi ja uudelleen käytettäväksi, myös avataan. Kääntöpuoli on, että sellainen, mitä ei voida julkistaa ja jakaa, suojataan ja säilytetään turvallisesti.

Vastuullisen tutkimusdatan hallinnan toisen kulmakiven muodostavat FAIR-periaatteet, eli se, että data on löydettävää (findable), saavutettavaa (accessible), yhteentoimivaa (interoperable) ja uudelleenkäytettävää (reusable). FAIR-periaatteiden mukainen tutkimusdata ja metadata ovat niin hyvin jäsenneltyjä, kuvattuja, tunnistein merkittyjä, lisensoituja ja turvallisesti tallennettuja, että ne ovat koneellisesti löydettäviä ja luettavia.

Hyvä tieteellinen käytäntö

Täysin FAIR-periaatteiden mukainen data ei kuitenkaan vielä ole mahdollista useimmilla tieteenaloilla. Tähän vaikuttaa yhtäältä datan luonne ja toisaalta osaamisen ja palveluiden taso. Vastuullisen tieteen artikkelissaan Jessica Parland-von Essen tähdentääkin data- ja aineistopalveluiden tärkeyttä: ”Itse FAIR-periaatteet ovat hyvinkin konkreettisia teknisiä eritelmiä, joita voi olla vaikea ymmärtää ja vielä vaikeampi yksittäisen tutkijan toteuttaa yksin. Käytännössä tarvitaan infrastruktuuria ja digitaalisia palveluja tutkimusdatan julkaisemiseksi.”

Vastuullinen datanhallinta edellyttää sekä oman tutkimusalan että tutkimuseettisten periaatteiden tuntemusta ja noudattamista. Myös lainsäädäntö sekä tietoturvan ja tietosuojan periaatteiden noudattaminen on ensisijaisen tärkeää. Tutkimusdatan vastuullinen hallinta ja sen avulla syntyvä mahdollisuus tutkimusaineiston avaamiseen ovat osa hyvää tieteellistä käytäntöä.

Tämä artikkeli perustuu kansalliseen linjaukseen ”Tutkimusaineistojen ja -menetelmien avoimuus. Korkeakoulu- ja tutkimusyhteisön kansallinen linjaus ja toimenpideohjelma 2021–2025. Osalinjaus 1: Tutkimusdatan avoin saatavuus” https://doi.org/10.23847/isbn.9789525995466


Lisätietoja:

Mari Elisa Kuusniemi ja Susanna Nykyri: "Tutkimusdata tieteellisenä julkaisuna", Informaatiotutkimus 40(2): https://doi.org/10.23978/inf.109094

Sinua saattaisi kiinnostaa myös