Metatiedot ovat viesti maailmalle

23.9.2019

Valitsemalla millaisia tietoja kirjataan metatiedoiksi – tai kirjataanko ollenkaan – valitaan, millainen on tutkimusaineiston elinkaari.

Valitsemalla millaisia tietoja kirjataan metatiedoiksi – tai kirjataanko ollenkaan – valitaan, millainen on tutkimusaineiston elinkaari. Laajat tai vähintäänkin riittävät metatiedot mahdollistavat pitkän ja hyvän elämän tutkimusaineistoille. Laajat metatiedot ovat tutkimusaineistojen lähettiläitä: ne viestivät tutkimusyhteisölle tutkimustuloksista. Ne myös mahdollistavat ennalta-arvaamattomat uudet käyttötavat. Puutteelliset metatiedot vaikeuttavat tai estävät uudelleenkäytön, niin oman kuin muiden.

Kirjakaupan tietokirjahyllyssä kirjoja on järjestetty sekä tekijän että aiheen mukaan. Yksi kirjoista herättää kiinnostuksen. Takakannen teksti avaa sisältöä riittävästi, ja kiinnostus sen kuin kasvaa. Kirja on melko uusi, julkaistu tänä vuonna. Sisäkannen arvostelu vaikuttaa hyvältä. Sisällysluettelo vakuuttaa lisää: tämä otetaan. Mitä tapahtui? Metatieto auttoi tekemään päätöksen.

Metatieto on tiivistettyä tietoa kohteesta, nopeaa selailla ja hyödyntää. Digitalisoituvissa tutkimusympäristöissä tiedon haku, tarkastelu ja valinta tapahtuvat sähköisesti. Tietoverkkojen, hakukoneiden ja tekoälyn aikakautena koneluettavuuden edistäminen tuo tiedoille laajempaa näkyvyyttä ja sitä kautta toivottavasti myös vaikuttavuutta.

Hakemistot ja tietomallit

Jotta tieto aineistosta löytyisi, sen keskeisimmät kuvailutiedot eli metatiedot pitää tallentaa julkiseen hakemistopalveluun. Erilaiset hakemistopalvelut esittelevät kuvailutietoja potentiaalisille käyttäjille. Kuvailu on siis viestintää. Kun haemme tietoa tietoverkosta ja tietokannoista, palvelut ja sovellukset löytävät sitä meille asettamiemme kriteerien mukaisesti.

Erillisenä tiedostona metatiedon tiedostokoko on paljon pienempi kuin sen kuvaileman tiedoston, eikä sen käsittely vie aikaa. Emme joudu käymään läpi valtaisia raakatiedostoja, ja siksi sekä etsiminen että selailu on nopeaa. Hyvin laaditut metatiedot helpottavat siis arkea.

Digitalisoituminen vaikuttaa myös siihen, mitä metatietoja on syytä kirjata. Tarvittavat metatiedot kertoo tietomalli. Tietomalli kuvaa tietojen rakenteen sekä asioiden yhteydet riippumatta teknisistä järjestelmistä. Tietomalli tekee tietovarannot, tässä tapauksessa tutkimusaineistot, ymmärrettäviksi niin ihmisille kuin tietokoneille.

Hakemistopalveluissa on käytössä tietomalli – ei aina täsmälleen sama, mutta kasvavassa määrin yhteentoimiva tutkimusyhteisöjen kesken. Yhteentoimivuus tarkoittaa, että hakemistopalvelut kykenevät vaihtamaan metatietoa keskenään, eli metatieto siirtyy koneluettavasti palveluiden välisissä ja muissa tietovirroissa. Tämä edistää järjestelmäriippumattomuutta, kun hyvin kuvailtuja tietoja on helpompi siirtää järjestelmästä toiseen.

Täytettä metatietoihin

Tyypillisesti metatiedot kuvaavat luontitietoja, sisältörakennetta, tiedostomuotoa, oikeuksia, avainsanoja ja montaa muuta tiedon haussa ja arvioinnissa hyödyllistä asiaa. Ne voidaan luokitella eri ryhmiin esimerkiksi seuraavasti, kuten Airi Salminen on tehnyt:

  1. Semanttinen metatieto, jota on sisällön merkitystä kuvaava tieto, esimerkiksi asiasanat, asiakirjan nimeke, aihe, tiivistelmä
  2. Rakennemetatieto, jota on sisältöyksikön fyysistä tai loogista rakennetta tai sisällön kieltä kuvaavaa tietoa
  3. Kontekstuaalinen metatieto, joka kuvaa sisältöyksiköiden ympäristöä jossain tietyssä tilanteessa, esimerkiksi sisältöyksikön luomisaika, tuottaja, käyttäjä ja suhteet muihin sisältöyksiköihin.

Osan näistä metatiedoista vain tiedon tuottaja pystyy antamaan luomilleen tiedostoille. Osa metadatasta voidaan tallentaa automaattisesti jo silloin, kun dokumentti luodaan tai kun sitä muokataan – kuten esimerkiksi Word-tiedostoon automaattisesti tallentuneet metatiedot (kirjoittaja, muokkaaja, tiedoston koko, viimeksi muokattu jne.).

Merkityssisällön kuvaamisessa olisi suositeltavaa käyttää valmiita sanastoja, joko erityisalojen tai yleisiä. Tällöin tiedon merkitys palautuu helpommin yhteisesti sovittuihin merkityksiin. Esimerkiksi Finto on yhteinen suomalainen sanasto- ja ontologiapalvelu, joka mahdollistaa sanastojen julkaisun ja selailun. Finto tarjoaa myös rajapinnat sanastojen ja ontologioiden hyödyntämiseen muissa ohjelmistoissa. Tieteen kansallinen termipankki (TTP) puolestaan rakentaa kaikkien Suomessa harjoitettavien tieteenalojen yhteisen, avoimen ja jatkuvasti päivitettävän termitietokannan tiedeyhteisön ja kansalaisten käyttöön.

Tekijän tai omistajan olisi hyvä jakaa metatietonsa lisenssillä, joka antaa mahdollisuuden levittää metatietoa eri hakemistopalveluihin.

Metatiedoissa tulisi aina olla aineiston tekijyys- ja omistajuustiedot. Lupaa kysymättä ei ole asiallista julkaista metatietoa muiden aineistoista. Tekijän tai omistajan olisi hyvä jakaa metatietonsa lisenssillä, joka antaa mahdollisuuden levittää metatietoa eri hakemistopalveluihin. Esimerkiksi Creative Commons -lisensseillä voi jakaa osan tekijänoikeuksia ja antaa halutut vapaudet teoksen käyttäjälle, katsojalle tai kokijalle.

Metatiedot edistävät myös saatavuutta ja käytettävyyttä. Metatietoja suositellaan tuotettavaksi kaikkeen tutkimustietoon niin sanottujen FAIR-periaatteiden mukaisesti (findable eli löydettävä, accessible eli saavutettava, interoperable eli yhteentoimiva ja reusable eli uudelleen käytettävä). FAIR-periaatteiden noudattaminen kaataa muureja tutkimustiedon elinpiirin rajoilta ja antaa mahdollisuuden levittää metatieto kaikkiin FAIR-tietoa tukeviin hakemistopalveluihin. FAIR-periaatteet edistävät muun muassa pysyvien tunnisteiden ja linkityksien luomista datalle ja niiden lisäämistä metatietoon. Pysyvä tunniste on digiajan vastine bibliografisille tunnuksille, joita ovat esimerkiksi ISBN ja ISSN. Pysyvän tunnisteen avulla data löytyy jatkossa aina.

Digisfääreihin

Hyvien metatietojen tärkein anti on kuitenkin tutkimustoiminnan sisäinen: ne mahdollistavat osaltaan vastuullista tiedettä. Niiden avulla tutkimuksen todennettavuus ja toistettavuus tiedon elinkaaren eri vaiheissa on helpompaa ja tulosten hyödyntäminen on mahdollista. Valtavien digitaalisten tietomäärien maailmassa ne auttavat tiedon pitämisessä elävänä eli sen päivittämisessä, uusien versioiden tuottamisessa ja uudelleen käyttämisessä.

Metatietojen avulla tutkimuksen todennettavuus ja toistettavuus tiedon elinkaaren eri vaiheissa on helpompaa ja tulosten hyödyntäminen on mahdollista.

Uudet tavat käyttää digitaalisessa muodossa olevaa tietoa ovat myös uusia tapoja tutkia. Aikanaan monet tutkimuksen työkaluista valtavirtaistuvat suurelle yleisölle, hyvänä esimerkkinä tästä on world wide web.

Nyt elämme murrosta, jossa jatkossa tutkimusdatan lisäksi digitaaliset laitteet, rakennetut ympäristöt ja muutkin kohteet ovat tietoteknisen maailman, digisfäärin, osia. Laadukkaat metatiedot auttavat tutkimustiedon askelia tähän digisfäärin laajenevaan piiriin.

Pirjo-Leena Forsström on kehitysjohtaja Tieteen tietotekniikan keskus CSC:llä.


Lisätietoja:

Finto: finto.fi
Tieteen termipankki: https://tieteentermipankki.fi
Creative Commons -lisensseistä: https://creativecommons.fi/lisenssit/
FAIR-periaatteista: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4792175/
Airi Salminen: ”Metatiedot organisaatioiden sisällönhallinnassa”. Ilmestynyt julkaisussa Lehtinen, A., Salminen, A., Nurmeksela, R., Metatiedot suomalaisen lainsäädäntöprosessin tiedonhallinnassa. RASKE2-projektin II väliraportti (s. 4-13). Eduskunnan kanslian julkaisu 7/2005. Helsinki: Eduskunnan kanslia.