Rahvusarhiiv

Ava otsing

Andmekogude arhiveerimine

Rahvusarhiiv alustas arhiiviväärtuslike andmekogude arhiveerimise lahenduse arendamist 2002. aastal. Välja töötati andmekogu kirjelduse ja andmekogu sisu avatud kujule (CSV, SQL) viimise põhimõtted. Esimese andmekoguna arhiveeriti nende põhimõtete järgi riiklik hooneregister (2004).

Aastatel 2014–2017 osales rahvusarhiiv uurimisprojektis E-ARK, mille ühe tulemina töötati välja rahvusvahelised vormingud ja tööriistad relatsiooniliste andmebaaside arhiveerimiseks. Aastast 2017 kasutab rahvusarhiiv andmekogude arhiveerimiseks rahvusvaheliselt tunnustatud vormingut SIARD (Software Independent Archiving of Relational Databases). Andmete viimiseks SIARD vormingusse soovitame kasutada vabavaralist tööriista Database Preservation Toolkit.

Arhiiviväärtuslikud andmekogud

Rahvusarhiiv arhiveerib ainult arhiiviväärtuslikuks hinnatud andmekogusid. Riigi Infosüsteemi Haldussüsteemis (RIHA) registreeritud andmekogud on hinnatud rahvusarhiivi 2017. aasta hindamisotsusega nr 51. Arhiiviväärtuslikuks tunnistatud RIHAs registreeritud andmekogude loetelu on ära toodud hindamisotsuse Lisas 1

NB! Arhiiviväärtus võib andmekogule olla antud ka asutusepõhise hindamisotsusega. Kui asutus pole kindel, kas andmekogu on arhiiviväärtuslikuks hinnatud, palume pöörduda küsimusega aadressile kogumine@ra.ee.

Andmekogude hindamise ja sellega kaasnevaga saad tutvuda ka 24.01.2018 toimunud infopäeva slaididest ja videosalvestuselt.

Andmekogude arhiveerimise protsess

Arhiiviväärtusliku ainese üleandmise protsessiga saab tutvuda rahvusarhiivi juhises “Arhivaalide üleandmine”.

Andmekogude puhul tuleb andmete korrastamiseks ja arhiivivormingusse viimiseks läbi teha kolm sammu:

  1. Andmekogu tõmmis. Kogu andmebaasi sisu viiakse kokku lepitud kuupäeva ja kellaaja seisuga SIARD vormingusse, sh säilitatakse algsed tabelite struktuurid, seosed, vaated, protseduurid jms. Kui võimalik, eraldatakse sama kuupäeva ja kellaaja seisuga ka andmebaasi sisu algsel kujul (nn native dump) ja arhiveeritakse koos infosüsteemi rakenduse ja/või lähtekoodiga. Selline tõmmis võimaldab tuleviku-kasutajal arhiveeritud andmebaasi taaskasutada algsele kujule võimalikult lähedaselt.
  2. Arhiivivaated. Koostöös rahvusarhiiviga defineeritakse andmebaasi vaated, mis kajastavad terviklikult (ja denormaliseeritult) andmekogu põhilisi olemeid. Vaated käivitatakse arhiiviga kokkulepitud andmete vahemiku osas, saadud vahetabelid viiakse SIARD vormingusse. Selliste vaadete arhiveerimine võimaldab tuleviku-kasutajal leida kiirelt kõige olulisemat informatsiooni, ilma et peaks aru saama (enamasti keerukast) relatsioonilisest andmemudelist.
  3. Dokumentatsioon. Et arhiveeritavatest andmetest oleks tulevikus võimalik aru saada, peavad need olema mõistlikult dokumenteeritud. Koostöös arhiiviga valitakse olemasoleva infosüsteemi dokumentatsiooni hulgast välja sobivad, viiakse need arhiivivormingusse ning säilitatakse koos tõmmise ja arhiivivaadetega. Lisaks arhiveeritakse võimalusel ka andmekogu kirjelduse hetkeseis RIHAs, tehakse videoid ja ekraanipilte rakenduse kasutamisest või kogutakse muud teavet, mis aitab saja aasta pärast paremini andmete algsest kogumisest ja kasutamisest aru saada.

Huvi korral palume kirjutada kogumine@ra.ee. Andmekogude üleandmise protsessi kohta leiab infot ka 24.01.2018 toimunud infopäeva slaididest ja videosalvestuselt.

Vormingud ja tööriistad

SIARD vorming võimaldab arhiveerida:

  • andmeid (tabelite, väljade, vaadete sisu)
  • andmete struktuuri (tabelid, väljad kommentaaridega ning tabelitevahelised seosed foreign keyde järgi)
  • salvestatud protseduure ja funktsioone
  • triggereid
  • kasutajaid, rolle ja õigusi
  • eeldefineeritud vaateid (views)

Selle vormingu eeliseks SQL dumpide ees on olla erinevatest andmebaasitarkvara tootjatest sõltumatu: SIARD (Software Independent Archiving of Relational Databases).

Tööriist DBPTK (Database Preservation Toolkit) on Java käsurea rakendus, mis on võimeline eksportima SIARDi faile järgmistest sisenditest:

  • MySQL/MariaDB
  • PostgreSQL
  • Oracle
  • Microsoft SQL Server
  • Microsoft Access
  • JDBC-d toetavad süsteemid

Samuti on võimalik DBPTK abiga laadida SIARDi mõnesse eelpool loetletud süsteemi, et näiteks SQL päringuid jooksutada.

SIARDi faili otseseks kasutamiseks on mõeldud tööriist nimega DBVTK (Database Visualization Toolkit), mis on SOLRil põhinev Java veebirakendus. DBVTK võimaldab kasutajatel:

  • näha andmebaasi struktuuri, andmebaasi kirjeldust
  • näha tabelitevahelisi seoseid
  • teostada kiireid tekstiotsinguid üle kõikide andmebaasis paiknenud tabelite väljade 
  • eksportida infot CSV failidesse
Tööriista DBPTK töötamise skeem

 

Täpsemate tehniliste küsimustega SIARDi, DBPTK, DBVTK osas kirjuta aadressil lauri.ratsep@ra.ee.