Rahvusarhiiv

Ava otsing

Andmekogude arhiveerimine

Rahvusarhiiv alustas arhiiviväärtuslike andmekogude arhiveerimise lahenduse arendamist 2002. aastal. Välja töötati põhimõtted andmekogude sisu viimiseks avatud kujule (CSV, SQL) ja andmekogu kirjeldusele. Esimese andmekoguna arhiveeriti nende põhimõtete järgi riiklik Hooneregister (2004).

Aastatel 2014 – 2017 osales Rahvusarhiiv uurimusprojektis E-ARK, mille ühe tulemina töötati välja rahvusvahelised vormingud ja tööriistad relatsiooniliste andmebaaside arhiveerimiseks. Aastast 2017 kasutab rahvusarhiiv andmekogude arhiveerimiseks rahvusvaheliselt tunnustatud vormingut SIARD 2.0 (Software Independent Archiving of Relational Databases). Andmete viimiseks SIARD vormingusse soovitame kasutada vabavaralist tööriista Database Preservation Toolkit.

Arhiiviväärtuslikud andmekogud

Rahvusarhiiv arhiveerib ainult arhiiviväärtuslikuks hinnatud andmekogusid. Riigi Infosüsteemi Haldussüsteemis (RIHAs) registreeritud andmekogud on hinnatud rahvusarhiivi 2017.a. hindamisotsusega nr 51. Arhiiviväärtuslikuks tunnistatud RIHAs registreeritud andmekogude loetelu on toodud hindamisotsuse Lisas 1

NB! Arhiiviväärtus võib andmekogule olla antud ka asutusepõhise hindamisotsusega. Kui asutus pole kindel, kas andmekogu on arhiiviväärtuslikuks hinnatud, palume pöörduda küsimusega aadressile kogumine@ra.ee.

Andmekogude hindamise ja sellega kaasnevaga saad tutvuda ka 24.01.2018 toimunud infopäeva slaididest ja videosalvestuselt.

Andmekogude arhiveerimise protsess

Arhiiviväärtusliku ainese üleandmise protsessiga saab tutvuda rahvusarhiivi juhises “Arhivaalide üleandmine”.

Andmekogude puhul tuleb andmete korrastamiseks ja arhiivivormingusse viimiseks läbi teha kolm sammu:

  1. Andmekogu tõmmis. Kogu andmebaasi sisu viiakse kokku lepitud kuupäeva ja kellaaja seisuga SIARD vormingusse, sh säilitatakse algsed tabelite struktuurid, seosed, vaated, protseduurid jms. Kui võimalik, eraldatakse sama kuupäeva ja kellaaja seisuga ka andmebaasi sisu algsel kujul (nn native dump) ja arhiveeritakse koos infosüsteemi rakenduse ja/või lähtekoodiga. Selline tõmmis võimaldab tuleviku kasutajal arhiveeritud andmebaasi taaskasutada algsele võimalikult lähedasel kujul.
  2. Arhiivivaated. Koostöös rahvusarhiiviga defineeritakse andmebaasi vaated, mis kajastavad terviklikult (ja denormaliseeritult) andmekogu põhilisi olemeid. Vaated käivitatakse arhiiviga kokkulepitud andmete vahemiku osas, saadud vahetabelid viiakse SIARD vormingusse. Selliste vaadete arhiveerimine võimaldab tuleviku kasutajal leida kiirelt kõige olulisemat informatsiooni, ilma et peaks aru saama (enamasti keerukast) relatsioonilisest andmemudelist.
  3. Dokumentatsioon. Et arhiveeritavatest andmetest oleks tulevikus võimalik aru saada, peavad need olema mõistlikult dokumenteeritud. Koostöös arhiiviga valitakse olemasoleva infosüsteemi dokumentatsiooni hulgast välja sobivad, viiakse need arhiivivormingusse ning säilitatakse koos tõmmise ja arhiivivaadetega. Lisaks arhiveeritakse võimalusel ka andmekogu kirjelduse hetkeseis RIHAs, tehakse videosid ja ekraanipilte rakenduse kasutamisest või kogutakse muud teavet mis aitab saja aasta pärast paremini andmete algsest kogumisest ja kasutamisest aru saada.

Huvi korral palume kirjutada kogumine@ra.ee. Andmekogude üleandmise protsessi kohta leiab infot ka 24.01.2018 toimunud infopäeva slaididest ja videosalvestuselt.

Vormingud ja tööriistad

SIARD2 vorming võimaldab arhiveerida

  • Andmeid (tabelite, väljade, vaadete sisu)
  • Andmete struktuuri (tabelid, väljad kommentaaridega ning tabelitevahelised seosed foreign key-de järgi)
  • Salvestatud protseduurid ja funktsioonid
  • Triggerid
  • Kasutajad, rollid ja õigused
  • Eeldefineeritud vaated (views).

Selle vormingu eeliseks sql dump-ide ees on olla erinevatest andmebaasitarkvara tootjatest sõltumatu: SIARD (Software Independent Archiving of Relational Databases).

Tööriist DBPTK (Database Preservation Toolkit) on java käsurea rakendus, mis on võimeline eksportima SIARD2 faile järgmistest sisenditest:

  • MySQL/MariaDB
  • PostgreSQL
  • Oracle
  • Microsoft SQL Server
  • Microsoft Access
  • JDBC-d toetavad süsteemid

Samuti on võimalik DBPTK abiga laadida SIARD2 mõnesse eelpool loetletud süsteemi, et näiteks SQL päringuid jooksutada.

SIARD2 faili otseseks kasutamiseks on mõeldud tööriist nimega DBVTK (Database Visualization Toolkit), mis on SOLR-il põhinev Java veebirakendus. DBVTK võimaldab kasutajatel:

  • näha andmebaasi struktuuri, andmebaasi kirjeldust
  • näha tabelitevahelisi seoseid
  • teostada kiireid tekstiotsinguid üle kõikide andmebaasis paiknenud tabelite väljade 
  • eksportida infot csv failidesse

 

Täpsemate tehniliste küsimustega SIARDi, DBPTK, DBVTK osas kirjuta aadressil lauri.ratsep@ra.ee.