Skip to main content
Skip table of contents

1. Sissejuhatus: RIHAKEse eesmärk, põhimõte ja eeltöö sõnastikega

Sissejuhatus

Eesmärk

RIHAKEse põhieesmärk on võimaldada asutusel kirjeldada oma andmestikke. Andmestike kirjeldamise aluseks on ühelt poolt füüsilise andmehoidla (nt andmebaasi) struktuur ja teiselt poolt sõnastiku mõisted. Nende omavahelisel seostamisel tekib andmetest arusaamine erialaterminites. 

Kasutamise põhimõte

Igal asutusel on üks andmekataloog RIHAKE, kus on kirjeldatud üks või mitu andmestikku ning sõnastikud. Andmestiku kirjeldamine ja sõnastikega seostamine on toodud järgneval joonisel näidates ära nii RIHAKEse sees olevad osad kui ka RIHAKEsest väljaspool paiknevad osised.

Opens image in full screenOpen

image-20250710-134603.png

Andmestik on esimene põhiobjekt - see on kontseptuaalne objekt, mis vastab andmekogule või andmevarale. Andmestikuga saab siduda ühe või mitu füüsilist andmehoidlat (nt andmebaas), mida RIHAKE käib kasutaja poolt määratud aja tagant skaneerimas.

Skaneerimise tulemusena tekivad skeemid, tabelid, veerud ning luuakse ka veerule vastav andmeelement. Andmeelement, mis tähistab veergu, on andmestiku kirjelduse madalaim tase. RIHAKEses kirjeldatakse need andmeelemendid (ehk tabeli veerud), mis omavad sisulist tähendust - infosüsteemides on ka palju selliseid tabeli veerge, mida ei ole vaja kirjeldada või mis ei ole kasutusel. Viimase kahe kategooria kindlaks tegemiseks tuleb tutvuda infosüsteemi tehnilises dokumentatsioonis oleva kirjeldusega. Kuna RIHAKEses pole graafiliselt näha tabelite omavahelisi seoseid, võib olla vajalik tutvuda infosüsteemi dokumentatsioonis andmebaasi mudeliga. RIHAKEses saab nii tabelite kui veergude juures määrata, kas need on: (a) kirjeldatavad, (b) mitte kirjeldatavad („Ei kirjelda“), (c) mitte kasutusel olevad („Ei ole kasutusel“). Kui tabel on märgitud mitte kirjeldatavaks või mitte kasutusel olevaks, kehtib see kõigi selle tabeli veerugude kohta

Andmeelemendi kirjeldamisel saab ekraanivormil otsida vastavat andmesõnastiku terminit. Andmesõnastiku termin seletab andmeelementi. Terminit otsitakse nimetuse järgi. Kui terminit ei leitud, saab lisada andmesõnastikku uue termini. Kui andmesõnastiku termin on seotud ärisõnastiku terminiga, siis kuvatakse ka see. Ärisõnastiku puhul nimetatakse seda mõisteks, sest see väljendab teadmusüksust; mõiste nimetuseks on eelistermin. Teisisõnu ärisõnastiku eelistermin ehk mõiste annab andmesõnastiku terminile sisu. Ärisõnastiku aluseks on aga valdkonna sõnastik.

Seega on RIHAKEses kolme tüüpi sõnastikke:

  1. Valdkonna sõnastik – paigaldamisel on RIHAKEses Eesti Üldine Märksõnastik (EMS). Muid valdkonna sõnastikke saab RIHAKEsse importida korrastatud kindla formaadiga failist. Valdkonna sõnastiku termineid muuta ei saa.

    1. EMS (https://ems.elnet.ee/index.php ) on tesaurus, mis on koostatud ja kasutusel eelkõige raamatukogunduse jaoks - näiteks on EMSi märksõnadega loodud Eesti raamatukogude märksõnakataloog. Märksõnad on EMSis organiseeritud 48 valdkonda (https://ems.elnet.ee/statistika.php?lkeel=NULL&sess= ). Need on teadmusvaldkonnad, mis ei ole üks-üheselt kokku viidavad ühegi teise valdkondliku jaotusega. EMSis sisalduvad laiemad ja kitsamad ning seotud terminid - terminite seos võib olla näiteks sünonüümsus. Terminid on eesti ja inglise keeles ning enamikel märksõnadel on selgitus (see on lähedane määratlusele ehk definitsioonile). Kõigil EMSi terminitel ka püsiviide.

    2. EMSi kasutusloogika RIHAKEses: EMSist saab ärisõnastikku kopeerida märksõnu koos seotud märksõnadega. Ärisõnastiku ülesehitus on EMSiga sarnane ja kui sinna kopeeritakse EMSist märksõnad koos seostega, saab kasutaja toetuda valdkonna spetsialistide pikaajalisele tööle ega pea ise tõlkima ega seoseid looma. Seega ühtlustab EMSi märksõnade kasutamine eri asutuste ärisõnastikes terminikasutust ja parandab andmetest arusaamist.

  2. Ärisõnastik – see luuakse nullist või kopeeritakse valdkonna sõnastikust või kui ärisõnastik on juba olemas, siis imporditakse korrastatud kindlas formaadis fail RIHAKEsse. Ärisõnastikke võiks olla kas terve asutuse peale üks või mitu asutuse laiemate funktsioonide kaupa.

    1. Ärisõnastik aitab äri mõista. Äri all mõeldakse siin asutuse funktsioonide, ülesannete, protsesside, teenuste ja nendega kaasneva info saamise, loomise ja kasutamise kogumit. Ärisõnastik on esimeseks sammuks andmepõhise juhtimise saavutamisel. Selles viiakse kokku infosüsteemis kasutatav sõnavara ja tegelikus töös kasutatav sõnavara.

    2. Ärisõnastik koostatakse terminiallikate alusel. Terminiallikad on: (1) õigusaktid ja määrused, mille terminid on ärisõnastiku mõisted; (2) infosüsteemide tehniline dokumentatsioon, milles on lahti kirjutatud andmekoosseis, kontseptuaalne ja loogiline andmemudel ning protseduurid, menetlused, töövood jms kirjeldavad dokumendid; (3) asutusesisesed õigusaktid, korrad, juhised jms, milles on kirjeldatud asutuse toimimist. Kõigi nende terminiallikate sõnavarast tehakse väljavõte ärisõnastiku terminite ja mõistete jaoks.

  3. Andmesõnastik – see luuakse nullist või imporditakse korrastatud kindlas formaadis fail RIHAKEsse. Andmesõnastikud võiks olla andmestike (või asutuse laiemate funktsioonide) kaupa. Andmesõnastik annab igale andmestiku veergu pealkirjale (andmeelemendile) üheselt arusaadava vaste.

    1. Andmesõnastik on terminite nimekiri, mille moodustavad kõik andmestiku kirjeldamisel kasutatavad terminid.

    2. Andmesõnastiku termin RIHAKEse mõttes ei ole ainult sõna või fraas, vaid ka termini määratlus (ja termini ingliskeelne vaste). 

    3. Andmesõnastikku saab koostada alt-üles ja ülevalt-alla.

      1. Alt-üles koostamisel on aluseks füüsiline andmemudel ehk pärast andmestiku skaneerimist kuvatavad tabelid ja veerud. Paljude veergude alusel ühtselt koostatud sõnastik annab andmestikule konkreetse tähenduse. Alt-üles koostamise suurimaks ohuks on tervikpildi hägustumine ja uppumine detailidesse.

      2. Ülalt-alla andmesõnastiku koostamine kasutab ärisõnastikku või terminiallikaid. Suurim vahe ärisõnastiku koostamise ja andmesõnastiku koostamise vahel on selles, et andmesõnastik ei ole terminoloogiline süsteem (näiteks tesaurus), vaid terminite nimekiri. Andmesõnastikus on terminid, mis on kasutusel või ei ole kasutusel (enam või mittesoovitatavad). Andmesõnastiku terminite oluliseks väärtuseks on nende nimetuste ühetaolisus ning mõistagi tehtud valik üldisest sõnavarast. Ülalt-alla koostamise suurimaks ohuks on see, et terminiallikate sõnavara on nii erinev konkreetse andmestiku kirjeldamisel kasutatavast, et tekitab liigset sünonüümsust ja terminikasutuse ühtlustamise jääb väheseks.

    4. Arvestades sellega, et nii alt-üles kui ülevalt-alla koostamisel on oma miinused, on vaja kasutada mõlemat meetodit neid praktiliselt kombineerides nii, et tervikpilt ei kaoks ja et terminoloogiat oleks võimalik ühtlustada.

    5. Andmesõnastiku koostamise esmaseks vahendiks, kui seda teha ärisõnastiku või terminiallikate alusel, sobib Excel. Vajalik on sel juhul märkida terminiallikas ning mõisteliselt kattuvad või väga lähedased terminid. Terminiallika väljakirjutuses ei tohiks selle kirjapilti muuta, vaid kirjapildi ühtlustamine on eraldi töö. Exceli tabeli veerud tuleb tekitada vastavalt imporditava faili struktuurile (vaata "Andmesõnastiku terminite ja seoste importimine").

    6. Andmesõnastiku sisestamine RIHAKEsse:

      1. Soovitav on sõnastik importida ja luua siis RIHAKEses seosed ärisõnastikuga.

      2. Üksiku uue termini lisamine on soovitav teha andmeelemendi kirjelduse juures, mis loob kohe nendevahelise seose.

Enne RIHAKEsega töö alustamist on vaja omada üldisemat pilti andmestikus olevate andmete tähendusest. Selleks on vaja teha eeltöö kasutatava sõnavaraga. See tähendab, et enne RIHAKEses kirjelduse koostamist on vaja terminallikatest koostada n-ö eelsõnastik.

Eeltöö sõnastikega

Alustada võib ärisõnastiku läbimõtlemisest. 

  1. Kas asutuses on otstarbekas luua üks või mitu ärisõnastikku? Otsustuskriteeriumid võivad olla järgmised:

    1. kas kirjeldada on vaja kokkuvõttes ühte või mitut andmestikku;

    2. kuivõrd ühetaoline või erinev on oma sisult / valdkonnalt asutuse tegevus ja sellest tulenev keelekasutus ja erialaterminoloogia.

  2. Kas on olemas sõnavarakogusid, millele toetuda ning kas need on pigem valdkondi siduvad või eristavad?

Teiseks tuleb otsustada, millise struktuuriga ärisõnastik koostada ehk läbi tuleb mõelda seoste loomise süsteem. RIHAKEse sõnastikud järgivad tesauruse struktuuri. Tesaurus on märksõnastik või struktureeritud sõnastik, milles iga mõiste kohta on esitatud seotud terminid, selgelt on toodud välja mõistete vahelised suhted ning eelisterminitele on lisatud sünonüümid või osasünonüümid (ISO 25964-1, 2.62).

Kolmandaks tuleb läbi mõelda sõnastikus kasutatav terminite kirjapilt, mis eri allikates võib olla erinev. Samuti tuleb kaaluda soovitatavust või mittesoovitatavust terminite kasutamisel - võõrsõnad, lühendid, koodid jms võivad ühel juhul olla lubatud ja vajalikud, teisel juhul mitte.

Neljandaks tuleb läbi mõelda mõistete süsteem kahes mõttes:

  1. kas püüda terminoloogiat ühtlustada või lubada mõistetele rohkem sünonüüme;

  2. mitu dimensiooni (taset) oleks tesauruses soovitav hoida.

Viiendaks tuleb terminid süstematiseerida, kasutades ühte või mitut kategoriseerimise alust (st kvalitatiivset tunnust). Kategoriseerimise alus ehk terminite sisu ja mahu loogilised seosed ei saa olla liiga ranged, nii et loodav süsteem ei ole enam praktiline. Seetõttu on vaja kasutada mitut süstematiseerimise alust, seda eriti rühmitamistel.

  1. Ärisõnastiku koostamise esmaseks vahendiks sobib Excel, aga ka mõistekaartide (mind map) loomiseks mõeldud vahendid.

  2. Terminiallikates võib termineid olla palju. Sel juhul tuleb valida välja põhilised allikad ja neist terminid välja kirjutada. Põhilised on:

    1. Õigusaktid – nendes on küll sageli õigusterminid, mis asutuse igapäevases keelekasutuses ei pruugi olla, kuid üldiselt on õigusaktide terminid mõistetena määratletud, st on antud legaaldefinitsioon.

    2. Juhised – neis väljendub asutuse keelekasutus ning need on õigusaktidest üksikasjalikumad. Õigusaktide ja juhiste terminitest ülevaate saamisel tekib süsteem, on näha vastuolud ja üksikasjalisus, mis hakkab hiljem rolli mängima andmesõnastiku ja ärisõnastiku sidumisel.

Ärisõnastiku sisestamine RIHAKEsse:

  1. Sisestamist on soovitav hierarhiliste sõnastike korral alustada ülemistelt tasanditelt ehk kõrgeimast tasemest. Ülemise tasandi juures on oluline teatav ühtsus kategoriseerimisaluses (näiteks „isik“ ei saa samal ajal jaguneda (a) juriidilised ja füüsilised isikud, (b) mehed ja naised, (c) kliendid ja töötajad).

  2. Lihtsalt öeldes on kõrgeima taseme märksõnad objekte ja protsesse tähistavad üldmõisted (näiteks ’hoone’, ’järelevalve’), kuigi need ei pruugi anda praktilist väärtust.

  3. Koostatud kõrgeima taseme märksõnade nimekirja tuleb võrrelda EMSis olevate märksõnadega. Kui termin ja selle selgitus kattuvad või peaegu kattuvad, saab importida märksõna ja selle kitsamatest märksõnadest tehtud valiku ja seostatud märksõnad RIHAKEsse.

  4. Seejärel sisestada madalamad tasemed, märkides kohe ära seosed kõrgematega. Kõrgeima taseme märksõna importides võis juba see märksõna lisanduda.

  5. Soovituslik on lisada termini ingliskeelne tõlge. Kui tõlget pole teada, tuleb see sõnastikest leida. Kui on valida mitme tõlke vahel, siis valida põhiline ja muud võimalused lisada märkustesse.

  6. Kui enne on koostatud ärisõnastik mujal, siis võiks kohe märkida sisestatavad terminid kehtivaks.

Ärisõnastiku termineid ja nendevahelisi seoseid on võimalik korraga RIHAKEsse üles laadida exceli failiga. Esmalt tuleb alla laadida ärisõnastiku mall (exceli fail), lisada sinna terminid (soovi korral ka seosed) ning seejärel faili RIHAKEsse üles laadides lisada terminid korraga sõnastikku. Täpsema terminite kirjeldamise juhise excelis leiab "Ärisõnastiku termini ja mõistete vaheliste seoste importimine".

JavaScript errors detected

Please note, these errors can depend on your browser setup.

If this problem persists, please contact our support.