|
Výstavba automatického tezauru pro ekonomické vědy a jeho využití pro
tvorbu souborných katalogů
|
Vysoká škola ekonomická v Praze
Centrum informačních a knihovnických služeb
Zpráva o průběhu a výsledcích řešení k závěrečné oponentuře grantu č. 0018 FRVŠ
PhDr. S. Bícová, CSc. - VŠE CIKS Praha
Ing. P. Janata - Knihovna MF ČR
RNDr. J. Jiránková - Parlamentní knihovna ČR
Mgr. T. Samek - Parlamentní knihovna ČR
Praha, prosinec 1995
Evidenční list zprávy
Název úkolu: Výstavba automatizovaného tezauru pro ekonomické vědy a jeho využití pro tvorbu souborných katalogů
Druh úkolu: Grant č. 0018 z Fondu rozvoje VŠ, tématický okruh č. 5 Transformace a integrace vysokoškolských knihoven
Zadavatel úkolu: Fond rozvoje VŠ
Řešitelské pracoviště:
Vysoká škola ekonomická v Praze
Centrum informačních a knihovnických služeb
nám. W. Churchilla 4
130 67 Praha 3 - Žižkov
ve spolupráci s Knihovnou MF ČR a Parlamentní knihovnou ČR
Vedoucí řešitelského pracoviště: Doc.RNDr. J. Ivánek, CSc.
Zodpovědný řešitel: PhDr. S. Bícová,CSc.
Název zprávy: Výstavba automatizovaného tezauru pro ekonomické vědy a jeho využití pro tvorbu souborných katalogů
Druh zprávy: závěrečná zpráva o průběhu a výsledcích řešení
Autoři: PhDr. S. Bícová,CSc., ing. P. Janata, RNDr. J. Jiránková, Mgr. T. Samek
Datum předložení zprávy: 14. prosince 1995
Uložení zprávy:
Vysoká škola ekonomická
Centrum informačních a knihovnických služeb
Nám. W. Churchilla 4, 130 67 Praha 3
Knihovna Ministerstva financí ČR
Letenská 15, 110 00 Praha 1
Parlamentní knihovna ČR
Sněmovní 4,118 26 Praha 1
Anotace: Zpráva rekapituluje průběh a výsledky řešení, čerpání finančních prostředků a navrhuje způsob dalšího řešení problematiky.
Klíčová slova: tezaurus, ekonomické vědy, software, program, správa a údržba, překlad,vícejazyčný tezaurus, systém TINLIB, tezaurus EUROVOC, seminář,automatizace
0. Úvodní informace o cílech a průběhu řešení
Stanovené cíle řešení
Hlavním cílem řešení předkládaného grantu bylo "vybudování automatizovaného česko - anglického tezauru pro
ekonomické vědy jako základu pro sdílení databází
ekonomických informací a souborných katalogů v národním i
mezinárodním měřítku"
Tento hlavní cíl byl v přihlášce projektu rozložen na několik dílčích cílů:
- navázání kontaktů s producenty uznávaných tezaurů,
- odborné posouzení a výběr nejvhodnějšího tezauru,
- ustanovení skupiny redaktorů a správce tezauru,
- odborný překlad , vytvoření česko - anglické verze tezauru,
- založení tezauru v systému TINLIB,
- ověření tezauru pro indexování v souborném katalogu VŠE a v databázi ekonomických informací MF ČR,
- vyhodnocení kvality zkušebního indexování,
- navázání kontaktů s centrální mezinárodní redakcí a projednání požadavků na aktualizaci původního zdrojového tezauru na základě vyhodnocení zkušebního indexování,
- zpracování pokynů pro indexování s použitím tezauru jako základního materiálu pro školení informačních pracovníků,
- vydání tezauru v tištěné podobě a jeho distribuce spolupracujícím knihovnám.
Grant z FRVŠ na řešení tohoto úkolu původně nebyl udělen a byl přiznán až na základě odvolání prorektora pro vědu VŠE teprve v červenci 1995.
Tato skutečnost zásadně ovlivnila celý průběh a výsledky řešení úkolu
stejně jako rozšíření řešení grantu v jeho prvních dvou úvodních fázích.
Rekapitulace postupu řešení:
V první fázi řešení bylo poměrně hodně času věnováno
získání, výběru a posouzení uznávaného a spravovaného tezauru pro ekonomické , resp. společenské vědy.
Na ekonomický tezaurus byly stanoveny tyto základní požadavky:
- existující praktické aplikace v ekonomickém prostředí
- ustálená terminologie (malý počet změn)
- dobrá podpora a dostupnost
- perspektivnost
Orientačním průzkumem v informačních institucích v ČR a v databázi THESAURI Evropské unie jsme především zjistili, že na rozdíl např. od zdravotnictví
neexistuje v ekonomii dominantní tezaurus.
V první etapě přicházely proto v úvahu tyto ekonomické hesláře:
- Polytematický strukturovaný heslář STK
- heslář EKOINDEX Ekonomické univerzity Bratislava
- Tezaurus OECD (angl.-franc.-španělský)
- Tezaurus EBSLG (tezaurus spolku knihovníků evropských obchodních a ekonomických škol (34) z 15 evropských zemí, který je pouze anglický a je používán např. k indexování společně vytvářených ekonomických a obchodních databází distribuovaných do celého světa na CD-ROM HELECON).
Polytematický strukturovaný heslář Státní technické knihovny nesplňoval náležitosti tezauru a oblast ekonomických věd by musela být nově zpracována. Totéž lze říci také o slovenském hesláři EKOINDEX, který je poplatný plánované ekonomice a v současné době je kompletně přepracováván. Tezaurus EBSLG se jevil jako příliš úzký - obsahoval pouze 3000 hesel a pouze v anglickém jazyce; jeho výhodou byla možnost získání povolení k překladu do českého jazyka od spolku EBSLG zdarma a bez průtahů. Podstatnou nevýhodou je však velký počet změn mezi jednotlivými vydáními tezauru. Soustředili jsme se proto na získání povolení překladu od redakce vícejazyčného tezauru OECD. Prostřednictvím odboru finanční politiky MF ČR jsme navázali korespondenci s příslušným úředníkem v OECD v Paříži. Jednání vyústila v příslib možnosti autorizovaného překladu tezauru do češtiny a slovenštiny (ve spolupráci se specializovanou slovenskou firmou). V průběhu roku však došlo v OECD k reorganizaci a zrušení funkce správce tezauru, čímž se stala budoucnost tohoto tezauru nejasná a další jednání bezpředmětná.
Obrátili jsme tedy dále pozornost k tezaurům zaměřeným obecněji, ale zahrnujícím významně ekonomickou problematiku. Širší podporu v Evropě má pouze tezaurus Evropského parlamentu EUROVOC, na jehož zavedení v ČR začala navíc již z pověření Evropského Parlamentu pracovat knihovna Parlamentu ČR. Po posouzení zastoupení ekonomiky a ekonomických věd v tomto poměrně rozsáhlém a mnohojazyčném tezauru jsme se rozhodli pro
zpracování společného projektu překladu tezauru EUROVOC a pro rozšíření řešitelského týmu o pracovníky Parlamentní knihovny Mgr. T. Samka a RNDr. J. Jiránkovou.
Během analytických prací se ukázala jako nezbytná nutnost vytvořit a zavést
program pro správu a údržbu vícejazyčného tezauru.
Bez tohoto prostředku by bylo téměř nemožné udržet na dostatečné kvalitativní úrovni kompatibilitu českého překladu tezauru EUROVOC s jeho mezinárodní vícejazyčnou verzí. Polská knihovna Sejmu doporučila použít MTM (Multi-Thesauri-Management System), produkt Institute for Computer and Information Engineering (Varšava), vytvořený v systému Micro CDS/ISIS. MTM jsme získali velmi rychle a za velmi nízkou cenu, ale vykazoval mimořádnou chybovost, nehledě na problémy s instalací. Za jejich odstranění požadoval polský distributor mimořádně velké poplatky. Přes řadu jednání vedených odborem informatiky Parlamentu ČR se nepodařilo dosáhnout s autory programu přijatelnou dohodu a řešitelé byli proto odkázáni na vlastní síly.
Evropský parlament poslal po mnoha urgencích datový soubor tezauru na disketách
ve formátu FORMEX, bohužel jen s minimální dokumentací. Přizvaní odborníci si k přečtení tak složitého formátu vyžádali nereálné lhůty a náklady, takže nakonec autoři tento problém vyřešili vlastními narychlo vyvinutými technickými prostředky. Podrobnější specifikace formátu FORMEX je pro informaci a další využití uvedena v příloze, jedná se v podstatě o velmi složitou aplikaci ISO2709 (s kódováním devíti evropských jazyků) převedenou navíc z magnetické pásky velkého počítače Siemens.
K prvnímu zpracování dat a výstupů ve třech hlavních jazycích vytvořili autoři programové prostředí v databázovém systému MS Access pro Windows. Toto prostředí umožnilo především
tisk vysoce kvalitních výstupních sestav pro překladatele a dále zkušební převod dat do systému Tinlib. Další spolupráce s poradenskou firmou DCIT pak vyústila ve
vytvoření programu TAT (Thesaurus Administration Tool), který bude dále využíván pro správu a údržbu tezauru.
Souběžně se zpracováním dat byl proveden výběr překladatelů a překladatelských agentur
pro zajištění překladu do češtiny. Překlad většiny tezauru zajistí odborníci doporučení Úřadem pro legislativu a veřejnou správu, kteří se zároveň podílejí na překladech evropské legislativy. Tím je zajištěna návaznost na právní terminologii používanou a nově zaváděnou v ČR v souvislosti s evropskou integrací. Ekonomickou část tezauru překládají odborníci z Ministerstva financí ČR, kteří spolupracují jak na harmonizaci našich předpisů s EU, tak na zajištění kompatibility našich předpisů s OECD. Pro vybrané překladatele byly zpracovány
podrobné instrukce k zabezpečení lingvistických náležitostí překladu.
Vzhledem k tomu, že řešení úkolu bylo zahájeno s více než tříměsíčním zpožděním, podařilo se naplnit prvních pět dílčí cílů - v oblasti překladu pouze částečně se zaměřením na ekonomické vědy.
Naplnění stanoveného hlavního cíle je však zajištěno díky grantu Centra pro demokracii a svobodné podnikání, které uhradí pokračování společného projektu v příštím roce.
1. Dosažené výsledky řešení
V průběhu dosavadního řešení bylo dosaženo těchto výsledků :
1.1 Výběr tezauru
Hlavní důvody volby tezauru EUROVOC
- Široké použití ve výše uvedených databázích a informačních institucích
- Vícejazyčnost umožňující vyhledávání v multinacionálním informačním prostředí zemí Evropské unie i jiných evropských zemí
- Relativně vysoká selekční účinnost zjištěná v komparativních testech s indexátory (zjištěna např. vyšší účinnost než u tezauru OECD)
- Moderní, sofistikovaná a přitom uživatelsky velmi přívětivá struktura tezauru
- Tezaurus určen primárně pro evropské informační instituce a je využitelný pro potřeby mnoha informačních institucí s ekonomickým a právním zaměřením
- Poměrně podrobně rozpracované mikrotezaury týkající se ekonomiky, obchodu, financí a bankovnictví
- Ustálená terminologie, možnost adaptace pro národní a speciální podmínky
1.2 Charakteristika tezauru EUROVOC
Původci: Evropský parlament (dále jen: EP), Úřad pro oficiální publikace Evropských společenství (Office for Official Publications of the EC - dále jen: EUR-OP)
Tematické zaměření: polytematický tezaurus, se zvláštním důrazem na možnost věcného popisu dokumentů produkovaných politickými a správními institucemi a orgány Evropské unie
Relativně nejpropracovanější tematické celky:
- ekonomika
- finance
- právo
- orgány a instituce ES
Hierarchická rozrůzněnost: relativně nízká (zpravidla ne víc než 3 úrovně)
Komponentní jazyky: španělština, dánština, angličtina, němčina, řečtina, francouzština,
italština, nizozemština, portugalština
Výchozí jazyk: francouzština
Status jazyků překladu: rovnocenný výchozímu jazyku
Překlad do oficiálních komponentních jazyků Eurovocu, ústřední redakci a distribuci tezauru zajišťuje Evropský parlament a Office for Official Publications.
Forma vydání: do 2. vyd. pouze tištěná podoba - 5 dílů:
- abecední tezaurus
- předmětově uspořádaný (podle mikrotezaurů)
- vícejazyčný (převodník mezi jazyky)
- permutovaný rejstřík (KWIC)
- terminogramy (grafické znázornění mikrotezaurů)
od 3. vyd. - tištěná podoba - 3 díly:
- abecední permutovaný
- předmětově uspořádaný
- vícejazyčný (dosud nevyšel)
- digitalizovaná podoba (data, nikoli SW)
Užití v zahraničí: indexování záznamů v
- databázi EPOQUE (veškerá dokumentace Evropského parlamentu),
- databázi Celex (kompletní legislativa Evropské unie - záznamy mají být věcně popisovány EUROVOCem od příštího roku),
- systému CATEL (dotazovací a objednávací systém publikací EU),
- knihovně Evropského parlamentu,
- četných národních parlamentních a jiných knihovnách.
Čeští uživatelé:
- Parlamentní knihovna (viz níže)
- Evropské dokumentační středisko UK (angl. verze)
Potenciální čeští uživatelé: viz dále Účastníci projektu Eurovoc
1.3 Zpracování české verze tezauru EUROVOC
1.3.1 Úvodní fáze: přechod k tezauru Eurovoc v Parlamentní knihovně
Parlamentní knihovna (PK) přešla od věcného popisu pomocí Tobolkova systému předmětových hesel k indexování pomocí deskriptorů tezauru Eurovoc v r. 1993 v souvislosti s automatizací základních knihovnických agend (systém Tinlib).
Bylo rozhodnuto rychle přeložit tento tezaurus do češtiny a tímto provizorním překladem začít věcně indexovat veškeré knižní dokumenty vstupující v PK do Tinlibu (naprostá většina knižní produkce.) Po nástupu spoluřešitele grantu do PK byl dosavadní postup kriticky analyzován s těmito výsledky:
1. V dosavadní české verzi Eurovocu obsažené v Tinlibu jsou nedostatky:
- terminologické: nesprávně volené české ekvivalenty;
- syntaktické:nedodržení mezijazykové korespondence ve struktuře hierarchických a asociativních vztahů.
2. Indexační praxe je často v rozporu s obecně přijímanými principy indexování pomocí deskriptorových selekčních jazyků.
3. Je nutno zrevidovat dosavadní praxi; prvním krokem by mělo být vytvoření projektu odborného překladu tezauru do češtiny (viz dále Projekt Eurovoc).
1.3.2 Projekt Eurovoc
Cíle projektu
- Zvýšit účinnost vyhledávání informací v informačním systémech participujících institucí pomocí tezauru Eurovoc.
- Vytvořit propojovací selekční jazyk pro uvedené instituce plně kompatibilní se selekčním jazykem Evropského parlamentu, navíc umožňující vyhledávat informace i česky nehovořícím uživatelům.
- Napomoci harmonizaci české právní a jiné odborné terminologie s terminologickými standardy Evropské unie, resp. OECD.
Participující subjekty
- Parlamentní knihovna (PK)
- Úřad pro legislativu a veřejnou správu (ÚLVS)
- Úřad pro normalizaci, měření a zkušebnictví (ÚNMZ)
- Informační centrum ministerstva financí (IC MF)
- Odbor technické asistence ministerstva průmyslu a obchodu (OTA MPO)
- Centrum informačních a knihovnických služeb Vysoké školy ekonomické (CIKS _VŠE)
- Evropské dokumentační středisko (EDS)
- Středisko vědeckých informací Právnické fakulty UK (SVI PF)
- Katedra evropského práva Právnické fakulty UK
- Ústav zemědělských a potravinářských informací
- Centrum pro demokracii a svobodné podnikání (CDSP)
- Nadace pro harmonizaci předpisů (NHP)
- Český helsinský výbor
Hlavními řešiteli projektu jsou Parlamentní knihovna, Vysoká škola ekonomická a IC MF. Ostatní subjekty se na řešení podílejí v rámci svých gesčních odborností, případně i finančními příspěvky (CDSP, OTA MPO).
Etapy projektu Eurovoc
A. podklady pro překlad EUROVOCu do češtiny
- zajistí: PK
- software: TAT
IC MF a CIKS VŠE vstupují do projektu v jeho první etapě. V té době již Parlamentní knihovna měla definitivní představu o podobě tzv. podkladů pro překlad. Podklady, z kterých by se mělo zodpovědně překládat do češtiny, nebylo totiž možné získat prostým kopírováním některé z již jsoucích forem tezauru (abecední, předmětově uspořádaná, permutovaný rejstřík, vícejazyčný převodník, terminogramy). Podklady pro překlad (viz příl. č. 1), respektující jednak obecné zásady překladu vícejazyčného tezauru, jednak specifika vlastní pouze Eurovocu, mohla být vytvořena bu% kombinovaným ručním přepisováním několika forem tezauru do textového editoru, nebo se strojovou podporou.
První postup se ukázal jako mimořádně časově náročný. Začalo tedy hledání optimálního softwaru, jehož výstupem by mohly být podklady pro překlad. Bylo třeba postupovat ve dvou úrovních:
- získat data (Eurovoc) ve strojem čitelné podobě
- získat softwarovou aplikaci produkující podklady pro překlad.
Obě úrovně se pak v praxi částečně prolínaly.
EP a EUR-OP avizovaly, že začnou distribuovat (podstatně aktualizované) 3. vydání tezauru nejpozději v lednu 1995. Ve skutečnosti se 3. vydání objevilo až v červnu. Česká PK získala díky semináři Eurovoc '95 (viz kap. 1.4) toto vydání v tištěné formě jako vůbec první informační instituce ze zemí střední a východní Evropy. Přesto tím došlo, nikoli vinou účastníků projektu, k podstatnému zdržení. Na semináři Eurovoc se EP zavázal, že dodá digitalizovanou verzi tezauru do poloviny července; po opakovaných urgencích jsme však dostali diskety až koncem srpna. Tím se opět realizace projektu zpomalila.
Po důkladném zvážení všech alternativ bylo spolu s odborem informatiky Poslanecké sněmovny rozhodnuto zadat vytvoření vhodné programové aplikace české firmě s využitím know-how získaného dosavadním řešením. Parlamentní knihovna vytvořila specifikaci a DCIT ve velmi krátké době dodalo programovou aplikaci TAT (Thesaurus Administration Tool), jejíž provozní chyby v souladu s ustanovením smlouvy zdarma odstraňuje do 90 dnů po dodání produktu, tedy v době zasahující do obhajoby grantu. V těchto dnech PK ve spolupráci s IC MF stále intenzívně pracuje na odstranění drobných funkčních závad jednotlivých modulů TAT.
V současnosti je již podstatná část modulů TAT prakticky prověřena. Fungují exporty a importy podkladů pro překlad: překladatel obdrží podklad jak v tištěné, tak v elektronické podobě; může pracovat v libovolném textovém editoru; překlad je potom z tohoto editoru importován do TAT, takže zcela odpadla nutnost přepisování českých překladů. Takto získaný český překlad je pak možné importovat do systému Tinlib. Tuto okolnost považujeme za jednu ze základních předností systému.
B. překlad
sestavení týmu z odborných překladatelů pracujících na harmonizaci českého práva s právem Evropské unie, případně OECD:
- zajistí: PK
- překladatele doporučí: OTA MPO, ÚLVS, ÚNMZ, IC MF
výběr překladatelské agentury
Jelikož slovní zásoba EUROVOCu vychází převážně z oficiálních dokumentů Evropské unie, obsahuje tento tezaurus celou paletu výrazů vyskytujících se v právních textech EU. Je zřejmé, že by tyto výrazy měly být přeloženy týmiž odborníky, kteří překládají právní předisy EU do češtiny v rámci harmonizace našeho práva s evropským komunitárním právem. Jedině tak lze dosáhnout toho, aby terminologie v primárních textech (tj. přeložených právních předpisech EU) byla v maximální míře shodná s terminologií sekundárního textu (tj. tezauru EUROVOC, jímž se věcně popisují primární texty). Výběru překladatelů byla věnována velká pozornost, protože musejí splňovat dvě základní podmínky: kromě jazykových znalostí (požadujeme kombinaci dvou eventuelně tří jazyků - francouzštiny, angličtiny a němčiny) i profesní znalosti. Po porovnání několika překladatelských agentur jsme se rozhodli na základě vlastních zkušeností a také díky doporučení, pro agenturu ARTLINGUA a.s. Tato agentura již delší čas spolupracuje s Úřadem pro legislativu a veřejnou správu v oblasti práva, politiky a mezinárodních vztahů. Překladatelé mají tedy značné zkušenosti z daných oborů, které mohou využít pro velmi specifický překlad tezauru EUROVOC. Agentura disponuje poměrně širokým spektrem odborně fundovaných překladatelů z jiných předmětových oblastí.
Při překladu ekonomické části tezauru je také nutno zohlednit problematiku harmonizace práva a terminologie s OECD, takže jej zajišťují přímo pracovníci MF ČR.
úvodní instruktáž překladatelů (metodika překladu) ústně či písemně:
Každý překladatel je zevrubně instruován jednak ústně (pracovníky PK), jednak písemně
(viz příl. č. 3) a může se kdykoliv konzultativně obrátit na pracovníky PK. Veškeré překlady projdou oponentním řízením.
První překlad
- zajistí: překladatelská agentura na základě požadavků vedoucího projektu
V souladu s instrukcemi pro překlad navrhují vybraní překladatelé nejvhodnější preferované a nepreferované termíny pro českou verzi tezauru. Termíny jsou ukládány do textového souboru pro import do centrální databáze tezauru v PK.
konzultace 1. překladu - vyhodnocení, příp. úpravy překladu z těchto hledisek
- centrální redakce EUROVOCu: zajistí PK
- použitelnost překladu jako selekčního jazyka pro knihovnu urč. oblasti (resortu) :zajistí participující instituce
Navržené české termíny posoudí centrální redakce tezauru v PK a po konzultacích s překladateli je předloží participujícím institucím k posouzení. Účastníci projektu také navrhnou termíny pokrývající česká specifika (např. restituce, kupónová privatizace atd.), které se v původní verzi nevyskytují.
C. Vydání české verze tezauru Eurovoc
Po dokončení redakce bude nultá verze tezauru vydána v tištěné i elektronické podobě (včetně programu TAT) a distribuována participujícím institucím. Předpokládáme nutnost nejméně půlročního praktického ověřování tezauru v indexační praxi těchto institucí. Po zapracování připomínek bude pak vydána definitivní první verze.
1.3.3 Seminář k tezauru EUROVOC
Seminář EUROVOC'95 zorganizovala česká Parlamentní knihovna v budově Poslanecké sněmovny, Sněmovní 4, Praha 1, ve dnech 27. a 28. června 1995, za výrazné finanční podpory ze strany Evropského parlamentu, Evropského centra pro parlamentní výzkum a dokumentaci a české Kanceláře Poslanecké sněmovny. Z hlediska plnění grantového úkolu měl veliký význam zejména proto, že výrazně napomohl získat relevantní data od EP a EUR-OP.
Seminář byl určen pro uživatele tezauru EUROVOC z parlamentních knihoven a informačních institucí střední a východní Evroppy a také pro zájemce o tezaurus EUROVOC z řad českých knihoven a institucí.
Na semináři prezentovali tezaurus EUROVOC jeho dosavadní či potenciální uživatelé:
česká Parlamentní knihovna, Evropské dokumentační středisko při UK Praha, Evropské dokumentační středisko Právnické fakulty Univerzity Komenského v Bratislavě, knihovna polského SEIMA. Další účastníci semináře informovali o svých dosavadních i perspektivních informačních systémech s vazbou na selekční jyzyky.
Během semináře nebo posléze si mnozí zástupci některých institucí vyjasnili svůj přístup k tezauru EUROVOC a vyslovili se pro používání jeho české verze. Z toho vyplynul zájem o spoluúčast na projektu překladu tezauru EUROVOC ať už ve formě participace na překladu nebo na jeho financování. Zájem byl převážně orientován na oborové oblasti: VŠE a ministerstvo financí na ekonomiku a finance, Právnická fakulta a Úřad pro legislativu a veřejnou správu na právní oblast atd.
Konkrétní formy spolupráce mezi účastníky z 11 zemí střední a východní Evropy, Evropským parlamentem a Evropským centrem pro parlamentní výzkum a dokumentaci byl zakotven v závěrech semináře (viz příl. č.2).
1.4 Programy pro správu a údržbu tezauru EUROVOC
Pro práci s tezaurem Eurovoc bylo vytvořeno postupně toto programové vybavení:
- konverzní programy pro čtení dat z formátu FORMEX
- nástroje s pracovním názvem Eurovoc Win CZ pro práci s takto získanými daty a tisk výstupů pro překladatele
- program TAT pro správu a údržbu tezauru
Všechny programy byly vytvořeny v perspektivním a běžně dostupném prostředí Microsoft Access for Windows.
Pro první zpracování dat byl využit datový model, vycházející především z požadavku na pružnost a jednoduchost zpracování dat. Tezaurus je v tomto případě rozdělen na tři druhy objektů, které se navzájem doplňují: termíny (deskriptory a nedeskriptory), vazby mezi nimi a stromové struktury. Takto navržený model sice zcela neodpovídá lingvistickým zvyklostem, ale vyhovuje i pro obecnější zpracování řízených slovníků a je na MF ČR pro tyto účely využíván.
Konverzní program pro čtení dat z formátu FORMEX převádí data nejprve do pracovního sekvenčního souboru, z něhož pak vybírá pouze data ve vybraných základních jazycích (angličtina, němčina, francouzština). Data jsou ukládána do struktury zmíněné v předchozím odstavci. Některé francouzské znaky je třeba dále konvertovat do znakové sady dostupné v e východoevropské verzi Windows.
Soubor nástrojů Eurovoc Win CZ je praktickou aplikací výše zmíněného modelu v prostředí Windows. Umožňuje především prohlížení dat v různých souvislostech, kontrolu a doplňování vazeb mezi deskriptory, správu stromových struktur a tisk výstupů jak pro překladatele, tak pro uživatele. Soubor obsahuje také experimentální převodník pro export jednojazyčného tezauru do systému Tinlib.
Na základě takto získaného know-how posléze zadal odbor informatiky Parlamentu ČR poradenské firmě DCIT vytvoření uceleného systému pro správu tezauru, který by byl použitelný pro správu tezauru Eurovoc a jeho distribuci v rámci střední a východní Evropy. Výsledkem je program TAT (Thesaurus Administration Tool), který byl vyvinut speciálně pro tezaurus Eurovoc. Umožňuje práci se všemi druhy lexikálních jednotek v tomto tezauru užívaných (deskriptory, nedeskriptory, mikrotezaury a vrcholové termíny), dále obsahuje systém nástrojů pro překlad tezauru (v podstatě export a import překládaných termínů) a také prostředky pro komunikaci se systémem Tinlib ve více jazycích.
1.5 Implementace tezauru EUROVOC do systému TINLIB
Systém Tinlib ukládá tezaurus standardně jako jednojazyčný. Implementace tezauru Eurovoc je pak možná dvojím způsobem: jednak pouze v jednom vybraném jazyce a dále s jistými omezeními ve všech čtyřech námi podporovaných jazycích. Pro vícejazyčnou implementaci tezauru vytvořila firma DCIT systém značení jednotlivých jazykových verzí a dalších údajů, který je podrobněji popsán v přiložené dokumentaci programu TAT. Schematický příklad uložení několika deskriptorů ve třech jazycích je uveden dále. Tento způsob uložení tezauru do Tinlibu v praxi nahradí skutečný vícejazyčný tezaurus, který distributor Tinlibu dodává jen na zakázku.
Výraz tezauru: EN: 0406 political framework
Pozn. o rozsahu: [EV3]
Pozn. o rozsahu: (MT 0406)
Podřazený výraz: EN: State
Podřazený výraz: EN: political philosophy
Podřazený výraz: EN: political ideology
Podřazený výraz: EN: political system
Podřazený výraz: EN: political institution
Podřazený výraz: EN: political power
Užij pro: FR: 0406 CADRE POLITIQUE
Užij pro: DE: 0406 POLITISCHER RAHMEN
Výraz tezauru: FR: 0406 cadre politique
Pozn. o rozsahu: (FLE)
Užij: EN: 0406 political framework
Výraz tezauru: DE: 0406 Politischer Rahmen
Pozn. o rozsahu: (FLE)
Užij: EN: 0406 political framework
Výraz tezauru: EN: 0411 political party
Pozn. o rozsahu: [EV3]
Pozn. o rozsahu: (MT 0411)
Podřazený výraz: EN: political party
Podřazený výraz: EN: party organization
Podřazený výraz: EN: political tendency
Užij pro: FR: 0411 PARTI POLITIQUE
Užij pro: DE: 0411 POLITISCHE PARTEI
1.6 Návrh a zajištění dalšího postupu
Dokončení výsledků řešeného úkolu je zajištěno návazným grantem Centra pro demokracii a svobodné podnikání. Tento grant uhradí dokončení překladu tezauru se všemi vazbami a údaji kvalifikovanými odborníky. Programové vybavení a kapacity pro konečnou redakci zajistí řešitelská pracoviště. Správou a šířením tezauru byl Evropským parlamentem pověřen Parlament ČR, který je v souladu se závěry mezinárodního semináře Eurovoc připraven tyto činnosti zabezpečit organizačně i technicky. Praktické kroky k dalšímu postupu řešení jsou uvedeny v odst. 1.2.
2 Náklady na řešení úkolu
Na grant č. 0018 bylo FRVŠ přiděleno nejprve pouze 20 tis. investičních prostředků, a to přesto, že v přihlášce projektu je zvláště zdůrazněno, že investiční prostředky pro tento úkol nejsou nezbytné, na rozdíl od prostředků mzdových a neinvestičních.
V konečné fázi v červenci 1995 byly na grant č. 0018 přiznány tyto finanční prostředky: 100 tis. Kč neinvestičních prostředků, 40 tis. Kč mzdových, 20 tis. Kč investičních,
celkem 160.000,- Kč.
3 Výsledky a výstupy řešení
Za výsledky a konkrétní výstupy této první etapy řešení předloženého úkolu pokládáme:
- analýzu dostupných tezaurů pro ekonomické vědy a výběr vícejazyčného tezauru EUROVOC jako vhodného mezinárodního prostředku pro pořádání a vyhledávání informací v rozsáhlých databázích a knihovních katalozích,
- uspořádání semináře k tezauru EUROVOC Parlamentní knihovnou ČR,
- vytvoření a ověření programu pro správu a údržbu tohoto tezauru,
- překlad části tezauru EUROVOC do češtiny,
- ověření a založení části tezauru EUROVOC v systému TINLIB.
4. Návrhy na realizaci
Dokončení výsledků řešeného úkolu je zajištěno návazným grantem Centra pro demokracii a svobodné podnikání. Správou a šířením tezauru byl Evropským parlamentem pověřen Parlament ČR, který je v souladu se závěry mezinárodního semináře Eurovoc připraven tyto činnosti zabezpečit organizačně i technicky. Na základě jednání s Evropským parlamentem bude správce tezauru poskytovat tezaurus k nekomerčnímu využití bezplatně.
Příl. č. 1: Přehled mikrotezaurů a předmětových oblastí
Seznam předmětových oblastí a mikrotezaurů
04 POLITICKÝ ŽIVOT
- 0406 POLITICKÝ SYSTÉM
- 0411 POLITICKÁ STRANA
- 0416 VOLEBNÍ PROCES
- 0421 PARLAMENT
- 0426 PARLAMENTNÍ PRÁCE
- 0431 POLITICKÝ ŽIVOT A VEŘEJNÁ BEZPEČNOST
- 0436 EXEKUTIVA A VEŘEJNÁ SPRÁVA
08 MEZINÁRODNÍ VZTAHY
- 0806 MEZINÁRODNÍ POLITIKA
- 0811 ZAHRANIČNÍ POLITIKA A MEZINÁRODNÍ SPOLUPRÁCE
- 0816 MEZINÁRODNÍ ROVNOVÁHA
- 0821 OBRANA
10 EVROPSKÉ SPOLEČENSTVÍ
- 1006 ORGÁNY SPOLEČENSTVÍ
- 1011 PRÁVO SPOLEČENSTVÍ
- 1016 EVROPSKÁ INTEGRACE
12 PRÁVO
- 1206 PRAMENY A OBORY PRÁVA
- 1211 OBČANSKÉ PRÁVO
- 1216 TRESTNÍ PRÁVO
- 1221 SOUDNICTVÍ
- 1226 PRÁVNÍ OCHRANA
- 1231 MEZINÁRODNÍ PRÁVO
- 1236 PRÁVA A SVOBODY
16 EKONOMICKÝ ŽIVOT
- 1606 EKONOMICKÁ POLITIKA
- 1611 EKONOMICKÝ RŮST
- 1616 EKONOMICKÝ PROSTOR A REGIONÁLNÍ POLITIKA
- 1621 EKONOMICKÁ STRUKTURA
- 1626 NÁRODNÍ ÚČET
- 1631 EKONOMICKÁ ANALÝZA
20 OBCHOD
- 2006 OBCHODNÍ POLITIKA
- 2011 CELNÍ A TARIFNÍ POLITIKA
- 2016 OBCHOD
- 2021 MEZINÁRODNÍ OBCHOD
- 2026 SPOTŘEBA
- 2031 MARKETING
- 2036 SKLADOVÁNÍ A ODBYT
24 FINANČNICTVÍ
- 2406 MĚNOVÉ VZTAHY
- 2411 MĚNOVÁ POLITIKA
- 2416 ÚVĚROVÉ A FINANČNÍ INSTITUCE
- 2421 VOLNÝ POHYB KAPITÁLU
- 2426 INVESTICE A FINANCOVÁNÍ
- 2431 POJIŠŤOVNICTVÍ
- 2436 VEŘEJNÉ FINANCE A ROZPOČTOVÁ POLITIKA
- 2441 ROZPOČET
- 2446 DANĚ
- 2451 CENY
28 SOCIÁLNÍ OTÁZKY
- 2806 RODINA
- 2811 MIGRACE
- 2816 DEMOGRAFIE A POPULACE
- 2821 SOCIÁLNÍ STRUKTURA
- 2826 SOCIÁLNÍ AKTIVITA
- 2831 KULTURA A NÁBOŽENSTVÍ
- 2836 SOCIÁLNÍ OCHRANA
- 2841 ZDRAVÍ
- 2846 VÝSTAVBA A URBANISMUS
32 VZDĚLÁVÁNÍ A KOMUNIKACE
- 3206 VZDĚLÁVÁNÍ
- 3211 VYUČOVÁNÍ
- 3216 ORGANIZACE VYUČOVÁNÍ
- 3221 DOKUMENTACE
- 3226 KOMUNIKACE
- 3231 TVORBA A ZPRACOVÁNÍ INFORMACÍ
- 3236 INFORMATIKA
36 VĚDY
- 3606 PŘÍRODNÍ A APLIKOVANÉ VĚDY
- 3611 HUMANITNÍ VĚDY
40 PODNIKÁNÍ A KONKURENCE
- 4006 PODNIKOVÁ ORGANIZACE
- 4011 DRUHY PODNIKÁNÍ
- 4016 PRÁVNÍ FORMA PODNIKU
- 4021 ŘÍZENÍ PODNIKU
- 4026 PODNIKOVÉ ÚČETNICTVÍ
- 4031 KONKURENCE
44 ZAMĚSTNANOST A PRÁCE
- 4406 ZAMĚSTNÁNÍ
- 4411 PRACOVNÍ TRH
- 4416 ORGANIZACE PRÁCE A PRACOVNÍ PODMÍNKY
- 4421 VEDENÍ A ODMĚŇOVÁNÍ ZAMĚSTNANCŮ
- 4426 PRACOVNÍ PRÁVO A PRACOVNÍ VZTAHY
48 DOPRAVA
- 4806 DOPRAVNÍ POLITIKA
- 4811 ORGANIZACE DOPRAVY
- 4816 POZEMNÍ DOPRAVA
- 4821 NÁMOŘNÍ A ŘÍČNÍ DOPRAVA
- 4826 LETECKÁ A KOSMICKÁ DOPRAVA
52 ŽIVOTNÍ PROSTŘEDÍ
- 5206 POLITIKA ŽIVOTNÍHO PROSTŘEDÍ
- 5211 PŘÍRODNÍ PROSTŘEDÍ
- 5216 ZHORŠOVÁNÍ ŽIVOTNÍHO PROSTŘEDÍ
56 ZEMĚDĚLSTVÍ, LESNICTVÍ A RYBÁŘSTVÍ
- 5606 ZEMĚDĚLSKÁ POLITKA
- 5611 ZEMĚDĚLSKÁ STRUKTURA A VÝROBA
- 5616 SYSTÉMY ZEMĚDĚLSKÉHO HOSPODÁŘSTVÍ
- 5621 OBDĚLÁVÁNÍ ZEMĚDĚLSKÉ PŮDY
- 5626 PROSTŘEDEK ZEMĚDĚLSKÉ VÝROBY
- 5631 ZEMĚDĚLSKÁ ČINNOST
- 5636 LESNÍ HOSPODÁŘSTVÍ
- 5641 RYBÁŘSTVÍ
60 ZEMĚDĚLSTVÍ A VÝŽIVA
- 6006 ROSTLINNÝ PRODUKT
- 6011 ŽIVOČIŠNÝ PRODUKT
- 6016 ZPRACOVANÝ ZEMĚDĚLSKÝ PRODUKT
- 6021 NÁPOJE A CUKR
- 6026 POTRAVINY
- 6031 PRŮMYSL ZEMĚDĚLSTVÍ A VÝŽIVY
- 6036 POTRAVINÁŘSKÁ TECHNOLOGIE
64 VÝROBA, TECHNOLOGIE A VÝZKUM
- 6406 VýROBA
- 6411 TECHNOLOGIE A TECHNICKÉ PŘEDPISY
- 6416 VÝZKUM A DUŠEVNÍ VLASTNICTVÍ
66 ENERGETIKA
- 6606 ENERGETICKÁ POLITIKA
- 6611 UHELNÝ A TĚŽEBNÍ PRŮMYSL
- 6616 NAFTOVÝ PRŮMYSL
- 6621 ELEKTŘINA A JADERNÁ ENERGETIKA
- 6626 NETRADIČNÍ ZDROJE ENERGIE
68 PRŮMYSL
- 6806 STRUKTURA PRŮMYSLU A PRŮMYSLOVÁ POLITIKA
- 6811 CHEMIE
- 6816 HUTNICKÝ, ŽELEZÁŘSKÝ A OCELÁŘSKÝ PRŮMYSL
- 6821 STROJÍRENSTVÍ
- 6826 ELEKTRONICKÝ A ELEKTROTECHNICKÝ PRŮMYSL
- 6831 STAVEBNÍ PRŮMYSL A VEŘEJNÁ VÝSTAVBA
- 6836 DŘEVOZPRACUJÍCÍ PRŮMYSL
- 6841 KOŽEDĚLNÝ A TEXTILNÍ PRŮMYSL
- 6846 OSTATNÍ PRŮMYSL
72 GEOGRAGFIE
- 7206 EVROPA
- 7211 REGIONY ZEMÍ SPOLEČENSTVÍ
- 7216 AMERIKA
- 7221 AFRIKA
- 7226 ASIE A OCEANIE
- 7231 HOSPODÁŘSKÁ GEOGRAFIE
- 7236 POLITICKÁ GEOGRAFIE
- 7241 ZÁMOŘSKÉ ZEMĚ A OBLASTI
76 MEZINÁRODNÍ ORGANIZACE
- 7606 SPOJENÉ NÁRODY
- 7611 EVROPSKÁ ORGANIZACE
- 7616 MIMOEVROPSKÁ ORGANIZACE
- 7621 MEZIVLÁDNÍ ORGANIZACE
- 7626 NEVLÁDNÍ ORGANIZACE
Určeno pro překladatele a terminologické konzultanty projektu Eurovoc.
Příl. č. 4: Specifikace formátu FORMEX
Specifikace Eurovoc/Formex
Jedná se o aplikaci ISO 2709, odlišnou poněkud ve struktuře dat od knihovnického výměnného formátu a navíc určenou pro magnetickou pásku. Záznam je rozdělen na segmenty, segmenty na pole, pole většinou ještě na podpole.
Soubor obsahuje celkem 61922 záznamů. První záznam obsahuje informace o znakových sadách, dále následují záznamy deskriptorů v 9 jazycích, pak záznamy nedeskriptorů vždy v 1 jazyce. Vazby jsou řešeny přes hodnoty polí 001 a 010. Vazby jsou uloženy vždy jen jednoho termínu z obou vázaných.
Oddělovače:
Oddělovač záznamů 1D, oddělovač polí 1E, oddělovač podpolí 1F.
Numerická část záznamu:
Záhlaví pásky (VOL/HDR) 400 byte, záhlaví záznamu (record label) 32 byte. Adresářová položka 14 byte, z toho: tag pole 3 byte, délka pole 4 byte (dekadicky), pozice zač. pole v textové části 5 byte (dekadicky), ID segmentu 1 byte (hexa?), číslo výskytu pole v segmentu 1 byte (numericky)
Segmenty: 0 základní údaje, 1-9 termíny v jednotlivých jazycích (nedeskriptory jen v jednom), A B, C ...vazby na odkazy
Textová část záznamu:
Pořadí polí odpovídá pořadí adresářových položek. Znaková sada latinská je doplněna sekvencemi pro vyznačení diakritiky vždy před příslušným znakem. Sekvence začíná znakem ASCII 142 (Ä).
Stručný přehled polí a (použitých) podpolí:
001 ID záznamu
010 A ID odkazu (vazba)
020 B označení zdroje záznamu
022 A datum pořízení záznamu (rrrrmmdd)
030 A-D použité znakové sady (jen první záznam)
040 A zkratka jazyka (2 znaky)
060 A typ termínu (010 deskriptor, 101 nedeskriptor, 111 mikrotezaurus)
080 A typ vertikální vazby (01 NT, 02 BT, 11 TT, 12 MT)
085 A typ horizontální vazby (61 n.62 UU, 32 jazyková verze, 34 RT)
200 A termín (ind. 2 rozlišuje plnou verzi 1 a verzi bez diakritiky 2)
500 A poznámka
Přehled segmentů:
segment 0 : 001, 020, 022, 060
segment 1-9 : 085, 040, 200, 200, 500
segment A aj. : 010, 080, 085
Praha 3.9.1995
ing. Petr Janata
Příloha č. 5: Ukázka struktury tezauru ve vybraných světových jazycích, statistické údaje tezauru

| economic priority | priorité économique | wirtschaftliche Priorität
|
| RT priority region | RT région prioritaire | RT wirtschaftliches Fördergebiet
|
| UF priority action | UF action prioritaire | UF vorrangige Maßnahme
|
| UF priority measure
|
| sustainable development | développement durable | dauerhafte Entwicklung
|
| RT environmental policy | RT politique de l'environnement | RT Umweltpolitik
|
| UF umweltgerechte Entwicklung | UF développement soutenable
|
| SN: Development which allows present needs to be
satisfied without compromising the capacity of future
generations to satisfy their needs too. | SN: Développement qui permet de satisfaire les
besoins du présent sans compromettre la capacité des
générations futures a satisfaire, elles aussi, leurs besoins.
| SN: Entwicklung, die nicht das Recht künftiger Generationen gefährdet, ihrerseits ihre Bedürfnisse zu befriedigen.
|