Výstavba automatického tezauru pro ekonomické vědy a jeho využití pro tvorbu souborných katalogů

Vysoká škola ekonomická v Praze

Centrum informačních a knihovnických služeb

Zpráva o průběhu a výsledcích řešení k závěrečné oponentuře grantu č. 0018 FRVŠ

PhDr. S. Bícová, CSc. - VŠE CIKS Praha

Ing. P. Janata - Knihovna MF ČR

RNDr. J. Jiránková - Parlamentní knihovna ČR

Mgr. T. Samek - Parlamentní knihovna ČR

Praha, prosinec 1995


Evidenční list zprávy

Název úkolu: Výstavba automatizovaného tezauru pro ekonomické vědy a jeho využití pro tvorbu souborných katalogů

Druh úkolu: Grant č. 0018 z Fondu rozvoje VŠ, tématický okruh č. 5 Transformace a integrace vysokoškolských knihoven

Zadavatel úkolu: Fond rozvoje VŠ

Řešitelské pracoviště:

Vysoká škola ekonomická v Praze
Centrum informačních a knihovnických služeb
nám. W. Churchilla 4
130 67 Praha 3 - Žižkov

ve spolupráci s Knihovnou MF ČR a Parlamentní knihovnou ČR

Vedoucí řešitelského pracoviště: Doc.RNDr. J. Ivánek, CSc.

Zodpovědný řešitel: PhDr. S. Bícová,CSc.

Název zprávy: Výstavba automatizovaného tezauru pro ekonomické vědy a jeho využití pro tvorbu souborných katalogů

Druh zprávy: závěrečná zpráva o průběhu a výsledcích řešení

Autoři: PhDr. S. Bícová,CSc., ing. P. Janata, RNDr. J. Jiránková, Mgr. T. Samek

Datum předložení zprávy: 14. prosince 1995

Uložení zprávy:

Vysoká škola ekonomická
Centrum informačních a knihovnických služeb
Nám. W. Churchilla 4, 130 67 Praha 3

Knihovna Ministerstva financí ČR
Letenská 15, 110 00 Praha 1

Parlamentní knihovna ČR
Sněmovní 4,118 26 Praha 1

Anotace: Zpráva rekapituluje průběh a výsledky řešení, čerpání finančních prostředků a navrhuje způsob dalšího řešení problematiky.

Klíčová slova: tezaurus, ekonomické vědy, software, program, správa a údržba, překlad,vícejazyčný tezaurus, systém TINLIB, tezaurus EUROVOC, seminář,automatizace


0. Úvodní informace o cílech a průběhu řešení

Stanovené cíle řešení

Hlavním cílem řešení předkládaného grantu bylo "vybudování automatizovaného česko - anglického tezauru pro ekonomické vědy jako základu pro sdílení databází ekonomických informací a souborných katalogů v národním i mezinárodním měřítku"

Tento hlavní cíl byl v přihlášce projektu rozložen na několik dílčích cílů:

Grant z FRVŠ na řešení tohoto úkolu původně nebyl udělen a byl přiznán až na základě odvolání prorektora pro vědu VŠE teprve v červenci 1995. Tato skutečnost zásadně ovlivnila celý průběh a výsledky řešení úkolu stejně jako rozšíření řešení grantu v jeho prvních dvou úvodních fázích.

Rekapitulace postupu řešení:

V první fázi řešení bylo poměrně hodně času věnováno získání, výběru a posouzení uznávaného a spravovaného tezauru pro ekonomické , resp. společenské vědy.

Na ekonomický tezaurus byly stanoveny tyto základní požadavky:

Orientačním průzkumem v informačních institucích v ČR a v databázi THESAURI Evropské unie jsme především zjistili, že na rozdíl např. od zdravotnictví neexistuje v ekonomii dominantní tezaurus. V první etapě přicházely proto v úvahu tyto ekonomické hesláře: Polytematický strukturovaný heslář Státní technické knihovny nesplňoval náležitosti tezauru a oblast ekonomických věd by musela být nově zpracována. Totéž lze říci také o slovenském hesláři EKOINDEX, který je poplatný plánované ekonomice a v současné době je kompletně přepracováván. Tezaurus EBSLG se jevil jako příliš úzký - obsahoval pouze 3000 hesel a pouze v anglickém jazyce; jeho výhodou byla možnost získání povolení k překladu do českého jazyka od spolku EBSLG zdarma a bez průtahů. Podstatnou nevýhodou je však velký počet změn mezi jednotlivými vydáními tezauru. Soustředili jsme se proto na získání povolení překladu od redakce vícejazyčného tezauru OECD. Prostřednictvím odboru finanční politiky MF ČR jsme navázali korespondenci s příslušným úředníkem v OECD v Paříži. Jednání vyústila v příslib možnosti autorizovaného překladu tezauru do češtiny a slovenštiny (ve spolupráci se specializovanou slovenskou firmou). V průběhu roku však došlo v OECD k reorganizaci a zrušení funkce správce tezauru, čímž se stala budoucnost tohoto tezauru nejasná a další jednání bezpředmětná. Obrátili jsme tedy dále pozornost k tezaurům zaměřeným obecněji, ale zahrnujícím významně ekonomickou problematiku. Širší podporu v Evropě má pouze tezaurus Evropského parlamentu EUROVOC, na jehož zavedení v ČR začala navíc již z pověření Evropského Parlamentu pracovat knihovna Parlamentu ČR. Po posouzení zastoupení ekonomiky a ekonomických věd v tomto poměrně rozsáhlém a mnohojazyčném tezauru jsme se rozhodli pro zpracování společného projektu překladu tezauru EUROVOC a pro rozšíření řešitelského týmu o pracovníky Parlamentní knihovny Mgr. T. Samka a RNDr. J. Jiránkovou.

Během analytických prací se ukázala jako nezbytná nutnost vytvořit a zavést program pro správu a údržbu vícejazyčného tezauru. Bez tohoto prostředku by bylo téměř nemožné udržet na dostatečné kvalitativní úrovni kompatibilitu českého překladu tezauru EUROVOC s jeho mezinárodní vícejazyčnou verzí. Polská knihovna Sejmu doporučila použít MTM (Multi-Thesauri-Management System), produkt Institute for Computer and Information Engineering (Varšava), vytvořený v systému Micro CDS/ISIS. MTM jsme získali velmi rychle a za velmi nízkou cenu, ale vykazoval mimořádnou chybovost, nehledě na problémy s instalací. Za jejich odstranění požadoval polský distributor mimořádně velké poplatky. Přes řadu jednání vedených odborem informatiky Parlamentu ČR se nepodařilo dosáhnout s autory programu přijatelnou dohodu a řešitelé byli proto odkázáni na vlastní síly.

Evropský parlament poslal po mnoha urgencích datový soubor tezauru na disketách ve formátu FORMEX, bohužel jen s minimální dokumentací. Přizvaní odborníci si k přečtení tak složitého formátu vyžádali nereálné lhůty a náklady, takže nakonec autoři tento problém vyřešili vlastními narychlo vyvinutými technickými prostředky. Podrobnější specifikace formátu FORMEX je pro informaci a další využití uvedena v příloze, jedná se v podstatě o velmi složitou aplikaci ISO2709 (s kódováním devíti evropských jazyků) převedenou navíc z magnetické pásky velkého počítače Siemens.

K prvnímu zpracování dat a výstupů ve třech hlavních jazycích vytvořili autoři programové prostředí v databázovém systému MS Access pro Windows. Toto prostředí umožnilo především tisk vysoce kvalitních výstupních sestav pro překladatele a dále zkušební převod dat do systému Tinlib. Další spolupráce s poradenskou firmou DCIT pak vyústila ve vytvoření programu TAT (Thesaurus Administration Tool), který bude dále využíván pro správu a údržbu tezauru.

Souběžně se zpracováním dat byl proveden výběr překladatelů a překladatelských agentur pro zajištění překladu do češtiny. Překlad většiny tezauru zajistí odborníci doporučení Úřadem pro legislativu a veřejnou správu, kteří se zároveň podílejí na překladech evropské legislativy. Tím je zajištěna návaznost na právní terminologii používanou a nově zaváděnou v ČR v souvislosti s evropskou integrací. Ekonomickou část tezauru překládají odborníci z Ministerstva financí ČR, kteří spolupracují jak na harmonizaci našich předpisů s EU, tak na zajištění kompatibility našich předpisů s OECD. Pro vybrané překladatele byly zpracovány podrobné instrukce k zabezpečení lingvistických náležitostí překladu.

Vzhledem k tomu, že řešení úkolu bylo zahájeno s více než tříměsíčním zpožděním, podařilo se naplnit prvních pět dílčí cílů - v oblasti překladu pouze částečně se zaměřením na ekonomické vědy. Naplnění stanoveného hlavního cíle je však zajištěno díky grantu Centra pro demokracii a svobodné podnikání, které uhradí pokračování společného projektu v příštím roce.

1. Dosažené výsledky řešení

V průběhu dosavadního řešení bylo dosaženo těchto výsledků :

1.1 Výběr tezauru

Hlavní důvody volby tezauru EUROVOC

1.2 Charakteristika tezauru EUROVOC

Původci: Evropský parlament (dále jen: EP), Úřad pro oficiální publikace Evropských společenství (Office for Official Publications of the EC - dále jen: EUR-OP)

Tematické zaměření: polytematický tezaurus, se zvláštním důrazem na možnost věcného popisu dokumentů produkovaných politickými a správními institucemi a orgány Evropské unie

Relativně nejpropracovanější tematické celky:

Hierarchická rozrůzněnost: relativně nízká (zpravidla ne víc než 3 úrovně)

Komponentní jazyky: španělština, dánština, angličtina, němčina, řečtina, francouzština, italština, nizozemština, portugalština

Výchozí jazyk: francouzština

Status jazyků překladu: rovnocenný výchozímu jazyku

Překlad do oficiálních komponentních jazyků Eurovocu, ústřední redakci a distribuci tezauru zajišťuje Evropský parlament a Office for Official Publications.

Forma vydání: do 2. vyd. pouze tištěná podoba - 5 dílů:

od 3. vyd. - tištěná podoba - 3 díly: Užití v zahraničí: indexování záznamů v Čeští uživatelé: Potenciální čeští uživatelé: viz dále Účastníci projektu Eurovoc

1.3 Zpracování české verze tezauru EUROVOC

1.3.1 Úvodní fáze: přechod k tezauru Eurovoc v Parlamentní knihovně

Parlamentní knihovna (PK) přešla od věcného popisu pomocí Tobolkova systému předmětových hesel k indexování pomocí deskriptorů tezauru Eurovoc v r. 1993 v souvislosti s automatizací základních knihovnických agend (systém Tinlib).

Bylo rozhodnuto rychle přeložit tento tezaurus do češtiny a tímto provizorním překladem začít věcně indexovat veškeré knižní dokumenty vstupující v PK do Tinlibu (naprostá většina knižní produkce.) Po nástupu spoluřešitele grantu do PK byl dosavadní postup kriticky analyzován s těmito výsledky:

1. V dosavadní české verzi Eurovocu obsažené v Tinlibu jsou nedostatky:

2. Indexační praxe je často v rozporu s obecně přijímanými principy indexování pomocí deskriptorových selekčních jazyků.

3. Je nutno zrevidovat dosavadní praxi; prvním krokem by mělo být vytvoření projektu odborného překladu tezauru do češtiny (viz dále Projekt Eurovoc).

1.3.2 Projekt Eurovoc

Cíle projektu

Participující subjekty Hlavními řešiteli projektu jsou Parlamentní knihovna, Vysoká škola ekonomická a IC MF. Ostatní subjekty se na řešení podílejí v rámci svých gesčních odborností, případně i finančními příspěvky (CDSP, OTA MPO).

Etapy projektu Eurovoc

A. podklady pro překlad EUROVOCu do češtiny IC MF a CIKS VŠE vstupují do projektu v jeho první etapě. V té době již Parlamentní knihovna měla definitivní představu o podobě tzv. podkladů pro překlad. Podklady, z kterých by se mělo zodpovědně překládat do češtiny, nebylo totiž možné získat prostým kopírováním některé z již jsoucích forem tezauru (abecední, předmětově uspořádaná, permutovaný rejstřík, vícejazyčný převodník, terminogramy). Podklady pro překlad (viz příl. č. 1), respektující jednak obecné zásady překladu vícejazyčného tezauru, jednak specifika vlastní pouze Eurovocu, mohla být vytvořena bu% kombinovaným ručním přepisováním několika forem tezauru do textového editoru, nebo se strojovou podporou.

První postup se ukázal jako mimořádně časově náročný. Začalo tedy hledání optimálního softwaru, jehož výstupem by mohly být podklady pro překlad. Bylo třeba postupovat ve dvou úrovních:

Obě úrovně se pak v praxi částečně prolínaly.

EP a EUR-OP avizovaly, že začnou distribuovat (podstatně aktualizované) 3. vydání tezauru nejpozději v lednu 1995. Ve skutečnosti se 3. vydání objevilo až v červnu. Česká PK získala díky semináři Eurovoc '95 (viz kap. 1.4) toto vydání v tištěné formě jako vůbec první informační instituce ze zemí střední a východní Evropy. Přesto tím došlo, nikoli vinou účastníků projektu, k podstatnému zdržení. Na semináři Eurovoc se EP zavázal, že dodá digitalizovanou verzi tezauru do poloviny července; po opakovaných urgencích jsme však dostali diskety až koncem srpna. Tím se opět realizace projektu zpomalila.

Po důkladném zvážení všech alternativ bylo spolu s odborem informatiky Poslanecké sněmovny rozhodnuto zadat vytvoření vhodné programové aplikace české firmě s využitím know-how získaného dosavadním řešením. Parlamentní knihovna vytvořila specifikaci a DCIT ve velmi krátké době dodalo programovou aplikaci TAT (Thesaurus Administration Tool), jejíž provozní chyby v souladu s ustanovením smlouvy zdarma odstraňuje do 90 dnů po dodání produktu, tedy v době zasahující do obhajoby grantu. V těchto dnech PK ve spolupráci s IC MF stále intenzívně pracuje na odstranění drobných funkčních závad jednotlivých modulů TAT.

V současnosti je již podstatná část modulů TAT prakticky prověřena. Fungují exporty a importy podkladů pro překlad: překladatel obdrží podklad jak v tištěné, tak v elektronické podobě; může pracovat v libovolném textovém editoru; překlad je potom z tohoto editoru importován do TAT, takže zcela odpadla nutnost přepisování českých překladů. Takto získaný český překlad je pak možné importovat do systému Tinlib. Tuto okolnost považujeme za jednu ze základních předností systému.

B. překlad

sestavení týmu z odborných překladatelů pracujících na harmonizaci českého práva s právem Evropské unie, případně OECD:

výběr překladatelské agentury Jelikož slovní zásoba EUROVOCu vychází převážně z oficiálních dokumentů Evropské unie, obsahuje tento tezaurus celou paletu výrazů vyskytujících se v právních textech EU. Je zřejmé, že by tyto výrazy měly být přeloženy týmiž odborníky, kteří překládají právní předisy EU do češtiny v rámci harmonizace našeho práva s evropským komunitárním právem. Jedině tak lze dosáhnout toho, aby terminologie v primárních textech (tj. přeložených právních předpisech EU) byla v maximální míře shodná s terminologií sekundárního textu (tj. tezauru EUROVOC, jímž se věcně popisují primární texty). Výběru překladatelů byla věnována velká pozornost, protože musejí splňovat dvě základní podmínky: kromě jazykových znalostí (požadujeme kombinaci dvou eventuelně tří jazyků - francouzštiny, angličtiny a němčiny) i profesní znalosti. Po porovnání několika překladatelských agentur jsme se rozhodli na základě vlastních zkušeností a také díky doporučení, pro agenturu ARTLINGUA a.s. Tato agentura již delší čas spolupracuje s Úřadem pro legislativu a veřejnou správu v oblasti práva, politiky a mezinárodních vztahů. Překladatelé mají tedy značné zkušenosti z daných oborů, které mohou využít pro velmi specifický překlad tezauru EUROVOC. Agentura disponuje poměrně širokým spektrem odborně fundovaných překladatelů z jiných předmětových oblastí.

Při překladu ekonomické části tezauru je také nutno zohlednit problematiku harmonizace práva a terminologie s OECD, takže jej zajišťují přímo pracovníci MF ČR.

úvodní instruktáž překladatelů (metodika překladu) ústně či písemně:

Každý překladatel je zevrubně instruován jednak ústně (pracovníky PK), jednak písemně (viz příl. č. 3) a může se kdykoliv konzultativně obrátit na pracovníky PK. Veškeré překlady projdou oponentním řízením.

První překlad

V souladu s instrukcemi pro překlad navrhují vybraní překladatelé nejvhodnější preferované a nepreferované termíny pro českou verzi tezauru. Termíny jsou ukládány do textového souboru pro import do centrální databáze tezauru v PK.

konzultace 1. překladu - vyhodnocení, příp. úpravy překladu z těchto hledisek

Navržené české termíny posoudí centrální redakce tezauru v PK a po konzultacích s překladateli je předloží participujícím institucím k posouzení. Účastníci projektu také navrhnou termíny pokrývající česká specifika (např. restituce, kupónová privatizace atd.), které se v původní verzi nevyskytují.

C. Vydání české verze tezauru Eurovoc

Po dokončení redakce bude nultá verze tezauru vydána v tištěné i elektronické podobě (včetně programu TAT) a distribuována participujícím institucím. Předpokládáme nutnost nejméně půlročního praktického ověřování tezauru v indexační praxi těchto institucí. Po zapracování připomínek bude pak vydána definitivní první verze. 1.3.3 Seminář k tezauru EUROVOC

Seminář EUROVOC'95 zorganizovala česká Parlamentní knihovna v budově Poslanecké sněmovny, Sněmovní 4, Praha 1, ve dnech 27. a 28. června 1995, za výrazné finanční podpory ze strany Evropského parlamentu, Evropského centra pro parlamentní výzkum a dokumentaci a české Kanceláře Poslanecké sněmovny. Z hlediska plnění grantového úkolu měl veliký význam zejména proto, že výrazně napomohl získat relevantní data od EP a EUR-OP.

Seminář byl určen pro uživatele tezauru EUROVOC z parlamentních knihoven a informačních institucí střední a východní Evroppy a také pro zájemce o tezaurus EUROVOC z řad českých knihoven a institucí.

Na semináři prezentovali tezaurus EUROVOC jeho dosavadní či potenciální uživatelé:

česká Parlamentní knihovna, Evropské dokumentační středisko při UK Praha, Evropské dokumentační středisko Právnické fakulty Univerzity Komenského v Bratislavě, knihovna polského SEIMA. Další účastníci semináře informovali o svých dosavadních i perspektivních informačních systémech s vazbou na selekční jyzyky.

Během semináře nebo posléze si mnozí zástupci některých institucí vyjasnili svůj přístup k tezauru EUROVOC a vyslovili se pro používání jeho české verze. Z toho vyplynul zájem o spoluúčast na projektu překladu tezauru EUROVOC ať už ve formě participace na překladu nebo na jeho financování. Zájem byl převážně orientován na oborové oblasti: VŠE a ministerstvo financí na ekonomiku a finance, Právnická fakulta a Úřad pro legislativu a veřejnou správu na právní oblast atd.

Konkrétní formy spolupráce mezi účastníky z 11 zemí střední a východní Evropy, Evropským parlamentem a Evropským centrem pro parlamentní výzkum a dokumentaci byl zakotven v závěrech semináře (viz příl. č.2).

1.4 Programy pro správu a údržbu tezauru EUROVOC

Pro práci s tezaurem Eurovoc bylo vytvořeno postupně toto programové vybavení: Všechny programy byly vytvořeny v perspektivním a běžně dostupném prostředí Microsoft Access for Windows.

Pro první zpracování dat byl využit datový model, vycházející především z požadavku na pružnost a jednoduchost zpracování dat. Tezaurus je v tomto případě rozdělen na tři druhy objektů, které se navzájem doplňují: termíny (deskriptory a nedeskriptory), vazby mezi nimi a stromové struktury. Takto navržený model sice zcela neodpovídá lingvistickým zvyklostem, ale vyhovuje i pro obecnější zpracování řízených slovníků a je na MF ČR pro tyto účely využíván.

Konverzní program pro čtení dat z formátu FORMEX převádí data nejprve do pracovního sekvenčního souboru, z něhož pak vybírá pouze data ve vybraných základních jazycích (angličtina, němčina, francouzština). Data jsou ukládána do struktury zmíněné v předchozím odstavci. Některé francouzské znaky je třeba dále konvertovat do znakové sady dostupné v e východoevropské verzi Windows.

Soubor nástrojů Eurovoc Win CZ je praktickou aplikací výše zmíněného modelu v prostředí Windows. Umožňuje především prohlížení dat v různých souvislostech, kontrolu a doplňování vazeb mezi deskriptory, správu stromových struktur a tisk výstupů jak pro překladatele, tak pro uživatele. Soubor obsahuje také experimentální převodník pro export jednojazyčného tezauru do systému Tinlib.

Na základě takto získaného know-how posléze zadal odbor informatiky Parlamentu ČR poradenské firmě DCIT vytvoření uceleného systému pro správu tezauru, který by byl použitelný pro správu tezauru Eurovoc a jeho distribuci v rámci střední a východní Evropy. Výsledkem je program TAT (Thesaurus Administration Tool), který byl vyvinut speciálně pro tezaurus Eurovoc. Umožňuje práci se všemi druhy lexikálních jednotek v tomto tezauru užívaných (deskriptory, nedeskriptory, mikrotezaury a vrcholové termíny), dále obsahuje systém nástrojů pro překlad tezauru (v podstatě export a import překládaných termínů) a také prostředky pro komunikaci se systémem Tinlib ve více jazycích.

1.5 Implementace tezauru EUROVOC do systému TINLIB

Systém Tinlib ukládá tezaurus standardně jako jednojazyčný. Implementace tezauru Eurovoc je pak možná dvojím způsobem: jednak pouze v jednom vybraném jazyce a dále s jistými omezeními ve všech čtyřech námi podporovaných jazycích. Pro vícejazyčnou implementaci tezauru vytvořila firma DCIT systém značení jednotlivých jazykových verzí a dalších údajů, který je podrobněji popsán v přiložené dokumentaci programu TAT. Schematický příklad uložení několika deskriptorů ve třech jazycích je uveden dále. Tento způsob uložení tezauru do Tinlibu v praxi nahradí skutečný vícejazyčný tezaurus, který distributor Tinlibu dodává jen na zakázku.

Výraz tezauru: EN: 0406 political framework
Pozn. o rozsahu: [EV3]
Pozn. o rozsahu: (MT 0406)
Podřazený výraz: EN: State
Podřazený výraz: EN: political philosophy
Podřazený výraz: EN: political ideology
Podřazený výraz: EN: political system
Podřazený výraz: EN: political institution
Podřazený výraz: EN: political power
Užij pro: FR: 0406 CADRE POLITIQUE
Užij pro: DE: 0406 POLITISCHER RAHMEN

Výraz tezauru: FR: 0406 cadre politique
Pozn. o rozsahu: (FLE)
Užij: EN: 0406 political framework
Výraz tezauru: DE: 0406 Politischer Rahmen
Pozn. o rozsahu: (FLE)
Užij: EN: 0406 political framework

Výraz tezauru: EN: 0411 political party
Pozn. o rozsahu: [EV3]
Pozn. o rozsahu: (MT 0411)
Podřazený výraz: EN: political party
Podřazený výraz: EN: party organization
Podřazený výraz: EN: political tendency
Užij pro: FR: 0411 PARTI POLITIQUE
Užij pro: DE: 0411 POLITISCHE PARTEI

1.6 Návrh a zajištění dalšího postupu

Dokončení výsledků řešeného úkolu je zajištěno návazným grantem Centra pro demokracii a svobodné podnikání. Tento grant uhradí dokončení překladu tezauru se všemi vazbami a údaji kvalifikovanými odborníky. Programové vybavení a kapacity pro konečnou redakci zajistí řešitelská pracoviště. Správou a šířením tezauru byl Evropským parlamentem pověřen Parlament ČR, který je v souladu se závěry mezinárodního semináře Eurovoc připraven tyto činnosti zabezpečit organizačně i technicky. Praktické kroky k dalšímu postupu řešení jsou uvedeny v odst. 1.2.

2 Náklady na řešení úkolu

Na grant č. 0018 bylo FRVŠ přiděleno nejprve pouze 20 tis. investičních prostředků, a to přesto, že v přihlášce projektu je zvláště zdůrazněno, že investiční prostředky pro tento úkol nejsou nezbytné, na rozdíl od prostředků mzdových a neinvestičních.

V konečné fázi v červenci 1995 byly na grant č. 0018 přiznány tyto finanční prostředky: 100 tis. Kč neinvestičních prostředků, 40 tis. Kč mzdových, 20 tis. Kč investičních, celkem 160.000,- Kč.

3 Výsledky a výstupy řešení

Za výsledky a konkrétní výstupy této první etapy řešení předloženého úkolu pokládáme:

4. Návrhy na realizaci

Dokončení výsledků řešeného úkolu je zajištěno návazným grantem Centra pro demokracii a svobodné podnikání. Správou a šířením tezauru byl Evropským parlamentem pověřen Parlament ČR, který je v souladu se závěry mezinárodního semináře Eurovoc připraven tyto činnosti zabezpečit organizačně i technicky. Na základě jednání s Evropským parlamentem bude správce tezauru poskytovat tezaurus k nekomerčnímu využití bezplatně.

Příl. č. 1: Přehled mikrotezaurů a předmětových oblastí

Seznam předmětových oblastí a mikrotezaurů 04 POLITICKÝ ŽIVOT 08 MEZINÁRODNÍ VZTAHY 10 EVROPSKÉ SPOLEČENSTVÍ 12 PRÁVO 16 EKONOMICKÝ ŽIVOT 20 OBCHOD 24 FINANČNICTVÍ 28 SOCIÁLNÍ OTÁZKY 32 VZDĚLÁVÁNÍ A KOMUNIKACE 36 VĚDY 40 PODNIKÁNÍ A KONKURENCE 44 ZAMĚSTNANOST A PRÁCE 48 DOPRAVA 52 ŽIVOTNÍ PROSTŘEDÍ 56 ZEMĚDĚLSTVÍ, LESNICTVÍ A RYBÁŘSTVÍ 60 ZEMĚDĚLSTVÍ A VÝŽIVA 64 VÝROBA, TECHNOLOGIE A VÝZKUM 66 ENERGETIKA 68 PRŮMYSL 72 GEOGRAGFIE 76 MEZINÁRODNÍ ORGANIZACE

Příl. č. 2: Závěry semináře Eurovoc '95

Příl. č. 3: Zásady pro překlad tezauru Eurovoc

Určeno pro překladatele a terminologické konzultanty projektu Eurovoc.

Příl. č. 4: Specifikace formátu FORMEX

Specifikace Eurovoc/Formex

Jedná se o aplikaci ISO 2709, odlišnou poněkud ve struktuře dat od knihovnického výměnného formátu a navíc určenou pro magnetickou pásku. Záznam je rozdělen na segmenty, segmenty na pole, pole většinou ještě na podpole.

Soubor obsahuje celkem 61922 záznamů. První záznam obsahuje informace o znakových sadách, dále následují záznamy deskriptorů v 9 jazycích, pak záznamy nedeskriptorů vždy v 1 jazyce. Vazby jsou řešeny přes hodnoty polí 001 a 010. Vazby jsou uloženy vždy jen jednoho termínu z obou vázaných.

Oddělovače:

Oddělovač záznamů 1D, oddělovač polí 1E, oddělovač podpolí 1F.

Numerická část záznamu:

Záhlaví pásky (VOL/HDR) 400 byte, záhlaví záznamu (record label) 32 byte. Adresářová položka 14 byte, z toho: tag pole 3 byte, délka pole 4 byte (dekadicky), pozice zač. pole v textové části 5 byte (dekadicky), ID segmentu 1 byte (hexa?), číslo výskytu pole v segmentu 1 byte (numericky)

Segmenty: 0 základní údaje, 1-9 termíny v jednotlivých jazycích (nedeskriptory jen v jednom), A B, C ...vazby na odkazy

Textová část záznamu:

Pořadí polí odpovídá pořadí adresářových položek. Znaková sada latinská je doplněna sekvencemi pro vyznačení diakritiky vždy před příslušným znakem. Sekvence začíná znakem ASCII 142 (Ä).

Stručný přehled polí a (použitých) podpolí:

001 ID záznamu
010 A ID odkazu (vazba)
020 B označení zdroje záznamu
022 A datum pořízení záznamu (rrrrmmdd)
030 A-D použité znakové sady (jen první záznam)
040 A zkratka jazyka (2 znaky)
060 A typ termínu (010 deskriptor, 101 nedeskriptor, 111 mikrotezaurus)
080 A typ vertikální vazby (01 NT, 02 BT, 11 TT, 12 MT)
085 A typ horizontální vazby (61 n.62 UU, 32 jazyková verze, 34 RT)
200 A termín (ind. 2 rozlišuje plnou verzi 1 a verzi bez diakritiky 2)
500 A poznámka

Přehled segmentů:

segment 0 : 001, 020, 022, 060
segment 1-9 : 085, 040, 200, 200, 500
segment A aj. : 010, 080, 085

Praha 3.9.1995

ing. Petr Janata

Příloha č. 5: Ukázka struktury tezauru ve vybraných světových jazycích, statistické údaje tezauru

Formulář:
Statistics

economic prioritypriorité économiquewirtschaftliche Priorität
RT priority regionRT région prioritaireRT wirtschaftliches Fördergebiet
UF priority actionUF action prioritaireUF vorrangige Maßnahme
UF priority measure

sustainable developmentdéveloppement durabledauerhafte Entwicklung
RT environmental policyRT politique de l'environnementRT Umweltpolitik
UF umweltgerechte EntwicklungUF développement soutenable
SN: Development which allows present needs to be satisfied without compromising the capacity of future generations to satisfy their needs too.SN: Développement qui permet de satisfaire les besoins du présent sans compromettre la capacité des générations futures a satisfaire, elles aussi, leurs besoins. SN: Entwicklung, die nicht das Recht künftiger Generationen gefährdet, ihrerseits ihre Bedürfnisse zu befriedigen.

Příloha č. 6: Thesaurus Administration Tool - Uživatelská příručka

Poznámky Hledání Záruky Cz Eng