Client of a Native XML Database

(1)

Fakulta elektrotechniky a informatiky

Katedra informatiky

Klient nativn´ı XML datab ´aze

Client of a Native XML Database

(2)

(3)

rád podˇekoval za spoustu informac´ı a za rady, které mˇe vˇzdy navedly t´ım správn ým smˇerem.

(4)

C´ılem této diplomové práce je implementace klientského softwaru pro pˇripojen´ı a z´ıskán´ı poˇzadovan ých dat z existuj´ıc´ı nativn´ı XML databáze. V prvn´ı fázi dokumentu bude popsán jazyk XML, jeho funkcionalita a také seznám´ı ˇctenáˇre s problematikou dotazo-vac´ıch jazyk ˚u urˇcen ých pro vyhledáván´ı dat v XML dokumentech. Jedna kapitola je také vˇenována teoretickému popisu nativn´ıch XML databáz´ı. Poté jiˇz následuje podrobn ý po-pis konkrétn´ı zvolené nativn´ı XML databáze, jej´ıho API a v ývoje vlastn´ı klietské aplikace, která s touto databázi bude komunikovat. V pr ˚ubˇehu práce byla vyv´ıjena experimentáln´ı metoda komprese XML dat a vlastn´ı komponenta slouˇz´ıc´ı k zobrazován´ı XML doku-ment ˚u, jenˇz byly do aplikace zakomponovány.

Kl´ıˇcov ´a slova: XML, XPath, XQuery, parser, nativn´ı XML datab´aze, klient, eXist,

kom-prese, komponenta

Abstract

Target of this thesis is to implement a client-side software for creating a connection to an existing native XML database and obtaining required data from the database. First part of this thesis will describe the XML language, its functionality and also will make viewers familiar with query languages for selecting data withing XML documents. One chapter is also devoted to theoretic definition of native XML databases. Then here comes a detailed exploration of a particular chosen XML database, its API and the development of a client application which will communicate with the database. During this work, an experimental method of XML data compression and own component for representing XML documents were developed. Both those were then integrated into the application.

Keywords: XML, XPath, XQuery, parser, native XML database, client, eXist,

(5)

XML – eXtensible Markup Language

DOM – Document Object Model

LAN – Local Area Network

API – Application Programming Interface SGML – Standard Generalized Markup Language

W3C – World Wide Web Consortium

UTF-8 – 8-bit UCS Transformation Format UCS – Universal Character Set

HTML – HyperText Markup Language PDF – Portable Document Format HTTP – HyperText Transfer Protocol

WWW – World Wide Web

CSS – Cascading Style Sheets

XSL – Extensible Stylesheet Language

XHTML – eXtensible HyperText Markup Language DTD – Document Type Definition

PCDATA – Parsed Character Data

CDATA – Character Data

XSD – XML Schema Definition

TCP – Transmission Control Protocol URI – Uniform Resource Identifier

JDK – Java Development Kit

GUI – Graphical User Interface REST – Representational State Transfer SOAP – Simple Object Access Protocol XML-RPC – XML Remote Procedure Call

(6)

Obsah

1 Uvod´ 4

2 Technologie XML 5

2.1 Popis . . . 5

2.2 Hlavn´ı rysy jazyka XML . . . 5

2.3 Syntaxe XML dokumentu . . . 5

2.4 S´emantika XML dokumentu . . . 7

2.5 DOM . . . 9

2.6 Srovn´an´ı s jazykem HTML . . . 10

3 Dotazovac´ı jazyky pro XML 13 3.1 Dostupn´e dotazovac´ı jazyky . . . 13

3.2 Jazyk XPath . . . 13

3.3 Jazyk XQuery . . . 15

4 XML databáze 17 4.1 V ýznam XML databáz´ı . . . 17

4.2 Typy XML dokument ˚u . . . 17

4.3 Datab´aze s podporou XML . . . 19

4.4 Nativn´ı XML datab´aze . . . 19

4.5 Popis datab´aze eXist . . . 21

5 Popis aplikace 24 5.1 N´avrh implementace . . . 24

5.2 Zvolen´e rozhran´ı k datab´azi eXist . . . 28

5.3 Implementace . . . 30

5.4 V ´ysledky test ˚u . . . 38

6 Závˇer 42 7 Reference 43 Pˇr´ılohy 44 A Datové typy v jazyce XPath 2.0 a XQuery 1.0 45 B Uˇzivatelská pˇr´ıruˇcka 46 B.1 Instalace . . . 46

B.2 Spuˇstˇen´ı aplikace . . . 46

B.3 Grafick´e uˇzivatelsk´e rozhran´ı (GUI) . . . 46

(7)

Seznam obr ´azk ˚

u

1 Hierarchie datov ´ych typ ˚u obsaˇzen ´ych v jazyku XML Schema, podle [5] . . 10

2 Objektov ´y model dokumentu - DOM . . . 11

3 Vytvoˇren´ı stromov´e struktury DOM . . . 11

4 Java Admin rozhran´ı datab´aze eXist . . . 22

5 Srovn´an´ı v ´ykonu komprese XMill a gzip, podle [6] . . . 26

6 Zobrazen´ı XML dokumentu pomoc´ı WebBrowser komponenty . . . 27

7 Serverov´a aplikace . . . 33

8 Zobrazen´ı XML dokumentu pomoc´ı XMLenAView komponenty . . . 37

9 Srovn´an´ı ´urovnˇe komprese LenA a XMill . . . 39

10 Srovnán´ı ˇcasové nároˇcnosti komprimace LenA a XMill . . . 40

11 Srovnán´ı ˇcasové nároˇcnosti komponent XMLenAView a WebBrowser . . . 41

12 Datov´e typy v jazyce XPath 2.0 a XQuery 1.0, podle [3] . . . 45

(8)

Seznam v ´ypis ˚

u zdrojov ´eho k ´

odu

1 Syntakticky spr´avn ´y XML dokument . . . 6

2 Uk´azka jazyka DTD . . . 7

3 Uk´azka jazyka XML Schema . . . 8

4 Pˇr´ıklad pouˇzit´ı FLWOR v ýrazu (aplikovan ý na XML dokument z v ýpisu 1) 16 5 Datovˇe orientovan ý XML dokument . . . 18

6 Dokumentovˇe orientovan ´y XML dokument . . . 18

7 Odpovˇed’ datab´aze eXist na XPath dotaz . . . 30

8 Zpr´avy pro komunikaci server-klient . . . 31

(9)

1 Uvod

´

Technologie XML v souˇcasné dobˇe stále v´ıce proniká do nejr ˚uznˇejˇs´ıch odvˇetv´ı lidské ˇcinnosti. Nejvˇetˇs´ı zastoupen´ı má pochopitelnˇe v oblasti informaˇcn´ıch technologi´ı, ale na-jdeme ji napˇr. i v kontextu geografick ých vˇed, archivnictv´ı a mnoha dalˇs´ıch. Rostouc´ı vyuˇz´ıván´ı formát ˚u XML vˇsak s sebou pˇrináˇs´ı nároˇcnˇejˇs´ı poˇzadavky na ukládán´ı a správu takov ých dat.

Jakoˇzto i u jin ých formát ˚u dat, i u XML jsou k dispozici databázové systémy schopné tato data pojmout a spolehlivˇe uchovávat. Pro XML dokumenty existuje speciáln´ı typ databáz´ı. Jedná se o tzv. nativn´ı XML databáze. Jejich nejsilnˇejˇs´ı v ýhodou je ukládán´ı XML dokument ˚u v jejich pˇrirozené (nativn´ı) formˇe.

Aˇckoli je dnes tˇechto XML databázov ých produkt ˚u na trhu celá ˇrada, vˇetˇsina z nich pˇredpokládá v ývoj vlastn´ıho softwaru, kter ý na základˇe nˇejakého definovaného rozhran´ı API bude k databázi pˇristupovat a s daty pracovat. Vzhledem k tomu, ˇze nativn´ı XML databáze je pojem relativnˇe mlad ý a celá tato problematika je neustále ve stádiu v ýzkumu a v ývoje, je takov ých klientsk ých aplikac´ı nedostatek. Jak je sloˇzité a praktické takovou aplikaci vytváˇret, se pokus´ım objasnit v této práci.

Vlastn´ı obsah práce je rozdˇelen do dvou hlavn´ıch ˇcást´ı. Prvn´ı ˇcást (kapitoly 1 - 4) seznám´ı ˇctenáˇre s teori´ı jazyka XML, s oblast´ı jazyk ˚u pro dotazovan´ı nad XML daty a nakonec s problematikou nativn´ıch XML databáz´ı. V této ˇcásti také bude zvolena jedna konkrétn´ı XML databáze, ke které poté bude vyv´ıjena klientská aplikace.

V druhé ˇcásti (kapitola 5) jiˇz bude popsán v ývoj samotné aplikace. Cel ý v ývoj je rozdˇelen do tˇr´ı etap: návrh implementace, implementace a testován´ı s vyhodnocen´ım v ýsledk ˚u. Jak jiˇz bylo ˇreˇceno, oblast nativn´ıch XML databáz´ı je v neustálém v ývoji, hle-daj´ı se nové techniky, pˇr´ıstupy k dat ˚um apod. Proto i v mé aplikaci budou zahrnuty vlastn´ı techniky práce s XML daty - komprese a zobrazován´ı XML dat. Kaˇzdá tato zkou-maná technika bude podrobnˇe popsána jak v rámci návrhu implementace, tak v samotné implementaci.

(10)

2 Technologie XML

Tato kapitola popisuje technologii XML, jej´ı vznik, princip, z´akladn´ı rysy jazyka XML a nejˇcastˇejˇs´ı pouˇzit´ı.

2.1 Popis

Extensible Markup Language (dále jen XML) [11] je znaˇckovac´ı jazyk otevˇreného stan-dardu (open standard) pro dokumenty obsahuj´ıc´ı strukturovaná data. Hlavn´ım úkolem tohoto jazyka je usnadnit informaˇcn´ım systém ˚um ˇs´ıˇren´ı a v ýmˇenu onˇech strukturovan ých dat, pˇredevˇs´ım pak pˇres lokáln´ı poˇc´ıtaˇcové s´ıtˇe LAN nebo internet, ale i jinou formou. Vy-vinul se postupnˇe z univerzáln´ıho jazyka SGML (Standard Generalized Markup Langu-age) a náleˇz´ı pod správu W3C konsorcia (World Wide Web Consortium), které také XML v roce 1998 standardizovalo. D´ıky své jednoduchosti a bezplatnému pouˇz´ıván´ı se stává ˇc´ım dál v´ıce populárn´ım u ˇsiroké veˇrejnosti uˇzivatel ˚u. Slovo Extensible v názvu jazyka m ˚uˇzeme do ˇceˇstiny pˇreloˇzit jako rozˇsiˇritelný a toto oznaˇcen´ı nebylo zvoleno jen tak. Je to pˇredevˇs´ım z toho d ˚uvodu, ˇze si kaˇzd ý uˇzivatel vytváˇr´ı znaˇcky (tagy) sám podle vlastn´ıho uváˇzen´ı. Neexistuje ˇzádná pˇredem daná mnoˇzina pˇreddefinovan ých tag ˚u, záleˇz´ı pouze a jenom na konkrétn´ım uˇzivateli jaké znaˇcky si pro sv ˚uj XML dokument zavede. Vzhle-dem k tomu, jak rychle a s jakou razanc´ı technologie XML proniká do r ˚uzn ých obor ˚u informaˇcn´ıch technologi´ı, má v budoucnu zajisté velk ý potenciál. Vˇzdyt’ i sám Bill Gates prohlásil, ˇze XML je ”technologi´ı budoucnosti”.

2.2 Hlavn´ı rysy jazyka XML

V ýˇcet bezpochyby nejd ˚uleˇzitˇejˇs´ıch vlastnost´ı jazyka XML: • bezplatné ˇs´ıˇren´ı a uˇz´ıván´ı (fee-free)

• velmi dobˇre zdokumentován - specifikace, doporuˇcen´ı (http://www.w3.org/XML/) • nezávislost na pouˇzitém softwaru, operaˇcn´ım systému a prostˇred´ı

• mezin´arodn´ı podpora (pouˇz´ıv´an´ı Unicode, UTF-8 aj.)

• pˇresnˇe daná syntaxe jazyka, která pˇredcház´ı nekompatibilitˇe

• vysok ý informaˇcn´ı obsah (vlastn´ı tagy k hlubˇs´ımu oznaˇcen´ı v ýznamu ˇcásti textu) • snadná konverze na jiné formáty (MS Word, MS Excel, PDF, HTML apod.)

2.3 Syntaxe XML dokumentu

Kaˇzd ý XML dokument mus´ı spl ˇnovat nˇekolik kritéri´ı, aby mohl b ýt povaˇzován za správnˇe strukturovan ý (well-formed) a vhodn ý pro dalˇs´ı zpracován´ı. Protoˇze je efektivita jazyka závislá na struktuˇre a integritˇe dat, jsou tyto pˇredpisy striktn´ı. O tom, zda je dokument spl ˇnuje nebo ne, rozhoduje tzv. syntaktick ý analyzátor (parser).

(11)

2.3.1 Pravidla XML dokumentu

• kaˇzd ý XML dokument mus´ı m´ıt dan ý typ k ódován´ı textu (Unicode, v ˇCR ˇcasto pouˇz´ıvan ý UTF-8, povolené jsou i jiná k ódován´ı)

• dokument má právˇe jeden root (koˇrenov ý) element

• kaˇzd ý neprázdn ý element je regulérnˇe ohraniˇcen startovac´ı a ukonˇcovac´ı znaˇckou • prázdn ý element je ohraniˇcen startovac´ı znaˇckou a ukonˇcen znaˇckou prázdný

ele-ment

• elementy mohou b ýt vnoˇreny do sebe, nesm´ı vˇsak doj´ıt k jejich pˇrekr ýván´ı, tzn. kaˇzd ý element (kromˇe koˇrenového), pokud je vnoˇren ý do jiného elementu, tak pouze kompletnˇe

• v XML dokumentu se u jmen element ˚u rozliˇsuj´ı malá a velká p´ısmena, napˇr. znaˇcka <Name> a <name/> nen´ı validn´ı pár znaˇcek ohraniˇcuj´ıc´ı element Name

• prvek pouˇzit ý s otazn´ıky <?name?> se pˇri zpracováván´ı pˇreskakuje, pouˇz´ıvá se mimo jiné pˇri deklaraci XML dokumentu

• poznámky uˇzivatele v dokumentu se znaˇc´ı <!−−nˇejaký komentáˇr−−>

• pro speciáln´ı znaky pouˇz´ıvané v syntaxi jazyka je tˇreba pouˇz´ıt zástupné ˇretˇezce: - & - pro znak &

- < - pro znak < - > - pro znak > - ' - pro znak ’ - " - pro znak ”

2.3.2 Uk ´azka XML dokumentu

V ýpis 1: Syntakticky správn ý XML dokument

<?xml version=”1.0” encoding=”utf−8”?>

<skola name=”VSB−TUO” rok=”2008”> <student>Pavel Mitko</student> <student>Jan Novy</student> <student>Michal Polak</student> </skola>

<skola name=”UTB” rok=”2007”> <student>Jiri Vojta</student> <student>Petr Maly</student> </skola>

(12)

2.4 S ´emantika XML dokumentu

U XML dokumentu vˇsak ˇcasto potˇrebujeme kontrolovat také jeho obsah po stránce sémantické. K tomu, jak uˇz napov´ıdá název, nám slouˇz´ı analyzátory sémantické. K takové kontrole je tˇreba vytvoˇrit pˇredpis, kter ý bude podobu správného dokumentu zachycovat. M ˚uˇzeme do nˇej zanést jaké elementy v dokumenty mohou, mus´ı, nebo naopak nesm´ı b ýt obsaˇzeny, v jakém sledu se budou vyskytovat, popˇr. jaké obsahuj´ı atributy atd. Pro vytváˇren´ı ta-kov ých pˇredpis ˚u nám slouˇz´ı dva jazyky. Prvn´ım jazykem je DTD (z angl. Document Type Definition), neboli definice typu dokumentu. V´ıce informac´ı o tomto jazyku a ukázku pouˇzit´ı v kapitole 2.4.1. Druh ým jazykem v poˇrad´ı je XML Schema, popsan ý v kapitole 2.4.2.

2.4.1 DTD

DTD [4] je ve skuteˇcnosti deklarativn´ı popis XML dokumentu, pomoc´ı kterého jsou následovnˇe sémantické analyzátory schopné ovˇeˇrit validitu. V praxi se setkáme s uˇz pˇreddefinovan ými schématy pro celé skupiny dokument ˚u se stejn ým ˇci podobn ým zamˇeˇren´ım. Pˇr´ıkladem m ˚uˇzeme uvést schémata pro XML dokumentaci knih, novinov ých ˇclánk ˚u apod. (pˇredevˇs´ım vyuˇz´ıváno v evidenc´ıch knihoven). DTD pˇredpis je obvykle uloˇzen v extern´ım souboru, nen´ı vˇsak vylouˇceno ani jako souˇcást dokumentu. Pˇri zápisu DTD jsou nám k dispozici také tyto zástupné symboly vyjadˇruj´ıc´ı povinnost v ýskytu:

+ v ´yskyt alespo ˇn jednou - <1,nekoneˇcno)

? nepovinn ´y v ´yskyt - <0,1>

* libovoln ´y poˇcet v ´yskyt ˚u - <0,nekoneˇcno)

Pro pˇredchoz´ı XML dokument (v ´ypis 1) bychom DTD mohli definovat napˇr´ıklad takto:

V ´ypis 2: Uk´azka jazyka DTD

<!DOCTYPE studium [

<!ELEMENT studium (skola+)>

<!ELEMENT ˇskola (student∗)>

<!ELEMENT student (#PCDATA)>

<!ATTLIST skola

nameCDATA

rok ( 2006 | 2007 | 2008 ) ’ 2008’> ]>

Takov ý zápis pravidel nám ˇr´ıká, ˇze prvek studium mus´ı obsahovat aspo ˇn jeden vnoˇren ý prvek s názvem skola. Ten dále m ˚uˇze obsahovat libovoln ý poˇcet prvk ˚u student, kter ý vˇsak uˇz neobsahuje vnoˇrené prvky, pouze textovou hodnotu (oznaˇcen´ı #PCDATA, z an-glického Parsed Character Data).

(13)

Pro kaˇzd ý takto nadeklarovan ý element naˇseho dokumentu m ˚uˇzeme urˇcit libovoln ý poˇcet atribut ˚u. Atribut je ve skuteˇcnosti informace, která nˇejak ým zp ˚usobem pˇresnˇeji definuje prvek. Názvy atribut ˚u opˇet záleˇz´ı pouze na nás.

Definice atribut ˚u ve v ýpisu 2 zaˇc´ıná kl´ıˇcov ým slovem ATTLIST. Takto bychom pro prvek skola zavedli dva atributy - name, kter ý bude obsahovat nˇejak ý text (CDATA z anglického Character Data) a rok, jehoˇz pˇr´ıpustné hodnoty jsou dány v ýˇctem tˇr´ı moˇznost´ı, pˇriˇcemˇz standardnˇe nab ývá hodnoty 2008.

Jazyk DTD s sebou nese nˇekolik nev ýhod. Pˇredevˇs´ım to, ˇze v nˇem nejsou definovány datové typy. Neumoˇz ˇnuje kontrolu pˇresného poˇctu v ýskyt ˚u. A v neposledn´ı ˇradˇe i fakt, ˇze samotn ý zápis DTD nen´ı ve formátu XML dokumentu.

2.4.2 XML Schema

Dalˇs´ım jazykem pro popis obsahu XML dokumentu je XML Schema [7], jenˇz také spadá pod specifikace W3C konsorcia. Správnˇe napsané schéma t´ımto jazykem je zárove ˇn správnˇe strukturovan ý XML dokument, kter ý pouˇz´ıvá speciáln´ıch element ˚u. Vˇsechny tyto ele-menty mus´ı patˇrit do jmenného prostoru http://www.w3.org/2001/XMLSchema. Pro tento jmenn ý prostor se obvykle pouˇz´ıvá v zápise prefix xs nebo xsd.

Velkou v ýhodou jazyka XML Schema oproti DTD je pˇr´ıtomnost datov ých typ ˚u [9]. Je také moˇzné definovat vlastn´ı datové typy, nejˇcastˇeji restrikc´ı nebo rozˇs´ıˇren´ım jiˇz exis-tuj´ıc´ıch datov ých typ ˚u. Taková moˇznost kontroly z XML Schema ˇcin´ı silnˇejˇs´ı nástroj pro pˇredpis XML dokumentu neˇz je DTD, avˇsak ˇcasto h ˚uˇre ˇciteln ým a srozumiteln ým pro ˇclovˇeka.

Názorná ukázka je vˇzdy nejv ýstiˇznˇejˇs´ı, proto si uvedeme pˇr´ıklad jazyka XML Schéma a na nˇem si poté vysvˇetl´ıme jeho hlavn´ı rysy. Jde opˇet o aplikaci na XML dokument uveden ý v kapitole 2.3.2:

V ´ypis 3: Uk´azka jazyka XML Schema

<xsd:schema xmlns:xsd=”http://www.w3.org/2001/XMLSchema”> <xsd:element name=”studium”>

<xsd:complexType> <xsd:sequence>

<xsd:element name=”skola” maxOccurs=”unbounded”> <xsd:complexType>

<xsd:sequence>

<xsd:element name=”student” type=”xsd:string” maxOccurs=”unbounded” /> </xsd:sequence>

<xsd:attribute name=”name” type=”xsd:string” /> <xsd:attribute name=”rok” type=”xsd:int” /> </xsd:complexType> </xsd:element> </xsd:sequence> </xsd:complexType> </xsd:element> </xsd:schema>

(14)

Celé schéma mus´ı b ýt vnoˇreno do koˇrenového elementu s názvem schema (xsd:schema vˇcetnˇe prefixu). Vzpome ˇnme, ˇze kaˇzd ý správnˇe strukturovan ý XML dokument má právˇe jeden koˇrenov ý element. Nejinak tomu mus´ı b ýt i v pˇr´ıpadˇe dokumentu obsahuj´ıc´ım XML Schema.

Pro kaˇzd ý element urˇcujeme jeho typ. K dispozici máme dva typy - jednoduché a komplexn´ı. Mezi jednoduché patˇr´ı napˇr. ˇretˇezec, ˇc´ıslo, datum apod. Pokud vˇsak ele-ment obsahuje vnoˇrené eleele-menty nebo atributy, mus´ıme pouˇz´ıt komplexn´ı typ (ve v ýpisu xsd:complexType). Dále pomoc´ı znaˇcky xsd:sequence urˇc´ıme poˇrad´ı vnoˇren ých element ˚u vzhledem k nadˇrazenému elementu. V naˇsem pˇr´ıpadˇe prvek studium obsahuje pouze

vnoˇren ý element skola, avˇsak s neomezen ým poˇctem v ýskyt ˚u (vlastnost maxOccurs=”unbounded”). Element ˇskola je dále tvoˇren vnoˇren ým elementem student, kter ý obsahuje hodnotu typu

ˇretˇezec (type=”xsd:string”). U tohoto elementu tak´e definujeme dva atributy s n´azvy name a rok vˇcetnˇe typ ˚u jejich hodnot.

Na obrázku 1 je uvedena hierarchie datov ých typ ˚u obsaˇzen ých v jazyku XML Schema. 2.5 DOM

Z pˇredchoz´ıch kapitol jiˇz v´ıme, co je dokument XML a co je sch´ema popisuj´ıc´ı jeho struk-turu. Nyn´ı se bl´ıˇze pod´ıv´ame na to, jak s vlastn´ımi daty pracovat.

Objektov ý model dokumentu (z anglického DOM neboli Document Object Model) [1] zpˇr´ıstup ˇnuje dokument XML jako stromovou strukturu v pamˇeti a nab´ız´ı tak kaˇzdému programátorovi snadno pouˇzitelné prostˇred´ı. DOM definuje standardn´ı sadu objekt ˚u a rozhran´ı pro manipulaci s XML, zajiˇst’uje pˇr´ıstup k dokument ˚um, element ˚um i atri-but ˚um. Pomoc´ı rozhran´ı DOM m ˚uˇzeme vyjádˇrit cel ý dokument XML jako objekt, takˇze je moˇzné pracovat s n´ım jako s kter ýmkoli jin ým objektem v systému - k dispozici je kva-litnˇe zdokumentované API (rozhran´ı pro programován´ı aplikac´ı) s uˇziteˇcn ými metodami a vlastnostmi. Stromovou strukturu XML dokumentu tak, jak ji chápeme pˇri pouˇzit´ı ob-jektového modelu dokumentu, ilustruje obrázek 2.

Na DOM se m ˚uˇzeme d´ıvat jako na dynamick ý objekt s urˇcitou hierarchi´ı. Je d ˚uleˇzité si uvˇedomit, ˇze poˇc´ıtaˇc vid´ı objekt, kterému my ˇr´ıkáme XML dokument, jako posloupnost bajt ˚u. Protoˇze tato kolekce bajt ˚u má formu prostého textu, m ˚uˇze b ýt snadno naˇcten a také pˇrenáˇsen po s´ıti ˇci pˇres internet.

Aby vˇsak poˇc´ıtaˇc mohl pracovat s dokumentem XML a manipulovat s údaji, které jsou v nˇem uloˇzeny, mus´ı se nejprve dokument zmˇenit v objekt um´ıstˇen ý v operaˇcn´ı pamˇeti. V tomto stavu je uˇz lépe pˇrizp ˚usoben ke zpracováván´ı r ˚uzn ými aplikacemi na-psan ými v modern´ıch programovac´ıch jazyc´ıch. Tato zmˇena se provád´ı vytvoˇren´ım in-stance DOM, která spust´ı XML analyzátor (parser), a ten rozdˇel´ı cel ý dokument na jed-notlivé ˇcásti. Analyzátor naˇc´ıtá dokument znak po znaku a pˇritom urˇcuje, zda novˇe naˇcten ý znak patˇr´ı ke znaˇckován´ı nebo obsahu. V tomto stádiu se také parser d´ıvá, zda k dokumentu náleˇz´ı nˇejaké XML schéma nebo DTD, jenˇz by pˇredepisovaly strukturu do-kumentu. V pˇr´ıpadˇe, ˇze takové schéma existuje, celé ho naˇcte a poté provˇeˇr´ı, zda doku-ment vyhovuje struktuˇre, která je v nˇem popsána. Pokud vˇsak analyzátor ˇzádné schéma nenalezne, postupuje podle obecn ých pravidel správnˇe strukturovaného dokumentu.

(15)

Obrázek 1: Hierarchie datov ých typ ˚u obsaˇzen ých v jazyku XML Schema, podle [5]

Jakmile je analyzátor s provˇeˇren´ım platnosti hotov a v dokumentu nebyly nalezeny ˇzádné chyby, vytvoˇr´ı sadu uzl ˚u, které maj´ı urˇcité vlastnosti. V tabulce 1 je uveden se-znam moˇzn ých typ ˚u uzl ˚u, které jsou obsaˇzeny v implementaci DOM od firmy Microsoft. Pr ˚ubˇeh celého procesu vytváˇren´ı struktury DOM je vyobrazen na obrázku 3.

2.6 Srovn ´an´ı s jazykem HTML

Stejnˇe jako XML, i jazyk HTML (HyperText Markup Language), kter ý se do podvˇedom´ı lid´ı dostal pˇredevˇs´ım d´ıky obrovskému rozmachu internetov ých stránek (www stránky) za posledn´ıch nˇekolik let, vycház´ı z p ˚uvodn´ıho SGML. Z toho také plyne jejich podob-nost v mnoha smˇerech (pˇredevˇs´ım v oblasti syntaxe). Podstatn ý rozd´ıl je ale ten, ˇze v jazyku HTML existuje koneˇcná mnoˇzina znaˇcek, které lze v rámci jazyka pouˇz´ıvat. To ovˇsem u jazyka XML neplat´ı. V jazyku HTML jednotlivé tagy prakticky urˇcuj´ı vzhled

(16)

Obr´azek 2: Objektov ´y model dokumentu - DOM

Obr´azek 3: Vytvoˇren´ı stromov´e struktury DOM

webové stránky - interpretaci, jakou budou data podána uˇzivateli. Kdeˇzto u jazyka XML se vzhled a to, jak bude dokument zobrazen, definuje pouˇzit´ım tzv. styl ˚u. Nejznámˇejˇs´ımi zástupci stylov ých jazyk ˚u pouˇz´ıvan ých spolu s XML jsou zcela urˇcitˇe kaskádové styly (CSS) a XSL (eXtensible Stylesheet Language).

Spoleˇcnost´ı W3C byl z jazyka XML vyvinut nov ý znaˇckovac´ı jazyk urˇcen ý pro tvorbu hypertextov ých dokument ˚u v prostˇred´ı www stránek. Jazyk nese oznaˇcen´ı XHTML (Ex-tensible HyperText Markup Language) a hovoˇr´ı se o nˇem dokonce jako o nevyhnutelném nástupci jazyka HTML. V souˇcasné dobˇe se intenzivnˇe pracuje jak na nové verzi jazyka HTML 5, tak na XHTML 2.0. U jazyka HTML je naprostá vˇetˇsina softwarov ých interne-tov ých prohl´ıˇzeˇc ˚u ochotná a schopná tolerovat menˇs´ı chyby v syntaxi dokument ˚u, jako

(17)

Tabulka 1: Typy uzl ˚u definovan´e v DOM od firmy Microsoft, podle [1]

N´azev Popis

NODE ELEMENT Uzel pˇredstavuj´ıc´ı element

NODE ATTRIBUTE Uzel pˇredstavuj´ıc´ı atribut elementu NODE TEXT Uzel pˇredstavuj´ıc´ı textov ´y obsah tagu NODE CDATA SECTION Uzel pˇredstavuj´ıc´ı sekci CDATA ve zdroji

XML

NODE ENTITY REFERENCE Uzel pˇredstavuj´ıc´ı odkaz na entitu v do-kumentu XML

NODE ENTITY Uzel pˇredstavuj´ıc´ı rozvinutou entitu NODE PROCESSING INSTRUCTION Uzel pˇredstavuj´ıc´ı instrukci pro

zpra-cov´an´ı z dokumentu XML

NODE COMMENT Uzel pˇredstavuj´ıc´ı koment´aˇr v doku-mentu

NODE DOCUMENT Tento uzel reprezentuje objekt doku-mentu, kter ý coby koˇren celého stromu zajiˇst’uje pˇr´ıstup k celému dokumentu XML

NODE DOCUMENT TYPE Uzel pˇredstavuj´ıc´ı deklraci typu dokumentu zadanou pomoc´ı tagu <!DOCTYPE>

NODE DOCUMENT FRAGMENT Tento uzel vyjadˇruje fragment doku-mentu

NODE DOCUMENT NOTATION Uzel pˇredstavuj´ıc´ı notaci v deklaraci typu dokumentu

napˇr. opom´ınán´ı ukonˇcovac´ıch znaˇcek element ˚u, pˇrekr ýván´ı prvk ˚u, pouˇz´ıván´ı mal ých i velk ých p´ısmen v názvech prvk ˚u. Jak uˇz bylo zm´ınˇeno v ýˇse, vˇsechny tyto nepˇresnosti jsou v syntaxi XML striktnˇe kontrolovány, tud´ıˇz ani jazyk XHTML je logicky nepˇripouˇst´ı.

(18)

3 Dotazovac´ı jazyky pro XML

Tato ˇcást práce nast´ın´ı problematiku dotazovac´ıch jazyk ˚u urˇcen ých pro XML. Budou uve-deni nˇekteˇr´ı zástupci a nejznámˇejˇs´ı z nich budou prozkoumáni hloubˇeji v kapitolách 3.2 a 3.3.

3.1 Dostupn ´e dotazovac´ı jazyky

Vzhledem k tomu, ˇze formát XML je schopen data pojmout, je zásadn´ı m´ıt k dispozici prostˇredky, kter ými data opˇet z´ıskáme zpˇet. Tak jak v reálném ˇzivotˇe, i pˇri obnovován´ı dat vˇsak chce uˇzivatel ˇcasto z´ıskat jen nˇekteré konkrétn´ı informace. Ty, které odpov´ıdaj´ı jeho dotazu. Odtud také název dotazovac´ı jazyky [8]. Dotazovac´ı jazyk m ˚uˇzeme defino-vat jako ˇclovˇeku srozumiteln ý prostˇredek, kter ým je schopen interpretodefino-vat své logické dotazy a pouˇz´ıvat ho pro vyhledáván´ı urˇcit ých informac´ı. Kaˇzd ý takov ý jazyk vˇsak má svoje pravidla, která mus´ı dodrˇzovat.

Dotazovac´ıch jazyk ˚u pracuj´ıc´ıch nad XML daty je dnes celá ˇrada, nˇekteré uˇz velmi dobˇre známé, jiné ménˇe. Vˇetˇsina z nich vˇsak ve stádiu neustálého v ývoje. Mezi nejznámˇejˇs´ı urˇcitˇe patˇr´ı jazyky jako XPath, XQuery, XML-QL (XML Query Language), XQL, X2QL nebo SQL/XML. Jazyku XPath je vˇenována následuj´ıc´ı kapitola 3.2 a jazyku XQuery ka-pitola 3.3.

3.2 Jazyk XPath

Jazyk XPath (zkráceno z anglického XML Path Language) [2] je standardem W3C konsor-cia. Pˇri procesu dotazován´ı pomoc´ı tohoto jazyka se pracuje nad stromovou strukturou odpov´ıdaj´ıc´ı XML dokumentu. K procházen´ı stromu se poté pouˇz´ıvaj´ı tzv. osy (relace mezi uzly stromu), kter ými definujeme cestu k námi hledan ým dat ˚um.

V souˇcasné dobˇe je jiˇz jazyk XPath ve verzi 2.0. Ne kaˇzd ý XML databázov ý systém podporuje tuto verzi jazyka, ovˇsem kaˇzd ý by mˇel podporovanou verzi ve sv ých specifi-kac´ıch uvádˇet. Od verze 1.0 se jazyk liˇs´ı pˇredevˇs´ım pˇridán´ım podpory v´ıce datov ých typ ˚u [3]. Datové typy jazyka XPath 2.0 jsou uvedené v obrázku 12, kter ý je souˇcást´ı pˇr´ıloh.

Datov ým modelem jazyka je strom, kter ý m ˚uˇze b ýt tvoˇren sedmi druhy uzl ˚u: doku-ment, eledoku-ment, atribut, text, jmenn ý prostor, komentáˇr a instrukce ke zpracován´ı. Uzlem dokument je myˇslen koˇrenov ý uzel. Základn´ı ˇcást´ı jazyka je vyjádˇren´ı cesty (path expres-sion). Ta se zapisuje jako posloupnost pˇrechod ˚u mezi uzly oddˇelen ých lom´ıtky (podobn ý zápis jako URL v prostˇred´ı internetu nebo adresáˇrová struktura na poˇc´ıtaˇci). Kaˇzd ý pˇrechod je urˇcen tˇremi sloˇzkami [17]:

• osa (axis) • test (node test) • predik´at (precidate)

Ne vˇsechny tyto poloˇzky jsou povinné, nejjednoduˇsˇs´ı zápis obsahuje pouze ˇcást test a má tvar napˇr.:

(19)

/A/B/C.

Takov ý zápis oznaˇcuje element C, kter ý je potomkem elementu B, ten je potomkem ele-mentu A a ten je zárove ˇn koˇrenov ým elementem celého dokuele-mentu. V ýsledkem nemus´ı b ýt pouze jeden element, v naˇsem pˇr´ıpadˇe C, ale m ˚uˇze j´ım b ýt celá mnoˇzina element ˚u, které odpov´ıdaj´ı této cestˇe ve stromové struktuˇre. V zápisu jednotliv ých dotaz ˚u m ˚uˇzeme, a urˇcitˇe i hojnˇe vyuˇzijeme zástupné symboly, které jsou v jazyce XPath k dispozici. Jejich pˇrehled najdeme v tabulce 2.

Tabulka 2: Tabulka symbol ˚u v syntaxi jazyka XPath

Symbol Funkce symbolu

- jak ýkoliv jednotliv ý uzel / oddˇeluje uzly v cestˇe | sjednocuje uzly ? 0-1 v ýskyt uzlu + 1-v´ıce v ýskyt ˚u uzlu * 0-v´ıce v ýskyt ˚u uzlu

[] obsahuje logick´e podm´ınky @ oznaˇcuje atribut

() precedence (urˇcen´ı priorit)

U pokroˇcilejˇs´ıch dotaz ˚u se jiˇz pˇridává poloˇzka osa. Implicitnˇe se pouˇz´ıvá osa child (po-tomek), ale podle potˇreby máme v moˇznostech jazyka os nˇekolik. Zápis os se oddˇeluje dvˇemi dvojteˇckami. Cel ý dotaz pak jeˇstˇe m ˚uˇzeme doplnit o logické podm´ınky (pre-dikáty), které se uzav´ıraj´ı do hranat ých závorek. Jako pˇr´ıklad poslouˇz´ı napˇr. tento dotaz:

/A/B/child::*[attribute::cena=”100”]

kter ý vybere vˇsechny elementy, které jsou potomky elementu B a obsahuj´ı atribut cena s hodnotou 100, pˇriˇcemˇz element B je potomkem koˇrenového elementu A.

Os, které definuj´ı mnoˇzinu uzl ˚u relativnˇe k aktuáln´ımu uzlu, je celkem 13. Uvedeme si je pro lepˇs´ı pochopen´ı moˇznost´ı dotazován´ı pomoc´ı XPath.

• ancestor (pˇredek) - obsahuje vˇsechny pˇredky aktu´aln´ıho uzlu (uzly leˇz´ıc´ı bl´ıˇze ke koˇrenov´emu uzlu)

• ancestor-or-self (pˇredek vˇcetnˇe sebe) - obsahuje vˇsechny uzly jako ancestor vˇcetnˇe aktu´aln´ıho uzlu

• parent (rodiˇc) - obsahuje rodiˇce aktu´aln´ıho uzlu (prvn´ı uzel bl´ıˇze ke koˇrenov´emu uzlu)

• child (potomek) - obsahuje vˇsechny potomky aktu´aln´ıho uzlu • attribute - obsahuje vˇsechny atributy aktu´aln´ıho uzlu

• descendant - obsahuje vˇsechny uzly, pro které je aktuáln´ı uzel pˇredkem • descendant-or-self - obsahuje uzly jako descendant vˇcetnˇe aktuáln´ıho uzlu

(20)

• preceding - obsahuje vˇsechny uzly, které se nacház´ı pˇred aktuáln´ım uzlem, kromˇe jeho pˇredk ˚u

• preceding-sibling - obsahuje uzly, které jsou sourozenci aktuáln´ıho uzlu a nacház´ı se pˇred n´ım

• following - obsahuje vˇsechny uzly, které se nacház´ı po aktuáln´ım uzlu, kromˇe jeho potomk ˚u

• following-sibling - obsahuje uzly, které jsou sourozenci aktuáln´ıho uzlu a nacház´ı se po nˇem

• namespace - obsahuje vˇsechny namespace uzly aktu´aln´ıho uzlu • self - obsahuje aktu´aln´ı uzel

Nˇekolik jednoduch ých dotaz ˚u pomoc´ı jazyka XPath (aplikované na XML dokument z v ýpisu 1):

• /studium/skola/student - vˇsechny elementy student, kter´e jsou potomky elementu skola a ten je potomkem koˇrenov´eho elementu studium

• //skola/student - vˇsechny elementy student, kter´e jsou potomky elementu skola a ten je potomkem koˇrenov´eho elementu

• //skola[attribute::name=’TUO’] - vˇsechny elementy skola s hodnotou VSB-TUO v atributu name , kter´e jsou potomky koˇrenov´eho elementu

• //skola[@name=’VSB-TUO’ and @rok > 2007]/student - vˇsechny elementy student, které jsou potomky elementu skola s hodnotou VSB-TUO v atributu name a hodno-tou vˇetˇs´ı neˇz 2007 v atributu rok a ten je potomkem koˇrenového elementu studium • //skola/student[position()=1] - vˇsechny elementy student, které jsou prvn´ımi

po-tomky elementu skola a ten je potomkem koˇrenov´eho elementu

• //skola/student[text()=’Pavel Mitko’] - vˇsechny elementy student s textovou hodno-tou Pavel Mitko, kter´e jsou potomky elementu skola a ten je potomkem koˇrenov´eho elementu

3.3 Jazyk XQuery

Dotazovac´ı jazyk XQuery je stejnˇe jako XPatch produktem W3C konsorcia. Postupnˇe byl vyvinut z jazyka Quilt, jenˇz vycház´ı z nˇekolika dalˇs´ıch jazyk ˚u jako XPath 1.0, XML-QL, XQL, SQL. Doporuˇcen´ım W3C se stal 23. ledna 2007. Aktuáln´ı verze jazyka je 1.0. V po-rovn´ın´ı s XPath se jedná o pokroˇcilejˇs´ı dotazovac´ı jazyk. Kromˇe základn´ıch v ýraz ˚u, které pˇreb´ırá od jazyka XPath (vyjádˇren´ı cesty, porovnáván´ı, predikáty), poskytuje uˇzivateli

(21)

mnohá dalˇs´ı vylepˇsen´ı. T´ım jsou nepochybnˇe v ýrazy typu FLWOR1_{, podm´ınˇené v ýrazy,}

moˇznost tˇr´ıdˇen´ı nebo konstruktory. V ´yrazy pro urˇcen´ı cesty v XML dokumentu jsou stejn´e jako v jazyku XPath 2.0.

Pro pr´aci s daty je v XQuery pˇreddefinov´ano nˇekolik vstupn´ıch funkc´ı. Nejd ˚uleˇzitˇejˇs´ımi jsou tyto:

• doc() - vrac´ı dokument identifikovan ´y URI

• collection() - vrac´ı kolekci dokument ˚u spojenou s URI • root() - vrac´ı koˇren aktu´aln´ıho dokumentu

Nˇekolik jednoduch ých dotaz ˚u pomoc´ı jazyka XQuery (aplikované na XML dokument z v ýpisu 1):

• doc(’studium.xml’)//skola - vˇsechny elementy skola, kter ´y je potomkem koˇrenov´eho elementu v dokumentu studium.xml

• doc(’studium.xml’)/studium/skola[student=’Pavel Mitko’] - vˇsechny elementy skola obsahuj´ıc´ı element student s hodnotou Pavel Mitko, kter ´y je potomkem koˇrenov´eho elementu studium v dokumentu studium.xml

• doc(’studium.xml’)/studium/skola/student[1] - vˇzdy prvn´ı element student, kter ´y je potomkem elementu skola a ten je potomkem koˇrenov´eho elementu studium v dokumentu studium.xml

Velmi d ˚uleˇzitou ˇcást´ı jazyka XQuery jsou tzv. FLWOR v ýrazy [10], které m ˚uˇzeme pˇrirovnat k SELECT-FROM-WHERE dotaz ˚um v jazyku SQL. Název je tvoˇren prvn´ımi p´ısmeny jednotliv ých klauzul´ı tvoˇr´ıc´ı v ýraz:

• F for - asociace jedné nebo v´ıce promˇenn ých k v ýrazu • L let - pˇriˇrazen´ı v ýsledku v ýrazu promˇenné

• W where - omezuj´ıc´ı podm´ınka • O order by - setˇr´ıdˇen´ı

• R return - v ´ysledek

for $b in doc(’studium.xml’)/studium/skola

where $b/student = ’Pavel Mitko’ order by $b/@name

return $b

V ýpis 4: Pˇr´ıklad pouˇzit´ı FLWOR v ýrazu (aplikovan ý na XML dokument z v ýpisu 1) Pˇr´ıklad uveden ý ve v ýpisu 4 vyp´ıˇse vˇsechny elementy skola seˇrazené podle hodnoty atributu name, ve kter ých se vyskytuje student s hodnotou Pavel Mitko.

1

(22)

4 XML datab ´aze

V této ˇcásti si objasn´ıme co jsou XML databáze, jejich v ýznam v dneˇsn´ı dobˇe a zp ˚usob pˇr´ıstupu do nich. Postupnˇe se zamˇeˇr´ıme na nativn´ı XML databáze.

4.1 V ´yznam XML datab ´az´ı

Jednou z hlavn´ıch oblast´ı vyuˇzit´ı XML dokument ˚u je dlouhodobé uchováván´ı dat v pˇrehledné formˇe. To je také principem celé XML technologie. Totiˇz dokumenty v n´ı vy-tvoˇrené jsou sv ým zp ˚usobem samopopisné. To je dáno v ýznamem jednotliv ých znaˇcek, atribut ˚u, i samotné struktury dokumentu. Je zˇrejmé, ˇze dnes vytvoˇren ý XML dokument archivuj´ıc´ı napˇr. knihu ve vˇedecké knihovnˇe, kter ý je psán podle mezinárodnˇe dan ých schémat pro tento obor, bude i za nˇekolik let jednoduˇse ˇciteln ý a bude plnit svou funkci. Právˇe toto ˇc´ım dál ˇcastˇeji vede instituce i jednotlivce zvolit XML jako zp ˚usob archivace dat. Potˇreba uchováván´ı velkého mnoˇzstv´ı XML dokument ˚u dává za pˇr´ıˇcinu vzniku nov ých databázov ých server ˚u - s podporou XML a nativn´ıch XML databáz´ı.

4.2 Typy XML dokument ˚u

Pˇred samotn ým prozkoumán´ım problematiky XML databáz´ı a toho, jak se v nich XML soubory ukládaj´ı, si rozdˇel´ıme XML dokumenty na 2 odliˇsné typy [8]. Prvn´ı skupinou jsou XML dokumenty zamˇeˇrené pˇredevˇs´ım na datov ý obsah. V literatuˇre jsou nejˇcastˇeji oznaˇcovány jako datovˇe orientované (anglicky data-oriented, data-based nebo data-centric). Druhou skupinu tvoˇr´ı dokumenty, které se vyznaˇcuj´ı pˇredevˇs´ım sm´ıˇsen ým obsahem ve své struktuˇre a obvykle jsou urˇceny pro potˇreby ˇclovˇeka neˇz poˇc´ıtaˇce. Naz ývaj´ı se doku-mentovˇe orientované (anglicky document-oriented, document-based ˇci document-centric). Oba typy si podrobnˇeji pop´ıˇseme v následuj´ıc´ıch podkapitolách.

4.2.1 Datov ˇe orientovan ´a XML data

Tento typ XML dat se vyznaˇcuje pˇredevˇs´ım svou pravidelnou strukturou. Obsah neb ývá nijak v ýraznˇe sm´ıˇsen ý, sp´ıˇse se opakuj´ıc´ı. Samotná struktura nen´ı pro zpracován´ı aˇz tak d ˚uleˇzitá, podstatná jsou obsaˇzená data. Nejˇcastˇeji se tyto dokumenty pouˇz´ıvaj´ı jako jakési zapouzdˇren´ı, do kterého vkládáme data. Nejmenˇs´ı nezávislé jednotky dat jsou v tomto pˇr´ıpadˇe na úrovni prvk ˚u typu atribut nebo PCDATA. Typick ým znakem je také fakt, ˇze pˇri práci s datovˇe orientovan ým dokumentem nezáleˇz´ı na poˇrad´ı element ˚u na stejné úrovn´ı (tzv. sourozenc ˚u).

Taková data ˇcasto nejsou tvoˇrena ˇclovˇekem, n ýbrˇz napˇr. generována nˇejakou apli-kac´ı. Jako pˇr´ıklad si m ˚uˇzeme pˇredstavit nˇejak ý internetov ý obchod, kde jsou uchovávány informace o jednotliv ých objednávkách jeho zákazn´ık ˚u. Ty jsou poté odes´ılány jinému systému, kter ý vyˇrizuje expedici jednotliv ých zásilek ze skladu. Taková situace vyˇzaduje, aby se obˇe (jak odes´ılaj´ıc´ı, tak druhá strana) aplikace spolu domluvily. Snadn ým ˇreˇsen´ım m ˚uˇze b ýt kaˇzdou objednávku odeslat jako správnˇe formátovan ý XML dokument, jenˇz tvoˇr´ı v dneˇsn´ı dobˇe ˇc´ım dál v´ıce obl´ıben ý standard. Druhá strana pˇresnˇe to oˇcekává a

(23)

bude moci data pˇrijmout k dalˇs´ımu zpracován´ı. Pˇr´ıklad takové objednávky by mohl vy-padat následovnˇe:

V ´ypis 5: Datovˇe orientovan ´y XML dokument

<jmeno>Pavel</jmeno> <prijmeni>Mitko</prijmeni> <ulice>1.kv ˇetna 457</ulice> <mesto>Zl´ın</mesto> <psc>47557</psc> </dodaci adresa> <fakturacni adresa> <jmeno>Pavel</jmeno> <prijmeni>Mitko</prijmeni> <ulice>1.kv ˇetna 457</ulice> <mesto>Zl´ın</mesto> <psc>47557</psc> </fakturacni adresa>

4.2.2 Dokumentov ˇe orientovan ´a XML data

Dokumenty zastupuj´ıc´ı tuto skupinu m´ıvaj´ı naopak nepravidelnou strukturu, málo se opakuj´ıc´ı a ˇcasto i sm´ıˇsen ý obsah. Nejmenˇs´ı jednotkou jsou ˇcasto elementy obsahuj´ıc´ı sm´ıˇsen ý obsah, ale m ˚uˇze to b ýt i cel ý dokument. Je to právˇe struktura, která je na celém dokumentu nepostradatelná a jakákoliv zámˇena poˇrad´ı element ˚u by se projevila na jeho v ýznamu. Obvykle je tento typ dokumentu vytváˇren ˇclovˇekem, kter ý do nˇej zanáˇs´ı nˇejakou skuteˇcnost odpov´ıdaj´ıc´ı realitˇe (v reálném svˇetˇe pˇrevládá mnohotvárnost) a ˇcasto je pro ˇclovˇeka i urˇcen. Pˇr´ıkladem takov ých dokument ˚u m ˚uˇze b ýt kniha, elektronická poˇsta (email), novinov ý ˇclánek a podobnˇe.

V ´ypis 6: Dokumentovˇe orientovan ´y XML dokument

<nadpis> ˇCesk á osmn áctka napjat ˇe sledovala duel</nadpis> <odstavec> ˇCeˇsi po por áˇzk ách s N ˇemeckem 3:4 a favorizovanou

(24)

Kanadou 3:4 v prodlouˇzen´ı museli napjat ˇe ˇcekat, zda N ˇemci neuhraj´ı bod.

</odstavec>

<odstavec> N ˇemecko bylo v utk ´an´ı se ˇSv´ycary po pˇredchoz´ıch

vystoupen´ıch na turnaji pap´ırovým favoritem. Porazilo ˇCechy, se ˇSv édy bojovalo o vyrovn án´ı do posledn´ı vteˇriny.

</odstavec> ... </clanek>

<clanek rubrika=”sport” datum=”10.4.2009”> ...

</clanek>

4.3 Datab ´aze s podporou XML

Pˇredchoz´ı rozdˇelen´ı XML dokument ˚u na dva typy je d ˚uleˇzité z hlediska volby samotného ukládán´ı XML soubor ˚u. Pˇri v ýbˇeru úloˇziˇstˇe máme totiˇz, jak uˇz to b ývá, v´ıce moˇznost´ı. Je moˇzné pouˇz´ıt nˇekterou z dostupn ých relaˇcn´ıch databáz´ı, která umoˇz ˇnuje uchováván´ı XML dat. Obvykle jsou takové systémy oznaˇcovány pojmem XML-enabled (”XML pod-porováno”). Z nejznámˇejˇs´ıch zástupc ˚u m ˚uˇzeme uvést Microsoft SQL Server 2000, Oracle, IBM DB2. I kdyˇz tyto databázové systémy ukládaj´ı svá data ve formˇe tabulek, dokáˇz´ı bez problému zpracovat, uloˇzit a vrátit námi poˇzadovan ý XML dokument. Avˇsak pozornost si zaslouˇz´ı fakt, ˇze databáze m ˚uˇze uˇzivateli navrátit XML dokument rozd´ılnˇe struktu-rovan ý, neˇz jak byl p ˚uvodnˇe uloˇzen. Tento nedostatek odráˇz´ı zp ˚usob, jak ým relaˇcn´ı da-tabázové systémy mapuj´ı XML dokumenty do tabulek. Z toho vypl ývá, ˇze tento zp ˚usob je dostateˇcn ý pro datovˇe orientovaná, ale nen´ı pˇr´ıliˇs vhodn ý pro dokumentovˇe oriento-vaná XML data. Právˇe pro tyto úˇcely byly vyvinuty (a stále se vyv´ıjej´ı nové) nativn´ı XML databáze (anglicky native xml database).

4.4 Nativn´ı XML datab ´aze

Hlavn´ım úkolem nativn´ı XML databáze je uchován´ı dokumentu pˇresnˇe tak, jak je tvoˇren originál. Tzn. vˇcetnˇe jeho kompletn´ı logické struktury a vˇsech prvk ˚u, které obsahuje (také komentáˇre, deklarace atd.). Pˇredpokládá se taktéˇz, ˇze pˇri poˇzadavku na urˇcit ý XML do-kument nebo na ˇcást nˇejakého dodo-kumentu (viz dalˇs´ı kapitoly), databáze vrát´ı dodo-kument pˇresnˇe odpov´ıdaj´ıc´ı ukládanému originálu. Je jasné, ˇze nativn´ı XML databázové systémy jsou vhodné pro ukládán´ı jak datovˇe tak dokumentovˇe orientovan ých XML soubor ˚u. To z nich ˇcin´ı nejlepˇs´ı kandidáty pro volbu úloˇziˇstˇe dat tohoto formátu.

Spojen´ı nativn´ı XML databáze bylo poprvé pouˇzito u projektu Tamino, veden ým fir-mou Software AG. Dnes je jiˇz tento v ýraz bˇeˇznˇe pouˇz´ıván vˇsemi v ývojáˇri zab ývaj´ıc´ımi se touto problematikou. Neustále se tento obrat také vr ývá pod k ˚uˇzi ˇsirˇs´ı veˇrejnosti. V dobˇe psan´ı této práce je jiˇz na trhu dostupn ých, troufám si ˇr´ıci, nˇekolik des´ıtek exis-tuj´ıc´ıch nativn´ıch XML databázov ých systém ˚u. Nˇekteré jsou licencovány za nemalé fi-nanˇcn´ı ˇcástky a nˇekteré se naopak pyˇsn´ı pˇr´ıvlastkem open source, neboli zdarma ˇs´ıˇritelné. Je obt´ıˇzné bez dalˇs´ıho zkoumán´ı ˇci testován´ı ˇr´ıci, která z dostupn ých nativn´ıch XML

(25)

da-tabáz´ı je lepˇs´ı a která horˇs´ı. Kritéria, která vˇsechny takové systémy spojuj´ı, at’ uˇz jsou placené ˇci nikoli, jsou pˇredevˇs´ım rychlost zpracován´ı a ukládán´ı jednotliv ých XML do-kument ˚u do databáze, podpora celosvˇetovˇe uznávan ých W3C standard ˚u pro následné dotazován´ı nad tˇemito dokumenty a do tˇretice opˇet rychlost, tentokrát proveden´ı dotazu. Nejv ýznamnˇejˇs´ımi podporovan ými standardy pro z´ıskáván´ı ˇcást´ı nebo i cel ých XML do-kument ˚u z databáze jsou jazyky XPath a XQuery, pro provádˇen´ı zmˇen v dodo-kumentech pak jazyk XUpdate. Jazyk ˚um XPath a XQuery jsou vˇenovány kapitoly 3.2 a 3.3. Pˇrehled nˇekolika nejznámˇejˇs´ıch systém ˚u postaven ých na nativn´ıch XML databáz´ıch je uveden v následuj´ıc´ı tabulce 3. V tabulce je u produktu vˇzdy uvedena aktuáln´ı verze, technologie pouˇzitá pˇri implementaci, podporované jazyky pro práci s XML daty a tv ˚urce systému.

Tabulka 3: Pˇr´ıklady nativn´ıch XML databázov ých systém ˚u

N´azev Verze Jazyk Dotazovac´ı jazyky Autor syst´emu

eXist 1.2 Java XQuery 1.0, XPath 2.0 Wolfgang Meier -

ve-douc´ı projektu

XIndice 1.1 Java XPath, XUpdate The Apache Software

Foundation

dbXML 2.0 Java XPath dbXML Group

Tamino XML

server

4.4 XQuery Software AG

XHive/DB 8 Java XQuery, XPath, XLink,

XPointer, DOM Traversal

X-Hive Corporation

Progress Sonic XML Server

7.6.1 Java XPath, XQuery Progress software Cor-poration

Oracle Berkeley DB XML

2.4.16 C++ XPath, XQuery, XUpdate Oracle Corporation

MonetDB XQuery

4.28.0 C XQuery, XUpdate CWI

Jak je z v ýˇctu na prvn´ı pohled patrné, naprostá vˇetˇsina nativn´ıch XML databáz´ı je implementována v prostˇred´ı Javy. Zcela urˇcitˇe vol´ı v ývojáˇri tento jazyk právˇe kv ˚uli jeho snadné pˇrenositelnosti mezi r ˚uzn ými platformami (vˇzdyt’ právˇe nezávislost na platformˇe je základn´ım pil´ıˇrem celého jazyka Java). Spoleˇcn ými rysy vˇsech nativn´ıch XML databáz´ı jsou pˇredevˇs´ım tyto vlastnosti:

• XML data jsou ukládána na úrovni dokumentu (dokument jako nejmenˇs´ı datov ý jednotka)

• XML dokumenty obvykle seskupov´any do kolekc´ı

• implementován minimálnˇe jeden dotazovac´ı jazyk, nˇekteré disponuj´ı v´ıce jazyky • pouˇz´ıváno indexován´ı pro zrychlen´ı práce s daty

(26)

Stejnˇe jako v relaˇcn´ıch databáz´ıch si m ˚uˇzeme pˇredstavit jeden ˇrádek libovolné tabulky jako nejmenˇs´ı jednotku dat, v nativn´ı XML databáz´ı je touto jednotkou XML dokument. Jak bylo zm´ınˇeno, jednotlivé XML databázové systémy obvykle seskupuj´ı XML doku-menty do tzv. kolekc´ı. Pokud si tedy pˇredstav´ıme XML dokudoku-menty jako ˇrádky tabulky, kolekce pak budou logicky odpov´ıdat jednotliv ým tabulkám. Nˇekteré databáze vyˇzaduj´ı ukládat v rámci jedné kolekce pouze dokumenty sobˇe podobné. To je zaruˇceno schématy, kter ým sv ým obsahem dokumenty jedné kolekce mus´ı odpov´ıdat. Taková vlastnost da-tabáze se naz ývá závislost na schématu (anglicky schema-dependent). Naopak najdeme i XML databáze takové, které ˇzádnou podobnost dokument ˚u náleˇz´ıc´ıch do stejné kolekce nevyˇzaduj´ı. Kolekce pak oznaˇcujeme jako nezávislé na schématu (schema-independent).

Nˇekteré, ne vˇsak zdaleka vˇsechny, nativn´ı XML databáze umoˇz ˇnuj´ı taktéˇz editaci XML dat. Pˇr´ıkladem z tabulky 3 je systém XIndice od firmy Apache Software. K úpravˇe XML dat je zde pouˇz´ıván jazyk XUpdate. Úprava XML dokument ˚u je vˇsak nepˇr´ımo moˇzná i u jin ých systém ˚u. Napˇr´ıklad tak, ˇze je cel ý dokument z databáze nahrán, pozmˇenˇen (nˇejak ými nástroji pro editaci XML dokumentu), poté opˇet cel ý uloˇzen do databáze a p ˚uvodn´ı originál smazán. Princip je vlastnˇe stejn ý, pouze pˇri pouˇzit´ı jazyka pro úpravu XML dat za nás veˇskeré úkony spojené s editac´ı dokumentu provád´ı pˇr´ımo databázov ý systém.

Indexován´ı uloˇzen ých dat obecnˇe napomáhá urychlen´ı vyhledáván´ı v tˇechto datech, tud´ıˇz i celkové práci s nimi. Nejinak je tomu u ukládán´ı dat ve formátu XML. Základn´ım typem je indexován´ı vˇsech element ˚u a atribut ˚u v dokumentech. To samozˇrejmˇe urychluje zpracován´ı dotaz ˚u, pˇri kter ých se v datech vyhledává právˇe podle názv ˚u element ˚u ˇci atribut ˚u. Dotazy tohoto typu jsou ostatnˇe nejˇcastˇejˇs´ı. Pokroˇcilejˇs´ım typem indexován´ı je tzv. full-textové, kdy se indexuje veˇsker ý text obsaˇzen ý v elementech nebo v hodnotách atribut ˚u. Tento typ indexován´ı nemus´ı b ýt souˇcást´ı kaˇzdé nativn´ı XML databáze.

Transakce je dalˇs´ı pojem, kter ý nesm´ı b ýt ciz´ı ˇzádnému modern´ımu databázovému systému. Stejnˇe je tomu i u systém ˚u urˇcen ým pro ukládán´ı a práci s XML daty. Zamykán´ı je moˇzné na úrovn´ı cel ých XML dokument ˚u, proto se m ˚uˇze stát a stává se, ˇze v jeden moment k urˇcitému XML dokumentu m ˚uˇze pˇristupovat (ve smyslu upravován´ı doku-mentu) pouze jeden uˇzivatel. Ostatn´ı uˇzivatelé mus´ı poˇckat, dokud prvn´ı uˇzivatel práci s dokumentem neukonˇc´ı. Na moˇznosti uzamykán´ı ˇcást´ı dokument ˚u se jiˇz v dneˇsn´ı dobˇe usilovnˇe pracuje a v nejbliˇzˇs´ı dobˇe se pravdˇepodobnˇe zaˇcne v systémech objevovat.

4.5 Popis datab ´aze eXist

Ze vˇsech mnou prozkouman ých nativn´ıch XML databáz´ı uveden ých v tabulce 3 bylo nutné zvolit jednu, na které poté bude postavena má klientská aplikace. Nakonec jsem se pˇriklonil k databázi eXist [12]. A to jednak z d ˚uvodu volného ˇs´ıˇren´ı tohoto produktu (jedná se o open-source databázi) a nav´ıc pro v ýbornˇe zpracovanou dokumentaci API databáze. API, neboli zp ˚usob pˇr´ıstupu do databáze, které jsem pro svou aplikaci zvolil, je bl´ıˇze popsáno v kapitole 5.2. Celá XML databáze je vytvoˇrena v programovac´ım jazyce Java a pro jej´ı správn ý bˇeh je nezbytné m´ıt nainstalované JDK (nejlépe aktuáln´ı verzi).

Na domovské internetové stránce databáze [12] je vˇzdy k dispozici nejnovˇejˇs´ı sta-biln´ı verze (v dobˇe psan´ı této práce to je soubor eXist-setup-1.2.5-rev8668.jar). Po staˇzen´ı

(27)

staˇc´ı tento soubor spustit na poˇc´ıtaˇci a zapoˇcne se samotná instalace. Cel ý proces insta-lace je intuitivn´ı. Po uˇzivateli se poˇzaduje pouze zadat adresáˇr pro instalaci a vytvoˇrit si heslo pro pozdˇejˇs´ı pˇr´ıstup k databáze. To vˇsak nen´ı povinné, pouze doporuˇcené pro za-bezpeˇcen´ı. Doporuˇcuji si také nechat vytvoˇrit ikony na ploˇse systému, aby byl pˇr´ıstup k databázi co nejjednoduˇsˇs´ı. Po dokonˇcen´ı instalace staˇc´ı spustit databázi ikonou s názvem eXist Database Startup.

Systém EXist poskytuje uˇzivateli dvˇe moˇznosti pˇr´ıstupu ke své správˇe. Prvn´ı moˇznost´ı je www rozhran´ı. Databáze totiˇz obsahuje integrovan ý www server, kter ý se na poˇc´ıtaˇci nastartuje spolu s databáz´ı. Implicitnˇe se k této webové stránce pˇristupuje zadán´ım ad-resy http://localhost:8080/exist/index.xml do kteréhokoli webového prohl´ıˇzeˇce (MS In-ternet Explorer, Mozilla Firefox, Opera apod.). Na stránce v menu vlevo najdeme moˇznost pˇrihláˇsen´ı jako administrátor - uˇzivatelské jméno admin (za pomoc´ı hesla, které jsme za-dali pˇri instalaci, v opaˇcném pˇr´ıpadˇe bez hesla). Poté m ˚uˇzeme provádˇet základn´ı úkony s databáz´ı (pˇridávat ˇci odeb´ırat XML dokumenty, provádˇet dotazován´ı, zálohovat celou databázi aj.).

Druhou moˇznost´ı správy databáze je vyuˇz´ıt pˇredchystaného administrátorského gra-fického rozhran´ı. Toto GUI je implementováno taktéˇz v jazyce Java a spouˇst´ı se na zm´ınˇené webové stránce odkazem Launch v sekci menu Administration. Na úvodn´ı obrazovce je uˇzivatel vyzván zadat uˇzivatelské jméno a heslo. Opˇet jako jméno uvedeme admin a heslo to, které jsme zadali pˇri instalaci. Pokud jsme ˇzádné nevytvoˇrili, necháme pole prázdné. Po úspˇeˇsném pˇrihláˇsen´ı jiˇz vid´ıme samotn ý program pro správu (obrázek 4). V horn´ı ˇcásti okna je k dispozici uˇzivatelské menu, pod n´ım nˇekolik uˇziteˇcn ých ikok (zaloˇzen´ı kolekce, vloˇzen´ı XML dokumentu, provádˇen´ı dotaz ˚u atd.). Hlavn´ı ˇcást okna tvoˇr´ı v ýpis obsahu databáze.

(28)

Osobnˇe dávám pˇrednost pouˇz´ıván´ı Java Admin rozhran´ı pro správu databáze pˇred webov ým rozhran´ım. Pomoc´ı nˇeho jsem se k databázovému systému pˇrihlásil jako ad-ministrátor a poté jiˇz nebyl problém v databázi vytvoˇrit kolekci s názvem moje a vloˇzit do n´ı dva existuj´ıc´ı XML dokumenty. Jedn´ım z nich je dokument studium.xml, jehoˇz ob-sah je zobrazen ve v ýpisu 1 a na jenˇz se odkazuji v pr ˚ubˇehu celé této práce. Druh ým je dokument map.xml.

Jak jiˇz bylo ˇreˇceno, jednotlivé dokumenty b ývaj´ı v XML databáz´ıch ˇcasto hierarchicky uspoˇrádány do kolekc´ı (m ˚uˇzeme si pˇredstavit jako sloˇzky soubor ˚u na poˇc´ıtaˇci). Nejinak je tomu u systému eXist. V hlavn´ı ˇcásti okna programu se uˇzivateli vypisuj´ı jak názvy ko-lekc´ı, tak XML dokument ˚u. Poznat rozd´ıl je velice jednoduché. XML dokument narozd´ıl od kolekce obsahuje v názvu pˇr´ıponu .xml. Pokud v oknˇe dvakrát klikneme na název kolekce, logicky do n´ı vstoup´ıme a program vypisuje jej´ı obsah. Pokud vˇsak klikneme na XML dokument, otevˇre se nám nové okno se samotn ým obsahem dokumentu.

Na obrázku 4 lze vidˇet v ýpis obsahu kolekce s názvem moje (obsahuje dva xml sou-bory) a otevˇren ý v ýpis obsahu dokumentu studium.xml. Databáze je tedy plnˇe funkˇcn´ı a obsahuje uˇz i data, nad kter ými bude pozdˇeji moˇzné pomoc´ı vlastn´ı klientské aplikace provádˇet dotazy a vyhodnocovat je.

(29)

5 Popis aplikace

Tato kapitola popisuje klientskou aplikaci v jazyku C#, která byla vytváˇrena soubˇeˇznˇe s touto prac´ı. Má za úkol pˇribl´ıˇzit ˇctenáˇri jednotlivé etapy v ývoje, popsat pˇr´ıstup k API vybrané nativn´ı XML databáze a následné pˇripojen´ı k nˇemu. Dále popisuje, jak aplikace funguje a jak z´ıskaná data z databáze zobrazuje. V posledn´ı ˇcásti kapitoly jsou uvedeny v ýsledky testován´ı vlastn´ıch experimentáln´ıch metod zobrazovan´ı ˇci komprese dat ve srovnan´ı s jiˇz existuj´ıc´ımi zp ˚usoby.

5.1 N ´avrh implementace

Stˇeˇzejn´ım úkolem této bakaláˇrské práce je vytvoˇren´ı klientské aplikace schopné pˇripojen´ı k nativn´ı XML databázi, odeslán´ı uˇzivatelem definovaného dotazu a následného obdrˇzen´ı v ýsledku, kter ý poté aplikace uˇzivateli zobraz´ı odpov´ıdaj´ıc´ım zp ˚usobem. Zárove ˇn vˇsak, jako d´ılˇc´ı úkoly, mi byla zadána implementace vlastn´ı metody zobrazován´ı v ýsledného XML souboru a metody komprese XML dat pˇri pˇrenosu pˇres poˇc´ıtaˇcovou s´ıt’.

K celému problému je nutné pˇristupovat ze dvou pohled ˚u. Za pˇredpokladu, ˇze se ve fináln´ı verzi aplikace bude pˇripojovat k existuj´ıc´ı databázi, zvolené jiˇz v kapitole 4.5, je jasné, ˇze v takové situaci nebude moˇzné pouˇz´ıvat ˇzádné metody komprese pˇri pˇrenosu dat. Nativn´ı XML databáze, které jsem zkoumal, jednoduˇse takové prostˇredky neposky-tuj´ı. Nejinak je tomu u databázového systému eXist. S metodou zobrazen´ı v ýsledn ých dat by takov ý problém nastat nemˇel, jelikoˇz je uˇz záleˇzitost´ı ˇcistˇe klienta, jak bude s pˇrijat ými daty nakládat, resp. jak je bude uˇzivateli zobrazovat. Nab´ız´ı se otázka, jak tedy cel ý v ývoj aplikace smˇeˇrovat? Jedin ým moˇzn ým ˇreˇsen´ım, které mi umoˇzn´ı splnˇen´ı vˇsech zadan ých úkol ˚u, je implementace nˇejaké jednoduché obdoby XML databáze vedle samotného kli-enta. Slovo ”obdoba” bylo pouˇzito zámˇernˇe, protoˇze se zajisté nebude jednat o plnohod-notnou databázi srovnatelnou s existuj´ıc´ımi XML nativn´ımi databázemi. Sp´ıˇse by se mˇelo jednat o jakousi serverovou aplikaci, která bude schopna reagovat na poˇzadavky pˇrijaté pˇres poˇc´ıtaˇcovou s´ıt’ a odpov´ıdat na nˇe.

5.1.1 Vlastn´ı XML datab ´aze, server-klient komunikace

V prvn´ı fázi v ývoje bude vhodné zaˇc´ıt implementac´ı dvou jednoduch ých aplikac´ı - serve-rové a klientské. Serverová ˇcást zde bude plnit úlohu jiˇz zm´ınˇené vlastn´ı XML databáze. Takto vytvoˇrená databáze nemus´ı vyuˇz´ıvat dotazovac´ıch jazyk ˚u. Bude dostateˇcné, kdyˇz bude schopna na poˇzadavek ze strany klienta odeslat konkrétn´ı XML dokument, kter ý ve svém úloˇziˇsti obsahuje. Aby bylo prostˇred´ı pro komunikaci klienta se serverem v ˚ubec moˇzné, je d ˚uleˇzité nejprve zvolit nˇejak ý komunikaˇcn´ı protokol, popˇr. navrhnout sv ˚uj vlastn´ı. A to z toho d ˚uvodu, ˇze komunikace bude prob´ıhat pˇres poˇc´ıtaˇcovou s´ıt’ (lokáln´ı, i pˇres internet). V ýjimkou je samozˇrejmˇe stav, kdy obˇe aplikace, jak klient tak server, bˇeˇz´ı na stejném poˇc´ıtaˇc. Ne vˇzdy tomu ale tak je. Nav´ıc, i v této situaci je potˇreba pouˇzit´ı nˇejakého spoleˇcného komunikaˇcn´ıho protokolu. Definice protokolu (pˇrevzato z [17]) ve smyslu informatiky zn´ı takto: Protokol je v informatice konvence nebo standard, podle kterého prob´ıhá elektronická komunikace a pˇrenos dat mezi dvˇema koncov ými body

(30)

(re-alizované nejˇcastˇeji poˇc´ıtaˇci). V nejjednoduˇsˇs´ı podobˇe protokol definuje pravidla ˇr´ıd´ıc´ı syntaxi, sémantiku a synchronizaci vzájemné komunikace. Protokoly mohou b ýt reali-zovány hardwarovˇe, softwarovˇe a nebo kombinac´ı obou.

Jin ými slovy jde o spoleˇcnou ”ˇreˇc” obou stran. Strana klienta mus´ı vˇedˇet, jak pˇresnˇe poˇzadavek formulovat a v jaké formˇe oˇcekávat odpovˇed’. Naopak strana serveru nutnˇe mus´ı znát strukturu pˇr´ıchoz´ıho poˇzadavku a znát postup pˇri pos´ılán´ı odpovˇedi zpˇet entovi. V mém pˇr´ıpadˇe bude nutné zavést mnoˇzinu zpráv, které se budou pos´ılat od kli-enta na server a naopak. Zprávy ve smyslu napˇr. ”Jsem klient a ted’ pos´ılám poˇzadavek XXX”. Naopak server bude odpov´ıdat napˇr. ”Jsem server, odpovˇed’ na poˇzadavek XXX je YYY”. Takto si komunikaci samozˇrejmˇe jen pˇredstavujeme, reálná implementace m ˚uˇze vypadat jinak. Mnoho r ˚uzn ých standard ˚u komunikace jiˇz existuje, v mém pˇr´ıpadˇe bude zˇrejmˇe nejlepˇs´ım ˇreˇsen´ım návrh vlastn´ıho modelu, kter ý budu vyuˇz´ıvat.

5.1.2 Pouˇzit´ı komprese pˇri pˇrenosu XML dat

Jakmile bude splnˇena prvn´ı fáze implementace - server bude schopen odeslat klientovi XML dokument a ten jej ve stejné formˇe obdrˇz´ı, nic nebude bránit v ýtvoˇren´ı vlastn´ı me-tody komprese pˇri pˇrenosu dat. Server jeˇstˇe pˇred odeslán´ım dat XML dokument nˇejak ým zp ˚usobem zakomprimuje tak, aby byl co nejmenˇs´ı, a teprve poté jej odeˇsle. Na druhé stranˇe klient mus´ı b ýt nutnˇe schopen obdrˇzen ý komprimát opˇet dekomprimovat. Podoba v ýsledného XML dokumentu u klienta mus´ı b ýt shodná s podobou origináln´ıho doku-mentu na stranˇe serveru. Z toho plyne, ˇze server mus´ı implementovat metodu komprese a klient naopak metodu dekomprese.

Je logické, ˇze v ývoj bude podle následuj´ıc´ı koncepce:

1. Implementovat metodu komprese a zakomponovat ji do serverové ˇcásti aplikace. 2. Zvrátit proces komprese, ˇc´ımˇz vznikne metoda dekomprese, zakomponovat ji do

klientsk´e ˇc´asti aplikace.

Pˇri kompres´ıch se obecnˇe snaˇz´ıme vyuˇz´ıt toho, ˇze se nˇejaké ˇcásti text ˚u (soubor ˚u) opa-kuj´ı. Jiˇz z povahy struktury XML dokument ˚u vypl ývá, ˇze se v nich jistˇe budou opakovat názvy element ˚u i atribut ˚u. V praxi tak tomu opravdu je, pˇredevˇs´ım u datovˇe oriento-van ých dokument ˚u, nejen vˇsak u nich. Jeden tent ýˇz element se ˇcasto v rámci dokumentu opakuje mnohokrát. O co se budeme snaˇzit, je nahrazen´ı vˇsech názv ˚u element ˚u a atribut ˚u za názvy jiné, co moˇzná nejkratˇs´ı. Pˇritom si vˇzdy nˇekam poznamenáme, jaké ˇretˇezce jsme vymˇenili za jaké, aby bylo moˇzné cel ý proces obrátit. Princip komprese tedy spoˇc´ıvá ve slovn´ıkovém nahrazovan´ı jmen element ˚u a atribut ˚u v XML dokumentech.

Jako prvn´ı bylo navrˇzeno nahrazován´ı názv ˚u za postupnˇe nar ˚ustaj´ıc´ı celoˇc´ıselné hod-noty. Syntaxe jazyka XML vˇsak standardnˇe neumoˇz ˇnuje, aby jména element ˚u zaˇc´ınala ˇc´ıslic´ı. K tomuto faktu zˇrejmˇe budume muset pˇrihlédnout a hledat jiné ˇreˇsen´ı, napˇr. ˇretˇezcové hodnoty (obsahuj´ıc´ı p´ısmena), které jiˇz jsou v syntaxi povoleny.

Jelikoˇz se bude jednat ˇcistˇe o experimentáln´ı metodu komprimace, je nutné ji po do-konˇcen´ı otestovat. Pˇri tomto testován´ı mi bylo doporuˇceno v ýsledky srovnat s existuj´ıc´ım

(31)

nástrojem pro komprimaci XML soubor ˚u s názvem XMill [6]. Tento projekt, kter ý byl vy-vinut firmou AT&T Labs Research v americkém mˇestˇe New Jersey v roce 1999, je zdarma k dispozici na internetov ých stránkách http://www.liefke.com/hartmut/xmill/xmill.html. Jedná se o jeden z nejefektivnˇejˇs´ıch algoritm ˚u komprese pro XML data, ba dokonce moˇzná i nejv ýkonˇejˇs´ı. Je implementován v jazyce C++ a vyuˇz´ıvá pˇredevˇs´ım seskupován´ı ˇretˇezc ˚u v souborech XML s urˇcit ými podobnostmi. Dosahuje lepˇs´ıch v ýsledk ˚u neˇz renomované kompresn´ı nástroje, jako napˇr. WinZip, WinRar i gzip. Pro pˇredstavu v ýkonosti XMill komprese je na obrázku 5 srovnán´ı s programem gzip. Obrázek obsahuje v ýsledky nˇekolika zp ˚usob ˚u komprese XMill a dvou zp ˚usob ˚u komprese gzip.

Obrázek 5: Srovnán´ı v ýkonu komprese XMill a gzip, podle [6]

Nepˇredpokládám, ˇze bych svoj´ı metodou komprese pˇrekonal nástroj XMill, nicménˇe to do v ývoje pˇridává jistou v ýzvu. Grafické porovnán´ı v ýsledk ˚u dosaˇzen ých vlastn´ı me-todou komprese s v ýsledky komprese XMill jsou uvedeny v kapitole 5.4.1.

5.1.3 Zobrazen´ı XML dat

Dalˇs´ım d´ılˇc´ım úkolem mé práce je implementace komponenty pro zobrazen´ı XML do-kumentu a jej´ı následné zapojen´ı do grafického rozhran´ı klienta. Jako jakási pˇredloha pˇri tvorbˇe m ˚uˇze b ýt pouˇzita komponenta s názvem WebBrowser, jenˇz je v implementaˇcn´ım prostˇred´ı .NET k dispozici. Jedná se o obdobu programu MS Internet Explorer. Na obrázku 6 je podoba XML dokumentu studium.xml (v ýpis 1) tak, jak ji zobraz´ı WebBrowser.

Na zp ˚usobu zobrazen´ı XML dokumentu pomoc´ı komponenty WebBrowser jsou d ˚uleˇzit´e pˇredevˇs´ım dvˇe skuteˇcnosti.

Zaprvé WebBrowser zv ýraz ˇnuje syntaxi jazyka XML pouˇzit´ım barev a stylu p´ısma (tuˇcné). Vid´ıme, ˇze úvodn´ı deklarace je obarvena modrou barvou. Uzav´ırac´ı znaˇcky ele-ment ˚u (<, > a />) spolu se znaky = a ” jsou taktéˇz zobrazené v modré barvˇe. Názvy

(32)

Obr´azek 6: Zobrazen´ı XML dokumentu pomoc´ı WebBrowser komponenty

element ˚u a atribut ˚u jsou tmavˇe ˇcervené a nakonec textové hodnoty element ˚u i atribut ˚u jsou vypsány tuˇcn ým ˇcern ým p´ısmem.

Zadruhé u element ˚u, které obsahuj´ı nˇejaké vnoˇrené prvky, se vlevo zobrazuje mal ý symbol -. Pokud na tento symbol klikneme, dojde k zabalen´ı elementu, tzn. jeho vnoˇrené elementy (jeho potomci) jsou skryti. Symbol - se poté automaticky zmˇen´ı na +, kter ým lze element opˇet rozbalit.

WebBrowser na prvn´ı pohled funguje velmi slibnˇe. Nicménˇe po hlubˇs´ım prozkoumán´ı bylo zjiˇstˇeno, ˇze pˇri zobrazován´ı velk ých XML dokoment ˚u (1 Mb a v´ıce) doba zobrazen´ı rapidnˇe nar ˚ustá. Pˇri implementaci vlastn´ı komponenty se pokus´ıme tomuto problému pˇredej´ıt.

Máme za úkol implementovat komponentu, která by mˇela obsahovat stejné funkce jako WebBrowser, tzn. jak zv ýraznˇen´ı syntaxe XML jazyka, tak moˇznost zabalován´ı a rozbalován´ı element ˚u ve stromové struktuˇre. Vlastnost´ı nav´ıc by mˇela b ýt také schopnost vyhledáván´ı textu v dokumentu zobrazeném touto komponentou. Pokud je text nalezen, komponenta jej zv ýrazn´ı, napˇr. podbarven´ım textu.

Z vlastn´ıch zkuˇsenost´ı jiˇz v´ım, ˇze pokud chceme v prostˇred´ı .NET pouˇz´ıvat barevné v ýpisy textu, slouˇz´ı nám k tomu existuj´ıc´ı kompenenta RichTextBox. Jedná se o nadstavbu klasické komponenty TextBox, která je velmi hojnˇe pouˇz´ıvaná i v jin ých implementaˇcn´ıch prostˇred´ıch. Pˇredpokládejme tedy, ˇze architektura mé zobrazovac´ı komponenty bude následuj´ıc´ı:

• bude dˇedit vlastnosti existuj´ıc´ı komponenty RichTextBox (schopnost zobrazovat barevn ´y text)

(33)

• nav´ıc bude implementovat moˇznost zabalován´ı a rozbalován´ı stromové struktury Nˇekolikrát jiˇz byl zm´ınˇen pojem RichTextBox. Jak ý je vˇsak rozd´ıl mezi komponentami TextBox a RichTextBox? Základn´ı odliˇsnost je ta, ˇze TextBox neposkytuje zobrazován´ı barevného textu. Kdeˇzto komponenta RichTextBox, jak uˇz ostatnˇe nese ve svém názvu, umoˇz ˇnuje pˇriˇrazen´ı speciálnˇe formátovaného textu, tzv. RichText Formátu.

RTF [16] je firmou Microsoft vyvinut ý formát textu, kter ý obsahuje bohatou mnoˇzinu formátovac´ıch pˇr´ıkaz ˚u, kter ý je nezávisl ý na platformˇe. Vznikl jiˇz v roce 1987. Pomoc´ı tohoto formátu je obecnˇe moˇzné vymˇe ˇnovat dokumenty mezi nejr ˚uznˇejˇs´ımi programy pro zpracován´ı textu se zachován´ım vzhledu a formátu. Na rozd´ıl od vˇetˇsiny vlastn´ıch formát ˚u soubor ˚u textov ých editor ˚u je RTF ˇciteln ý i v prosté textové podobˇe, tedy jeho obsah vypadá jako zvláˇstn´ı text ASCII, nikoliv jako zmˇet’ nesmysln ých znak ˚u.

Pomoc´ı správnˇe definovaného ˇretˇezce textu ve formátu RTF tedy budeme schopni komponentˇe RichTextBox ˇr´ıci, kdy má jakou barvou kter ý text vypsat.

Co se t ýˇce implementace funkce zabalován´ı a rozbalován´ı element ˚u ve vypsaném XML dokumentu, je nutné chápat zobrazen ý dokument sp´ıˇse jako jednotlivé ˇrádky textu. Samotné znaky - a + bude rozumnˇejˇs´ı vykreslovat nalevo od vypsaného textu (mimo plochu s vlastn´ım textem), neˇz pˇr´ımo do textu, jak je tomu u WebBrowseru. Problém bude pravdˇepodobnˇe rozloˇzen do tˇr´ı hlavn´ıch úkol ˚u:

1. Urˇcit, ke kter ým ˇrádk ˚um (ˇrádky, které obsahuj´ı otev´ırac´ı tagy element ˚u) znak - nebo + vykreslit.

2. Správnˇe (ve smyslu horizontáln´ı pozice) pˇriˇradit vykreslené symboly - nebo + k ˇrádk ˚um textu a zajistit jejich odpov´ıdaj´ıc´ı posun zárove ˇn s posunem textu.

3. Po zabalen´ı elementu zobrazovan ´y text pˇrekreslit tak, aby vnoˇren´e prvky elementu nebyly vidˇet a naopak.

Podle prvotn´ı anal ýzy bude zˇrejmˇe nutné cel ý XML dokument, kter ý má b ýt kompo-nentou zobrazen, rozdˇelit na jednotlivé ˇrádky a s tˇemi poté pracovat. Pokud bychom totiˇz toto neprovedli, museli bychom pravdˇepodobnˇe pˇri manipulaci s kter ýmkoli ˇrádkem (pˇri operaci zabalován´ı a rozbalován´ı, tzn. skr ýván´ı a odkr ýván´ı) vˇzdy procházet cel ý text od zaˇcátku aˇz po námi poˇzadovan ý ˇrádek. Struktura a zp ˚usob uchováván´ı jednotliv ých ˇrádk ˚u textu v pamˇeti bude vyˇreˇsena aˇz v rámci implementace.

5.2 Zvolen ´e rozhran´ı k datab ´azi eXist

Nativn´ı XML databázov ý systém eXist nab´ız´ı programátor ˚um celou ˇradu rozhran´ı API, pomoc´ı kter ých lze k systému pˇristupovat (XML:DB API, XML-RPC, REST, SOAP). Vˇsechna jsou velmi dobˇre zdokumentována v programátorské pˇr´ıruˇcce [13]. My k databázi potˇrebujeme pˇristupovat zp ˚usobem, kter ý bude nezávisl ý na tom, zda je klient spuˇstˇen na stejném poˇc´ıtaˇci jako databáze, anebo komunikuje ze vzdálené stanice pˇres poˇc´ıtaˇcovou s´ıt’. Tento a také fakt, ˇze aplikace bude implementována v odliˇsném programovac´ım jazyce neˇz na-tivn´ı XML databáze, nás vede k potˇrebˇe nˇejakého univerzáln´ıho rozhran´ı, které je mimo