Compression of XML Files

Full text

(1)ˇ – Technicka´ univerzita Ostrava VSB Fakulta elektrotechniky a informatiky Katedra informatiky. Komprese XML souboru˚ Compression of XML Files. 2010. Pavel Hruˇska.

(2) Souhlas´ım se zveˇrejnˇen´ım této diplomové práce dle poˇzadavku˚ cˇ l. 26, odst. 9 Studijn´ıho ˇ a zkuˇsebn´ıho rˇa´ du pro studium v magisterských programech VSB-TU Ostrava.. V Ostravˇe 7. kvˇetna 2010. .............................. Prohlaˇsuji, zˇ e jsem tuto diplomovou práci vypracoval samostatnˇe. Uvedl jsem vˇsechny literárn´ı prameny a publikace, ze kterych ´ jsem cˇ erpal.. V Ostravˇe 7. kvˇetna 2010. ..............................

(3) Dˇekuji vˇsem, kteˇr´ı mi pomáhali bˇehem pˇr´ıprav této diplomové práce, pˇredevˇs´ım vedouc´ımu práce Ing.Janu Martinoviˇcovi, Ph.D. za jeho ochotu, trpˇelivost a cenné rady..

(4) Abstrakt Práce s XML soubory je dnes cˇ ´ım dál t´ım v´ıce cˇ astˇejˇs´ı. Existuj´ı také XML dokumenty, které obsahuj´ı velké mnoˇzstv´ı dat. Tato diplomová práce popisuje existuj´ıc´ı algoritmy ˚ pouˇz´ıvané ke kompresi XML dokumentu˚ a také popisuje nˇekteré nové zpusoby, jak stávaj´ıc´ı pˇr´ıstupy vylepˇsit. Zamˇerˇ uje se na nˇekolik populárn´ıch kompresn´ıch algoritmu˚ a jejich pouˇzit´ı jak pˇri kompresi XML jako textu, tak i pˇri kompresi XML s vyuˇzit´ım sémantickych ´ informac´ı dostupnych ´ v XML dokumentech. Dále popisuje rozˇs´ırˇ en´ı tˇechto metod o optimalizaci XML pomoc´ı shlukován´ı. Na základˇe provedenych ´ testu˚ jsou porovnány efektivnosti jednotlivych ´ algoritmu˚ a vysloven závˇer, zda lze rozˇs´ırˇ en´ım stávaj´ıc´ıch metod komprese XML dokumentu˚ dosáhnout lepˇs´ıch vysledk u˚ komprese. ´ ˇ a´ slova: komprese, komprese textu, XML, shlukován´ı dokumentu, ˚ analyza Kl´ıcov ´ XML.. Abstract Working with XML files is now becoming more frequent. There are XML documents containing large amount of data. This thesis deals with existing algorithms used for XML compression and some new ways of improving current approaches. This thesis focuses on some popular text compression algorithms and their application either in standard text file compression or in XML compression through semantic information that is present in XML documents. The thesis also describes extending the methods with XML optimization through agglomerative clustering. Various compression methods are compared on the basis of testing in order to find out whether XML compression methods extension can achieve better results. Keywords: Compression, Text Compression, XML, Documents Clustering, Parsing XML..

(5) 1. Obsah 1. ´ Uvod 1.1 Struktura práce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4 4. 2. XML 2.1 Charakteristika XML 2.2 Vyhody XML . . . . ´ 2.3 Nevyhody XML . . . ´ 2.4 Zpracován´ı XML . . 2.5 Analyza ´ XML . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. 6 6 6 7 7 9. Komprese XML 3.1 Principy komprese . . . . . . . . . . . . . 3.2 Komprese XML jako textu . . . . . . . . . 3.3 XML-Aware komprese . . . . . . . . . . . 3.4 Komprese XML s podporou dotazován´ı . 3.5 Komprese XML bez podpory dotazován´ı. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. 11 11 12 16 17 20. 4. XMill 4.1 Architektura XMill . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ´ 4.2 Pˇr´ıklad kodov´ an´ı ukázkového XML . . . . . . . . . . . . . . . . . . . . . . 4.3 Datovy´ formát XMill . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 25 26 28 30. 5. SharpXMill 5.1 Návrh architektury SharpXMill . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Podporované kompresn´ı metody . . . . . . . . . . . . . . . . . . . . . . . . 5.3 SXMill – rozˇs´ırˇ en´ı funkcionality XMill . . . . . . . . . . . . . . . . . . . . .. 34 34 36 36. 6. Testován´ı 6.1 Parametry testován´ı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Vysledky testován´ı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ´. 38 38 40. 7. Závˇer. 50. 8. Reference. 51. 3. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . ..

(6) 2. Seznam tabulek 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24. Pˇrehled sémantickych ´ kompresoru˚ nástroje XPRESS . . . . . . Standardn´ı sémantické kompresory XMill . . . . . . . . . . . . Kombinované kompresory XMill . . . . . . . . . . . . . . . . . XMill – pˇrehled cˇ a´ st´ı ukázkového fragmentu XML . . . . . . . XMill – pˇr´ıklad naplnˇen´ı slovn´ıku . . . . . . . . . . . . . . . . XMill – pˇr´ıklad datovych ´ kontejneru˚ . . . . . . . . . . . . . . . XMill – Pˇr´ıklad obsahu kontejneru struktury . . . . . . . . . . XMill – uloˇzen´ı cˇ ´ısel bez znaménka (uint32) . . . . . . . . . . . XMill – uloˇzen´ı cˇ ´ısel se znaménkem (sint32) . . . . . . . . . . . XMill – formát souboru XMI . . . . . . . . . . . . . . . . . . . . XMill – pˇr´ıkazy kontejneru struktury . . . . . . . . . . . . . . . Sada testovac´ıch XML souboru˚ . . . . . . . . . . . . . . . . . . Testovac´ı soubory XML pˇred a po normalizaci . . . . . . . . . Parametry komprese bˇezˇ nymi programy . . . . . . . . . . . . ´ Parametry komprese SXMill . . . . . . . . . . . . . . . . . . . . Notace pouˇzitá pˇri prezentaci vysledk u˚ experimentu˚ . . . . . ´ Absolutn´ı vysledky komprese bˇezˇ nymi nástroji . . . . . . . . . ´ ´ Kompresn´ı pomˇery pˇri pouˇzit´ı bˇezˇ nych ´ nástroju˚ . . . . . . . . Srovnán´ı XMill a bˇezˇ né komprese . . . . . . . . . . . . . . . . . ˇ Casov´ a nároˇcnost XMill komprese se shlukován´ım kontejneru˚ XMill komprese se shlukován´ım kontejneru˚ . . . . . . . . . . . Parametry shlukován´ı celych ´ XML souboru˚ . . . . . . . . . . . Komprese shlukovanych nástroji . . . ´ XML souboru˚ bˇezˇ nymi ´ Komprese shlukovanych ´ XML souboru˚ pomoc´ı XMill . . . . .. . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . .. 19 26 26 28 30 31 31 32 32 33 33 39 39 40 40 41 43 43 44 46 46 47 49 49.

(7) 3. ´ u˚ Seznam obrazk 1 2 3 4 5 6 7 8 9 10 11 12 13. Obecny´ model zpracován´ı XML . . . . . . . . . . . . . . . . . . . . . . . . . Pˇr´ıklad XML s nejasnˇe analyzovatelnou strukturou . . . . . . . . . . . . . Pˇr´ıklad DTD [13] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Pˇr´ıklad XML pro kompresi pomoc´ı DTD [13] . . . . . . . . . . . . . . . . . Model architektury XMill [14] . . . . . . . . . . . . . . . . . . . . . . . . . . XMill – ukázkovy´ fragment XML pro pˇr´ıklad zpracován´ı dat . . . . . . . . Architektura SharpXMill . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kompresn´ı pomˇery bˇezˇ nych ´ nástroju˚ . . . . . . . . . . . . . . . . . . . . . . ˚ ci bˇezˇ né kompresi . . . . . . . . . . Srovnán´ı vysledk u˚ XMill komprese vuˇ ´ Zlepˇsen´ı komprese v závislosti na velikosti pamˇet’ového okna . . . . . . . XMill komprese se shlukován´ım kontejneru˚ . . . . . . . . . . . . . . . . . . Srovnán´ı bˇezˇ né komprese po proveden´ı shlukovan´ı celych ´ XML souboru˚ Srovnán´ı XMill komprese po proveden´ı shlukovan´ı celych ´ XML souboru˚ .. 8 9 23 24 27 29 35 42 42 45 47 48 48.

(8) 4. 1. ´ Uvod. XML [29] je v dneˇsn´ı dobˇe velmi rozˇs´ırˇ eny´ jazyk pro ukládán´ı a vymˇ ´ enu dat. Pˇres své ne´ sporné vyhody, kter´ e pramen´ ı pˇ r edevˇ s ı m z jeho univerz´ a lnosti a také z textové podoby ´ jeho datového formátu (dobˇre cˇ itelného pro cˇ lovˇeka), má i nˇekteré nevyhody. Mezi hlavn´ı ´ patˇr´ı pˇredevˇs´ım nutnost analyzy ´ XML dat pˇred jejich pouˇzit´ım. Pokud jej srovnáme s nativn´ımi binárn´ımi formáty, jedná se také o relativnˇe vyˇ ´ reˇcny´ jazyk, ktery´ klade vˇetˇs´ı nároky na prostor nutny´ k uloˇzen´ı reprezentovanych ´ dat. V této práci struˇcnˇe charakterizujeme XML a zabyv´ ´ ame se také problematikou spojenou s jeho analyzou. ´ Problém vyˇ ´ reˇcnosti XML lze rˇ eˇsit pomoc´ı komprese dat. Jelikoˇz se na XML dá d´ıvat ˚ e poˇzadavky, je z v´ıce pohledu˚ a i na samotnou kompresi XML se mohou klást ruzn´ ˚ moˇzné také k problematice komprese XML pˇristupovat v´ıce zpusoby. Jelikoˇz je XML v podstatˇe textovy´ dokument, je pˇrirozená myˇslenka komprimovat jej bˇezˇ nými kompresn´ımi nástroji, které dennˇe pouˇz´ıváme pro kompresi jinych ´ nejen textovych ´ dokumentu˚ a ˚ Tyto nástroje vyuˇz´ıvaj´ı osvˇedˇcené kompresn´ı algoritmy, které jsou d´ıky obecnˇe souboru. bohaté historii prakticky ovˇerˇ ené a velmi cˇ asto vyuˇz´ıvané jako spolehlivé prostˇredky ke kompresi dat. Jejich pouˇzit´ı je tedy velmi snadné a vysledky se dostavuj´ı okamˇzitˇe. ´ V této práci testujeme kompresi XML souboru˚ pomoc´ı algoritmu˚ Deflate, BZip2, PPMdI a LZMA. Kompresi XML lze rˇ eˇsit i specializovanymi nástroji, ty se nazyvaj´ ´ ´ ı XML-aware kompre˚ které jsme shromázˇ dili studiem sory. V této práci uvád´ıme pˇrehled nástroju˚ a algoritmu, odbornych ´ cˇ lánku˚ a internetovych ´ zdroju˚ vˇenuj´ıc´ıch se XML kompresi. Dále se podrobnˇeji vˇenujeme nástroji XMill. Popisujeme zde v´ıce detailnˇeji jeho princip komprese, datovy´ formát a dalˇs´ı informace. S t´ımto nástrojem pak dále pracujeme, pˇredevˇs´ım s naˇs´ı vlastn´ı implementac´ı v prostˇred´ı .NET Framework (v jazyce C#). XMill jsme si zvolili pˇredevˇs´ım proto, zˇ e se jedná o velmi populárn´ıho zástupce XML-aware komprese, ktery´ velmi cˇ asto slouˇz´ı jako etalon pˇri srovnán´ı odliˇsnych ´ pˇr´ıstupu˚ komprese XML. Nav´ıc je velmi dobˇre zdokumentován. Po detailn´ım popisu XMill dále popisujeme naˇs´ı implementaci tohoto nástroje, kterym ´ je SXMill (SharpXMill). Zamˇerˇ ujeme se pˇredevˇs´ım na základn´ı architekturu navrˇzeného ˚ systému a na jeho odliˇsnosti oproti puvodn´ ımu XMill. Dále se vˇenujeme problematice shlukován´ı dat, pˇredevˇs´ım vyuˇzit´ı této metody ve spojen´ı s kompres´ı XML. Konkrétnˇe jsme shlukován´ı dat vyuˇzili k optimalizaci XML a experimentovali jsme, zda nepovede k dosaˇzen´ı lepˇs´ıch vysledk u˚ komprese. Vyzkouˇseli ´ jsme dvˇe moˇzné cesty optimalizace — shlukován´ı dat v kontejnerech bˇehem XMill komprese a shlukován´ı celých XML souboru. ˚ V závˇeru práce pak vyhodnocujeme provedené experimenty. Testovali jsme bˇezˇ né metody komprese dat i navrˇzené optimalizace. Veˇskeré vysledky srovnáváme v kontextu ´ ˚ jednotlivych ´ metod komprese a nástroju.. 1.1. ´ Struktura prace. Charakteristikou XML a jeho vyhodami a nevyhodami se zabyv´ ´ ´ ´ ame v sekci 2. V sekci ˚ zpra2.4 se vˇenujeme problematice zpracován´ı XML a nejˇcastˇeji pouˇz´ıvanym ´ modelum.

(9) 5. cován´ı XML — XML DOM a SAX. Kompresi XML je vˇenována sekce 3, konkrétnˇe v sekci 3.2 popisujeme kompresi XML jako textu (vˇcetnˇe popisu jednotlivych metod kompre´ se) a v sekc´ıch 3.3, 3.4 a 3.5 se zamˇerˇ ujeme na kompresi specializovanymi (XML-aware) ´ nástroji, kde postupnˇe rozeb´ıráme kompresi XML s podporou dotazovan´ı a následnˇe bez podpory dotazován´ı. Sekce 4 se podrobnˇe vˇenuje nástroji XMill, ktery´ je typickym ´ pˇredstavitelem kategorie XML-aware komprese bez podpory dotazován´ı. V sekci 4.1 popisujeme jeho architekturu, v sekci 4.2 uvád´ıme na jednoduchém pˇr´ıkladu j´ım pouˇz´ıvany´ princip oddˇelen´ı struktury od dat a v sekci 4.3 popisujeme datovy´ formát tohoto nástroje. Sekce 5 popisuje námi implementovany´ nástroj SXMill (SharpXMill). Jeho architektura je popsána v sekci 5.1, podporované kompresn´ı metody pak v sekci 5.2 a popis ˚ rozˇs´ırˇ en´ı oproti puvodn´ ımu XMill je uveden v sekci 5.3. ˚ V sekci 6.2.1 jsou Sekce 6 se vˇenuje prezentaci vysledk u˚ provedenych ´ ´ experimentu. k dispozici vysledky komprese XML souboru˚ jako textu (bˇezˇ ná komprese), v sekci 6.2.2 ´ uvád´ıme vysledky komprese pomoc´ı nástroje XMill. Sekce 6.2.3 se zabyv´ ´ ´ a otázkou, jak ’ ˇ ´ esˇ nost komprese pˇri pouˇzit´ı u nástroje XMill ovlivnuje velikost pamˇet ového okna jeho uspˇ jednotlivych ´ kompresn´ıch metod. Sekce 6.2.4 se vˇenuje kompresi XML pomoc´ı nástroje XMill s optimalizac´ı kontejneru˚ vyuˇz´ıvaj´ıc´ı shlukován´ı. V sekci 6.2.5 ukazujeme vysledky ´ ˚ komprese XML bˇezˇ nou kompres´ı po proveden´ı shlukován´ı celych ´ XML souboru. V sekci 7 shrnujeme vysledky experimentu˚ a vyslovujeme závˇer, zda je moˇzné pomoc´ı ´ ˚ shlukován´ı vylepˇsit stávaj´ıc´ı metody komprese XML souboru..

(10) 6. 2. XML. XML (eXtensible Markup Language, cˇ esky rozˇsiˇritelny´ znaˇckovac´ı jazyk) je obecny, ´ otevrˇ eny´ znaˇckovac´ı jazyk, standardizovany´ konsorciem W3C. Vznik tohoto jazyka se datuje do roku 1998, kdy byla standardizována verze 1.0. XML je zaloˇzen na obecném metajazyku SGML, pˇresnˇeji rˇ eˇceno tvoˇr´ı jeho podmnoˇzinu. Ve srovnán´ı s SGML je jednoduˇssˇ´ı, snadnˇeji se analyzuje 1 [29, 32].. 2.1. Charakteristika XML. ˇ XML je obecny´ jazyk, ktery´ umoˇznuje definovat vlastn´ı jazyky — pˇredstavuje sadu pravi˚ V dneˇsn´ı dobˇe se vyuˇz´ıvá pˇredevˇs´ım del, které se pouˇz´ıvaj´ı k definici konkrétn´ıch jazyku. jako prostˇredek pro vymˇ ´ enu dat v prostˇred´ı internetu, napˇr. u rˇ eˇsen´ı B2B2 [5] apod. D´ıky ˚ u kterych své univerzálnosti mu dávaj´ı vyvoj´ ´ arˇ i pˇrednost u systému, ´ nen´ı v dobˇe návrhu pˇredem jasné, s jakymi dalˇs´ımi systémy bude nutné komunikovat. XML nacház´ı uplat´ ´ ziˇstˇe, velmi populárn´ı jsou v dneˇsn´ı dobˇe také na nˇen´ı také jako univerzáln´ı datové uloˇ XML zaloˇzené konfiguraˇcn´ı soubory. ˚ kde znakem se rozum´ı libovolny´ UniXML dokument je tvoˇren posloupnost´ı znaku, code znak. XML je tedy ve své podstatˇe textovy´ dokument. V XML dokumentu se rozliˇsuj´ı dva základn´ı elementy — znaˇcky a obsah. Znaˇcky jsou uvozeny znakem <“ (menˇs´ı) a ” konˇc´ı >“ (vˇetˇs´ı), nebo zaˇc´ınaj´ı znakem &“ (ampersand) a konˇc´ı znakem ;“ (stˇredn´ık). ” ” ” Vˇse ostatn´ı, co nen´ı znaˇcka, je obsah [29]. XML je strukturovany´ jazyk, jeho struktura se tvoˇr´ı vzájemnym ´ vnoˇrován´ım znaˇcek. ˇ Jako kaˇzdy´ jazyk, má i XML svou syntaxi. Kaˇzdy´ XML soubor mus´ı splnovat minimálnˇe pravidla well-formed XML3 zápisu. Well-formed XML nedovoluje napˇr´ıklad pouˇzit´ı pˇrekˇr´ızˇ enych ´ znaˇcek [29]. Na jazyku XML jsou postaveny nˇekteré dalˇs´ı jazyky. Jedná se napˇr´ıklad o RSS [34] a Atom [20] (syndikace obsahu), SOAP [36] (vymˇ ´ ena zpráv), XML-RPC (vzdálené volán´ı procedur) [40] cˇ i XHTML [37] (rozˇsiˇritelny´ hypertextovy´ znaˇckovac´ı jazyk). Mnoho aplikac´ı zaˇc´ıná vyuˇz´ıvat XML také jako základn´ı datovy´ formát, napˇr´ıklad jako populárn´ı kancelárˇ ské bal´ıky Microsoft Office (formát Open XML) [31] a OpenOffice.org (formát OpenDocument) [3].. 2.2. Vyhody ´ XML. Jak jiˇz bylo rˇ eˇceno, XML je velmi rozˇs´ırˇ enym ´ a hojnˇe pouˇz´ıvanym ´ jazykem v praxi. Jeho velké rozˇs´ırˇ en´ı pramen´ı z nespornych kterymi tento jazyk disponuje. Pˇredevˇs´ım ´ vyhod, ´ ´ se jedná o univerzáln´ı jazyk, do kterého je moˇzné serializovat4 a zpˇetnˇe z nˇej deserializovat5 libovolná data. D´ıky tomu se velmi cˇ asto pouˇz´ıvá jako prostˇredn´ık u vzájemné ko1. Z anglického parse. Business-to-Business 3 ˚ Syntaktická pravidla pro zápis XML dokumentu. 4 ˚ které reprezentuj´ı stav nˇejaké informace. Vytvoˇren´ı proudu symbolu, 5 Reverzn´ı operace k operaci serializace. 2.

(11) 7. ˚ ymi munikace mezi ruzn ´ systémy, které vnitˇrnˇe vyuˇz´ıvaj´ı odliˇsné formáty, ale pro vymˇ ´ enu ˚ dat pouˇz´ıvaj´ı univerzáln´ı XML. T´ım odpadá nutnost vytvárˇ et specifické pˇrevodn´ı mustky pro kaˇzdy´ novy´ partnersky´ systém, se kterym ´ je potˇreba komunikovat, pˇri jejichˇz tvorbˇe se dopodrobna mus´ıme seznámit s formátem druhé strany. Nam´ısto toho se definuje ˚ ze komunikovat jakykoliv pouze XML rozhran´ı, se kterym systém, aniˇz by znal ´ pak muˇ ´ vnitˇrn´ı strukturu dat daného systému. Textovy´ formát je v neposledn´ı rˇ adˇe také dobˇre cˇ itelny´ pro cˇ lovˇeka.. 2.3. Nevyhody ´ XML. Zm´ınˇené vyhody XML pˇrinásˇ ej´ı na druhou stranu i jeho nevyhody. Mezi hlavn´ı nevyho´ ´ ´ du XML patˇr´ı pˇredevˇs´ım jeho vyˇ ´ reˇcnost. Vyˇ ´ reˇcnost vede v porovnán´ı s konkrétn´ımi ˚ Pokud s XML datovymi formáty k mnohem vˇetˇs´ı datové nároˇcnosti XML dokumentu. ´ ˚ ze chceme pracovat, je také nutné nejdˇr´ıve jej analyzovat (anglicky parse XML), coˇz muˇ pˇredevˇs´ım pˇri zpracován´ı rozsáhlejˇs´ıch XML znamenat vyznamnou zátˇezˇ pro vypoˇ ´ ´ cetn´ı vykon systému [19]. ´ Tyto nevyhody jsou obecnˇe známé, proto vznikl napˇr´ıklad XML Binary. Jedná se o ´ standardizovany´ formát, ktery´ se neshoduje se specifikac´ı XML, ale pouze si zachovává ˚ ˚ ze jisty´ vztah s puvodn´ ım XML [39]. XML Binary tak lze pouˇz´ıt u aplikac´ı, u kterych ´ muˇ byt ´ vyˇ ´ reˇcnost bˇezˇ ného XML problém, ale existuje u nich poˇzadavek na vyuˇzit´ı standardizovaného formátu vymˇ ´ eny dat.. 2.4. ´ ı XML Zpracovan´. ˚ datovym ´ ziˇstˇem jsou pak tyXML data jsou pˇredstavována séri´ı Unicode symbolu, ´ uloˇ picky textové soubory. Pˇri práci proto mus´ı bˇezˇ né aplikace tuto lineárn´ı strukturu zpracovat — analyzovat — a identifikovat v n´ı jednotlivé prvky struktury a samotnych ´ dat. ´ Samozˇrejmˇe je nutné m´ıt k dispozici i inverzn´ı operaci, tedy vytvoˇren´ı a upravu wellformed XML reprezentuj´ıc´ıho danou strukturu a obsahuj´ıc´ıho poˇzadovaná data. Existuje nˇekolik modelu˚ zpracován´ı XML, dva nejˇcastˇeji pouˇz´ıvané SAX (Simple Api for XML) [35] a XML DOM (XML Document Object Model) [28] struˇcnˇe pˇredstav´ıme v dalˇs´ı ˚ zitou cˇ a´ st´ı analýza XML, protoˇze právˇe ona cˇ a´ sti textu. U zpracován´ı XML je velmi duleˇ ˚ ze m´ıt zásadn´ı vliv na chován´ı c´ılové aplikace. Problematice analyzy muˇ ´ XML se vˇenujeme v následuj´ıc´ım textu této kapitoly. ˚ Obecny´ model zpracován´ı XML dat popisuje zpusob cˇ ten´ı a zápisu XML dat ve vztahu ke klientské aplikaci. Jeden z modelu˚ je znázornˇen na obrázku 1. Obrázek ukazuje ´ na nejvyˇssˇ´ı urovni klientskou aplikaci, která cˇ te, popˇr. mˇen´ı XML data. Niˇzsˇ´ı vrstvy ˇ ı tuto aplikaci od operac´ı spojenych pak odstinuj´ ´ s vlastn´ım zpracován´ım XML dat. D´ıky ˚ ze aplikace pˇristupovat k XML na vyˇssˇ´ı, abstraktnˇejˇs´ı urovni. ´ tomuto modelu muˇ Pod klientskou aplikac´ı jsou v modelu znázornˇeny vrstvy XML Core (ta obsahuje funkce pro zpracován´ı XML dat dle konkrétn´ıch poˇzadavku˚ implementace cˇ i prostˇred´ı) a dvojice komponent XML Writer a XML Parser (ty slouˇz´ı ke cˇ ten´ı a zápisu XML)..

(12) 8. Klientská aplikace. SAX. DOM. XML Model. XML Core. XML Writer. XML Parser. Obrázek 1: Obecny´ model zpracován´ı XML 2.4.1. XML DOM (XML Document Object Model). XML DOM (XML Document Object Model) vycház´ı z obecné definice DOM (Document ˇ Object Model), coˇz je jazykovˇe a platformˇe neutráln´ı rozhran´ı, které umoˇznuje progra˚ a skriptum ˚ dynamicky pˇristupovat a aktualizovat obsah, strukturu a styl dokumum mentu˚ [28]. ˚ KoˇrenoXML DOM nahl´ızˇ ´ı na XML jako na strom, ktery´ se skládá z jednotlivych ´ uzlu. ´ ˚ ze obsahovat uzly podˇr´ızené. Rekurzivnˇe vym a ten muˇ ´ uzlem je uzel na nejvyˇssˇ´ı urovni tato vlastnost plat´ı i pro podˇr´ızené uzly, tedy podˇr´ızené prvky mohou obsahovat sobˇe podˇr´ızené prvky a tak dále. Bˇehem analyzy ´ vstupn´ıch dat se v pamˇeti postupnˇe vytvoˇr´ı jim odpov´ıdaj´ıc´ı strom. ´ Upravy pak prob´ıhaj´ı v pamˇeti a cely´ strom nebo jeho cˇ a´ st je kdykoliv moˇzné zapsat ve ˚ formátu XML. Z uvedeného zpusobu práce je patrné, zˇ e XML DOM potˇrebuje m´ıt ke své ˚ ze cˇ init problém pˇri zprapráci v pamˇeti neustále celou strukturu i samotná data, coˇz muˇ ˚ Vyhodou ˚ ze cován´ı rozsáhlych tohoto modelu je fakt, zˇ e aplikace muˇ ´ XML dokumentu. ´ ˇ ´ ˇ libovolnˇe cıst i mˇenit strukturu a data, protoˇze DOM podporuje operace cten´ı i modifikace a to typicky objektovˇe. 2.4.2. SAX (Simple API for XML). SAX provád´ı postupnou analyzou vstupn´ıch XML dat a bˇehem n´ı identifikuje jednotlivé ´ cˇ a´ sti XML dokumentu, jako jsou znaˇcky, atributy, entity, komentárˇ e atp. SAX je zaloˇzen na událostech, na které se klientská aplikace vázˇ e a pomoc´ı nichˇz pak z´ıskává data. Hlavn´ı rozd´ıl oproti dˇr´ıve zm´ınˇenému modelu DOM je v tom, zˇ e SAX neudrˇzuje v pamˇeti strukturu ani data celého dokumentu, ale pouze data aktuálnˇe analyzované cˇ a´ sti [35]. D´ıky tomu je moˇzné zpracovat libovolnˇe rozsáhly´ XML dokument, nicménˇe, z principu je moˇzné data pouze cˇ ´ıst a to pouze lineárnˇe. V praxi se bˇezˇ nˇe SAX model implemen-.

(13) 9. <poloˇzka> ´ an´ ´ ı textu</nadpis> <nadpis>Formatov <popis>V textu muˇ ˚ zeme pouˇz´ıt tuˇcne´ p´ısmo ale ne kurz´ıvu.</popis> ... </poloˇzka> <poloˇzka> ´ ´ <nadpis>Pˇr´ıklad platneho zaznamu</nadpis> ˇ ı: Nepouˇz´ıvat!</popis> <popis>Upozornen´ ... </poloˇzka>. Obrázek 2: Pˇr´ıklad XML s nejasnˇe analyzovatelnou strukturou tuje jako SAX parser, coˇz je konkrétn´ı analyzátor podporuj´ıc´ı model SAX. SAX je vhodny´ pˇri pouˇzit´ı s aplikacemi, které potˇrebuj´ı vstupn´ı data pouze cˇ ´ıst a nevyˇzaduj´ı v jednom okamˇziku komplexn´ı pohled na cely´ XML dokument.. 2.5. Analyza ´ XML. XML se skládá ze znaˇcek a obsahu [29]. Znaˇcky jsou definovány pomoc´ı speciáln´ıch ˚ ze znaku˚ ( <“ a >“). Vˇse, co nen´ı znaˇcka, je povaˇzováno za obsah. Ne vˇzdy ovˇsem muˇ ” ” byt ´ rozdˇelen´ı znaˇcek a obsahu zcela zˇrejmé. U well-formed XML dokumentu nen´ı problém identifikovat veˇskeré znaˇcky, nicménˇe nˇekteré znaˇcky nemus´ı m´ıt vyznam znaˇcky ´ ˚ ze se jednat o znaˇcku, která je um´ıstˇena v kontextu nˇejakého jako definuj´ıc´ı strukturu, ale muˇ obsahu jako formátovac´ı nebo jiny´ pomocný prvek (napˇr. oznaˇcen´ı tuˇcného textu znaˇckou ˚ ze m´ıt za následek nestandardn´ı chován´ı c´ılové aplikace. Pˇr´ıklad kon). To muˇ krétn´ıho XML, ktery´ odpov´ıdá podobnému popisu, je znázornˇen na obrázku 2. ˚ Zpusob analyzy ´ takového XML souboru má vliv na strukturu a obsah informac´ı, jaké ´ aplikace z´ıská od analyzátoru. Dvˇe konkrétn´ı uskal´ ı popisuj´ı následuj´ıc´ı dvˇe podkapitoly. 2.5.1. Analyza ´ struktury a obsahu. Ukázkovy´ pˇr´ıklad obsahuje dle formáln´ı definice XML celkem cˇ tyˇri jedineˇcné znaˇcky poloˇzka, nadpis, b, i a k nim odpov´ıdaj´ıc´ı koncové znaˇcky. Nicménˇe tyto znaˇcky v daném kontextu spadaj´ı do dvou kategori´ı. Prvn´ı kategorii tvoˇr´ı znaˇcky, pomoc´ı kterych ´ se tvoˇr´ı poˇzadovaná struktura dat — to jsou znaˇcky poloˇzka a nadpis. Vˇse ostatn´ı, tedy texty um´ıstˇené uvnitˇr tˇechto znaˇcek, má byt ´ povaˇzováno za obsah. Ovˇsem vloˇzen´ı textu podobnému naˇsemu pˇr´ıkladu tuto myˇslenku rozb´ıj´ı. Znaˇcky b a i, které slouˇz´ı v kontextu pouze ˚ jako formátovac´ı prvky, vytvárˇ´ı v puvodn´ ı definici XML dodateˇcnou strukturu. Jak je patrné, v tomto pˇr´ıkladu nejsou znaˇcky b a i znaˇckami ve smyslu struktury ˚ ze m´ıt neˇza´ douc´ı vliv na choXML, ale jsou souˇca´ st´ı obsahu znaˇcky popis. A právˇe to muˇ ván´ı aplikace, pokud analyzátor nebude o definované struktuˇre dostateˇcnˇe informován (napˇr. XML schématem). Nav´ıc, dané XML je v tuto chv´ıli velmi citlivé na zpracován´ı formátován´ı, neboli white-spaces..

(14) 10. 2.5.2. ´ ´ ı dokumentu (white-spaces) Analyza ´ formatov an´. ˚ zeme prozradit, zˇ e XMill6 ve vychoz´ S pˇredstihem muˇ ım nastaven´ı vyuˇz´ıvá optimalizaci ´ ˇ komprese XML t´ım, zˇ e odstranuje formátován´ı XML (white-spaces), které pak vytvárˇ´ı pˇri dekompresi programovˇe. Dalˇs´ı podrobnosti o nástroji XMill jsou v sekci 4. XML podporuje celkem cˇ tyˇri druhy white-spaces7 : carriage-return (\r), line-feed (\n), ˚ ze zdát, zˇ e tyto informace nenetab (\t) a spacebar (mezera) [29]. Na prvn´ı pohled se muˇ ˇ sou obsahovou informaci, proto právˇe zminovan y´ XMill ve vychoz´ ım nastaven´ı white´ spaces ignoruje a bˇehem dekomprese je rekonstruuje programovˇe [38]. Pokud se ale pod´ıváme na námi uvádˇeny´ pˇr´ıklad, bude m´ıt pouˇzit´ı této optimalizace vliv na obsah dat, protoˇze pˇri provádˇen´ı dekomprese nebudou white-spaces rekonstruována korektnˇe. V pˇr´ıkladu se za koncovou znaˇckou (mezi slovy p´ısmo a ale) nacház´ı mezera a pˇri aktivn´ı optimalizaci by se bˇehem komprese jako white-space symbol ignorovala. T´ım by doˇslo ke ztrátˇe informace, protoˇze pˇri programové rekonstrukci formátován´ı XMill nikdy nedává za znaˇcku mezeru, maximálnˇe odsazuje následuj´ıc´ı obsah na dalˇs´ı rˇ a´ dek. Bˇehem naˇsich experimentu˚ jsme proto vˇzdy tento druh optimalizace potlaˇcili a to i ˚ u kterych u souboru, ´ to vzhledem k jejich obsahu nebylo nutné. Toto opatˇren´ı nám také ˚ zajistilo, zˇ e se po dekompresi soubory zcela shodovaly s puvodn´ ımi originály. Jedinou nevyhodou je to, zˇ e se spolu s komprimovanymi ´ ´ daty mus´ı ukládat i vlastn´ı formátován´ı, coˇz m´ırnˇe zhorˇsuje vysledek komprese. ´ 2.5.3. Analyza ´ XML v kontextu komprese XML. Pˇri experimentech s nástrojem XMill a následnˇe i bˇehem vyvoje vlastn´ıho nástroje SXMill ´ ˚ zitym jsme doˇsli k závˇeru, zˇ e duleˇ ´ bodem komprese XML je analyza ´ vstupn´ıch XML dat. ˚ zité je Na uvedenych pˇr´ıkladech z pˇredchoz´ı kapitoly jsme se snaˇzili ukázat, jak duleˇ ´ správnˇe vyhodnotit strukturu dokumentu a identifikovat v n´ı data. Nesprávné rozliˇsen´ı ˚ ze m´ıt neˇza´ douc´ı vliv na efektivitu komprese, protoˇze bude tˇechto dvou elementu˚ muˇ ˇ ˚ ze vést docházet k nesprávnému odvozen´ı sémantickych a analyza ´ vazeb. Spatn´ ´ ale muˇ ˇ aˇz ke ztrátˇe dat. Vylepˇsen´ı analyzátoru XML, ktery´ by uvedené skuteˇcnosti zohlednoval, je proto tématem dalˇs´ıho vyvoje. ´ V praktické cˇ a´ sti této diplomové práce jsme se pˇresvˇedˇcili o tom, zˇ e typickym ´ pˇredsta˚ u nichˇz je tˇreba specifickym ˚ vitelem kategorie XML souboru, analyzovat struk´ zpusobem turu XML, je soubor wiki.xml. Podrobnosti jsou k dispozici v kapitole 6, která se vˇenuje testován´ı.. 6 7. XMill je specializovany´ XML-aware kompresor. B´ılá m´ısta..

(15) 11. 3. Komprese XML. XML je ze své podstaty velmi vyˇ ´ reˇcnym ´ formátem. Veˇskeré informace jsou v XML uloˇzeny v textové podobˇe (samotné texty ale i cˇ ´ıselné hodnoty, vyˇ ´ ctové typy a dalˇs´ı specifické informace, které se do textové podoby pˇrevádˇej´ı serializac´ı dat). Nav´ıc u kaˇzdé poloˇzky se neustále opakuje jej´ı sémantická definice, tedy jej´ı znaˇcka. Ta urˇcuje vyznam obsahu, ´ ktery´ je v n´ı uzavˇren. Napˇr´ıklad pokud je v XML uloˇzeno nˇekolik poloˇzek obsahuj´ıc´ıch informaci o autorech knihy, napˇr´ıklad pomoc´ı znaˇcky <autor></autor>, bude se neustále tato dvojice znaˇcek opakovat u kaˇzdého jednotlivého jména autora. A t´ım velice rychle roste objem dat v XML souboru. Zm´ınˇené vlastnosti XML mohou pˇredstavovat problém pˇri práci s rozsáhlymi XML ´ ˚ ze pˇredstavovat zátˇezˇ pro vypoˇ soubory. Jednak je nutné XML data analyzovat, coˇz muˇ ´ cet˚ ze byt n´ı vykon systému, ktery´ s XML pracuje. Problémem muˇ ´ ´ také velké mnoˇzstv´ı dat, které je nutné archivovat na disku nebo jiném médiu, cˇ i pˇrenásˇ et po s´ıti nebo pomalych ´ ˇ ˚ ze rˇ eˇsit právˇe komprese XML. WAN8 linkách. A oba zminovan´ e nedostatky muˇ. 3.1. Principy komprese. ˚ které lze pouˇz´ıt ke kompresi XML dat. Obecnˇe je moˇzné Existuje celá rˇ ada algoritmu, vˇsechny rozdˇelit do dvou skupin: • XML komprese bez podpory dotazován´ı • XML komprese s podporu dotazován´ı Algoritmy prvn´ı kategorie se zamˇerˇ uj´ı na zmenˇsen´ı velikosti XML dat s t´ım, zˇ e pokud s komprimovanymi daty potˇrebujeme pozdˇeji pracovat, mus´ıme je nejdˇr´ıve dekompri´ movat jako celek, zpracovat a posléze jako celek znovu komprimovat. V této diplomové ˚ Tyto algoritmy lze dále práci se zamˇerˇ ujeme pˇredevˇs´ım na tuto kategorii algoritmu. rozdˇelit na dalˇs´ı dvˇe podskupiny: • Komprese XML jako textu (bˇezˇ ná komprese) • Komprese XML s vyuˇzit´ım sémantickych ´ informac´ı (XML-aware komprese) Na kompresi XML jako textu se vyuˇz´ıvaj´ı bˇezˇ né kompresn´ı nástroje, které v praxi ˚ Vzhledem k tomu, zˇ e XML data slouˇz´ı ke kompresi i jinych, nejen textovych ´ ´ souboru. jsou v podstatˇe text, dosahuj´ı nejlepˇs´ıch vysledk u˚ programy implementuj´ıc´ı metody spe´ cializuj´ıc´ı se na kompresi textu. Pˇredstaviteli této kategorie komprese XML jsou napˇr´ıklad programy GZip, BZip29 cˇ i 7-zip, ale existuj´ı i mnohé dalˇs´ı. My si dále v následuj´ıc´ım textu ˚ ymi pop´ısˇ eme nejˇcastˇejˇs´ı metody komprese, které se napˇr´ıcˇ ruzn programy pouˇz´ıvaj´ı. ´ XML-aware kompresory obecnˇe vyuˇz´ıvaj´ı sémantiku dostupnou v XML datech (pracuj´ı se strukturou XML), ale ve svém jádru stále zamˇestnávaj´ı klasické kompresn´ı algoritmy. Fináln´ı komprese tedy prob´ıhá napˇr´ıklad algoritmem Deflate cˇ i BZip2 [14]. Od 8 9. Wide-Area-Network, rozsáhlé s´ıtˇe. ˚ které vyuˇz´ıvaj´ı kompresn´ı algoritmy Deflate, resp. BZip2. GZip, resp. BZip2 jsou názvy programu,.

(16) 12. ˚ komprese XML jako textu se odliˇsuj´ı pˇredevˇs´ım t´ım, zˇ e se snaˇz´ı specifickym ´ zpusobem ˚ neˇz pˇripravit XML data tak, aby komprese bˇezˇ nymi algoritmy dosáhla lepˇs´ıch vysledk u, ´ ´ jakych se dosahuje pˇri kompresi XML jako textu. Vyuˇz´ıvá se pˇritom znalost principu˚ ´ ˚ komprese danych ´ kompresn´ıch algoritmu. XML-aware kompresory s podporou dotazován´ı pak zachovávaj´ı u komprimovanych ´ ˚ dat moˇznost dotazován´ı. Dotazován´ı m´ıvá ruznou podporu — liˇs´ı se rozsah podporovanych ´ dotazu˚ i to, zda je moˇzné data pouze cˇ ´ıst nebo i mˇenit. Tyto algoritmy ve srovnán´ı s doposud popsanymi algoritmy dosahuj´ı obvykle horˇs´ıch pomˇeru˚ komprese. Nicménˇe ´ vedle sn´ızˇ en´ı datové nároˇcnosti mohou odlehˇcit i vypoˇ potˇrebnému ke ´ cetn´ımu vykonu ´ ˚ ze byt zpracován´ı XML dat — vzhledem k nutnosti zpracovat menˇs´ı mnoˇzstv´ı dat muˇ ´ zpracován´ı komprimovanych ´ dat paradoxnˇe ménˇe nároˇcné a to i s pˇrihlédnut´ım na vypo´ cˇ etn´ı vykon, ktery´ je vyˇzadovany´ k dekompresi cˇ a´ st´ı XML dokumentu. ´. 3.2. Komprese XML jako textu. Pˇri kompresi XML jako textu se soubor komprimuje jako celek bez ohledu na vnitˇrn´ı strukturu. Na soubor se pohl´ızˇ ´ı jako na bˇezˇ ny´ soubor, nicménˇe vzhledem k tomu, zˇ e se ´ esˇ nˇe aplikovat algoritmy specializuj´ıc´ı se na komjedná o textovy´ soubor, lze na nˇej uspˇ ˚ presi textu. Vyhoda toho zpusobu komprese je pˇredevˇs´ım v jednoduchosti jeho nasazen´ı, ´ ˚ které se zamˇerˇ uj´ı na kompresi dat, existuje celá rˇ ada. Modern´ı algoprotoˇze programu, ritmy komprese textu jsou nav´ıc velmi efektivn´ı (jak ukazuj´ı napˇr´ıklad vysledky naˇsich ´ experimentu˚ v kapitole 6). 3.2.1. Deflate (gzip). Deflate je bezeztrátová metoda, která kombinuje kompresi pomoc´ı LZ77 a Huffmanovo kódován´ı [10]. Jedná se o velmi populárn´ı metodu komprese dat, coˇz napˇr´ıklad dokazuje fakt, zˇ e jej´ı podpora je implementována ve vˇetˇsinˇe modern´ıch vyvojov ych ´ ´ prostˇred´ıch nebo operaˇcn´ıch systémech. Metodu Deflate vyuˇz´ıvá známy´ program a formát ZIP, to je mimo jiné také obecnˇe zaˇzity´ pojem vyjadˇruj´ıc´ı kompresi dat10 nejen u laické veˇrejnosti. Deflate je pomˇernˇe rychly´ algoritmus, coˇz se tyk´ ´ a jak komprese, tak i pˇredevˇs´ım dekomprese. Jeho nespornou vyhodou je i to, zˇ e nen´ı pamˇet’ovˇe pˇr´ıliˇs nároˇcny. ´ ´ Proud dat komprimovany´ metodou Deflate je tvoˇren nˇekolika bloky, kde kaˇzdy´ blok ˚ ze byt ˚ muˇ u˚ [10]: ´ uloˇzen jedn´ım z následuj´ıc´ıch zpusob ´ • Blok uloˇzeny´ bez kodov´ an´ı / komprese (hrubá data) ´ • Blok kodovan y´ pomoc´ı pˇredem dohodnutého Huffmanova stromu ´ • Blok kodovan y´ pomoc´ı Huffmanova stromu, ktery´ je souˇca´ st´ı bloku Samotná komprese metodou Deflate prob´ıhá dvoufázovˇe: 1. Pomoc´ı LZ77 jsou odstranˇeny opakuj´ıc´ı se rˇ etˇezce 10. Slangovˇe se cˇ asto pouˇz´ıvá term´ın zazipovat soubor“ ”.

(17) 13. ´ ´ 2. Vystup (1.) je kodov´ an pomoc´ı Huffmanova kodov´ an´ı ´ Huffmanovo kodov´ ´ an´ı [11] patˇr´ı do skupiny statistických kompresn´ıch algoritmu. ˚ Statistické metody pracuj´ı s cˇ etnost´ı jednotlivych ´ znaku˚ (nebo jejich skupin) ve vstupn´ım sou˚ s vyˇssˇ´ı cˇ etnost´ı jsou pˇriˇrazovány kratˇs´ı kody ´ (ménˇe bitu, ˚ napˇr. nejˇcastˇeboru dat. Znakum ˚ ze byt ´ ˚ s ménˇe cˇ astym ji se vyskytuj´ıc´ı znak muˇ an pouze jedn´ım bitem) a znakum ´ kodov´ ´ ´ vyskytem jsou pˇriˇrazovány kody delˇs´ı. ´ Existuj´ı dvˇe varianty tohoto algoritmu. Statická varianta provád´ı kompresi ve dvou ˚ pˇri fáz´ıch — v prvn´ı fázi je provedena statistika cˇ etnosti vyskytu jednotlivych znaku, ´ ´ ´ ´ které je vytvoˇren strom kodov´ an´ı, ve druhé fázi docház´ı k samotnému zakodov´ an´ı vstupn´ıch dat s vyuˇzit´ım z´ıskané statistiky. Vyhodou této metody je vytvoˇren´ı optimáln´ı statis´ tiky pro cely´ vstupn´ı soubor, nevyhodou je pomalé zpracován´ı, protoˇze jsou nutné dva ´ ˚ pruchody celého vstupn´ıho souboru. Dalˇs´ı nevyhodou je nutnost uloˇzen´ı binárn´ıho stro´ mu spolu s komprimovanymi daty. Dynamická varianta vytvárˇ´ı statistiku cˇ etnosti znaku˚ a ´ ´ ˚ samotné kodov´ an´ı bˇehem jediného pruchodu. To plat´ı jak pˇri kompresi, tak i pˇri dekompresi. D´ıky tomu nen´ı nutné ukládat binárn´ı strom spolu s komprimovanymi daty. Záro´ venˇ je proces komprese rychlejˇs´ı, protoˇze nen´ı nutné vstupn´ı soubor procházet dvakrát, ale na druhou stranu je nutné upravovat strom cˇ etnost´ı, coˇz samotny´ proces komprese ve srovnán´ı se statickou variantou zpomaluje. Jelikoˇz má kompresor informace o cˇ etnosti ´ u˚ znaku˚ pouze u té cˇ a´ sti souboru dat, kterou doposud proˇsel, nemus´ı byt ´ pˇriˇrazen´ı kod ˚ ze docházet v rámci celého souboru k dosaˇzen´ı horˇs´ıho vysledku zcela optimáln´ı, cˇ ´ımˇz muˇ ´ komprese. LZ77 [23], publikovany´ v roce 1977 Abrehamem Lempelem a Jacobem Zivem, je algo˚ Algoritmus vyuˇz´ıvá tzv. ritmus patˇr´ıc´ı do skupiny slovn´ıkovych ´ kompresn´ıch algoritmu. posuvné okno — sliding window — které obsahuje konec (typicky posledn´ıch nˇekolik kB) doposud pˇreˇctenych ´ dat ze zdrojového souboru. Bˇehem komprese se algoritmus snaˇz´ı naj´ıt v oknˇe opakuj´ıc´ı se vyskyt cˇ a´ sti vstupn´ıch dat, d´ıky cˇ emuˇz by bylo moˇzné tento ´ ´ vyskyt zakodovat pouze jako ofset a délku v posuvném oknˇe. Pˇri dekompresi je nutné ´ ˚ posuvné okno udrˇzovat stejnym jak tomu bylo bˇehem fáze komprese. ´ zpusobem, ˚ e varianty algoritmu, liˇs´ıc´ı se v závislosti na tom, jak koduj´ ´ Existuj´ı ruzn´ ı vystup. Jako ´ ˚ zeme uvést varianty LZSS, LZH a LZB [2]. pˇr´ıklad muˇ 3.2.2. BZip2. BZip2 je svobodny, ´ bezeztrátovy´ kompresn´ı algoritmus a také program. Jeho autorem je Julian Seward, ktery´ prvn´ı verzi publikoval v roce 1996. Jedná se opˇet o pomˇernˇe rychly´ algoritmus, ktery´ ve srovnán´ı s metodou Deflate dosahuje ve vˇetˇsinˇe pˇr´ıpadu˚ ´ cinnˇejˇs´ı algoritmus. Prvn´ı verze tohoto allepˇs´ıch vysledk u˚ a jedná se tak celkovˇe o uˇ ´ goritmu vyuˇz´ıvala aritmetické kódován´ı, které ale bylo záhy nahrazeno Huffmanovym ´ ´ kodov´ an´ım. Algoritmus komprimuje bloky dat o velikosti v rozmez´ı 100 aˇz 900kB (nastavitelné skokovˇe po 100kB). Kombinuje techniky BWT (Burrows-Wheeler Transform), MTF (Move-To-Front transform), Huffmanovo kódován´ı a RLE (Run-Length Encoding) [26]. Burrows-Wheeler Transform [16] je transformace známá také pod oznaˇcen´ım komprese blokovým tˇr´ıdˇen´ım. Tato transformace ve vstupn´ım souboru nemˇen´ı hodnotu zˇ a´ dného.

(18) 14. symbolu, provád´ı pouze permutaci jejich poˇrad´ı. Pokud vstupn´ı soubor obsahuje opakuj´ıc´ı se podˇretˇezce, budou po proveden´ı transformace ve vystupu m´ısta, na kterych se ´ ´ budou za sebou nacházet stejné opakuj´ıc´ı se znaky. A to je pˇredpoklad, d´ıky kterému je moˇzné následnˇe dosáhnout lepˇs´ıho vysledku komprese. Transformace se provád´ı setˇr´ıdˇe´ n´ım vˇsech rotac´ı textu v tabulce a jako vystup se pouˇzije posledn´ı sloupec dané tabulky. ´ ˇ ´ BWT transformace, inverzn´ı operaci pak zobrazuje Algoritmus 1 znázornuje pseudokod algoritmus 2. Algoritmus 1 Transformace BWT (string s) ´ dky jsou vˇsechny moˇzné rotace s 1: vytvoˇr tabulku, rˇ a ´ dky abecednˇe 2: setˇrid’ rˇ a 3: return posledn´ı sloupec tabulky. Algoritmus 2 Inverzn´ı BWT (string s) 1: vytvoˇr pr´ azdnou tabulku 2: for i = 1 to délka(s) do 3: vloˇz s jako sloupec tabulky pˇred prvn´ı sloupec tabulky 4: . (prvn´ım vloˇzen´ım se vytvoˇr´ı prvn´ı sloupec) ’ 5: setˇrid sloupce tabulky abecednˇe 6: end for ´ dek, u kterého sloupec konˇc´ı znakem EOF 7: return rˇ a Move-To-Front transform [4], cˇ esky pˇresunˇ na zaˇca´ tek, je metoda, která pracuje na principu nahrazován´ı symbolu˚ vstupn´ı abecedy za jejich indexy do pole symbolu˚ a naopak. Jedná se o reverzibiln´ı transformaci, tzn. zˇ e existuje inverzn´ı operace, kterou je ˚ moˇzné data vrátit do puvodn´ ı podoby. Proces transformace MTF je následuj´ıc´ı — kaˇzdá ´ hodnota vstupu je kodov´ ana pomoc´ı indexu, ktery´ odkazuje do pole. Toto pole se v ˚ ehu transformace neustále mˇen´ı. Tedy — v poli je nalezena odpov´ıdaj´ıc´ı hodnota prubˇ znaku na vstupu a index této hodnoty je zapsán na vystup. Na zaˇca´ tku je pole uspoˇra´ dáno ´ ´ podle hodnot (napˇr´ıklad kodujeme-li jednobajtovˇe, pak 0, 1, . . . , 255), prvn´ı hodnota vs´ ´ tupu je tak vˇzdy zakodov´ ana vlastn´ı“ hodnotou. Po zakodov´ an´ı kaˇzdého znaku je v poli ” znak pˇresunut na zaˇca´ tek (odtud název metody). Reverzn´ı MTF transformace prob´ıhá tak, zˇ e se ve vychoz´ ım stavu opˇet zaˇc´ıná s uspo´ ´ rˇ a´ danym an´ı prob´ıhá postupnˇe tak, zˇ e ´ polem (napˇr. hodnoty 0, 1, . . . , 255). Dekodov´ ´ zakodovan´ a hodnota ze vstupu urˇcuje index v poli, kde je uloˇzena hodnota pro vystup. ´ ´ Po dekodov´ an´ı kaˇzdého znaku docház´ı k pˇresunut´ı tohoto znaku na zaˇca´ tek, stejnˇe jako ´ bˇehem procesu kodov´ an´ı. ´ MTF transformace je zobrazen na vypisu ´ inPseudokod algoritmus 3, pseudokod ´ verzn´ı operace MTF je pak znázornˇen na vypisu algoritmus 4. ´ RLE (Run-length encoding) pˇredstavuje jednoduchou formu bezeztrátové kompre´ se. Koduje vstupn´ı data tak, zˇ e opakuj´ıc´ı se posloupnosti znaku˚ zapisuje jako dvojici.

(19) 15. Algoritmus 3 MTF (string s) ´ dané jednobajtové hodnoty (0..255)) 1: vytvoˇr pole p (obsahuj´ıc´ı uspoˇra 2: for all (char z in s) do 3: v poli p vyhledej index i znaku z 4: zapiˇs i na vystup v ´ 5: v poli p pˇresunˇ z na zaˇca´ tek 6: end for 7: return vystup v ´ Algoritmus 4 Invezn´ı MTF (int[] vstup) ´ dané jednobajtové hodnoty (0..255)) 1: vytvoˇr pole p (obsahuj´ıc´ı uspoˇra 2: for all (int i in vstup) do 3: na vystup v zapiˇs znak z v poli p um´ıstˇeny´ na pozici i ´ 4: v poli p pˇresunˇ znak z na zaˇca´ tek 5: end for 6: return vystup v ´. ´ <délka posloupnosti, znak>. Nevyhodou tohoto kodov´ an´ı je to, zˇ e vyskyt jednoho opa´ ´ ´ kován´ı znaku (jeden bajt) je nutné kodovat pomoc´ı dvojice <1, znak> (dva bajty) a t´ım ´ cinnost komprese proto závis´ı na charakteru vstup˚ docház´ı k neˇza´ douc´ımu nárustu dat. Uˇ n´ıch dat. 3.2.3. LZMA. LZMA (Lempel-Ziv-Markov-Chain Algorithm) je vylepˇsená verze algoritmu Deflate, resp. ˚ vyuˇz´ıvá vylepˇsenou verzi algoritmu LZ77. LZMA pouˇz´ıvá stejnˇe jako puvodn´ ı LZ77 slovn´ık, ale narozd´ıl od nˇej podporuje jeho mnohem vˇetˇs´ı velikost (aˇz 4GB) a tuto velikost je moˇzné uˇzivatelsky nastavit. LZMA se skládá celkem ze tˇr´ı souˇca´ st´ı — vedle ´ vylepˇseného LZ77 pak jeˇstˇe z kodov´ an´ı Markov-Chain a range kodéru. Algoritmus dosahuje vˇetˇsinou lepˇs´ıch vysledk u˚ neˇz Deflate nebo BZip2, jedná se ale o pamˇet’ovˇe nároˇcnˇejˇs´ı al´ goritmus, coˇz plat´ı hlavnˇe pro kompresi. Komprese dat je také vyraznˇ e pomalejˇs´ı, nicmé´ nˇe dekomprese je extrémnˇe rychlá a pamˇet’ovˇe málo nároˇcná. LZMA je vychoz´ ı kom´ presn´ı metodou formátu 7z programu 7-zip [25]. ´ Range kodér, neboli kódován´ı pomoc´ı intervalu, vyuˇz´ıvá k zakodov´ an´ı vˇsech symbolu˚ ´ zprávy pouze jedno cˇ ´ıslo — narozd´ıl napˇr´ıklad od Huffmanova kodov´ an´ı, které kaˇzdému ˚ co nejsymbolu pˇriˇrazuje urˇcitou bitovou reprezentaci (nejˇcastˇeji se opakuj´ıc´ım znakum ˚ a na vystup ´ ménˇe bitu) pak ukládá postupnˇe za sebou odpov´ıdaj´ıc´ı kody. D´ıky této ´ ˚ ze kodov´ ´ ˚ neˇz je horn´ı odliˇsnosti muˇ an´ı pomoc´ı intervalu dosáhnout lepˇs´ıch vysledk u, ´ ´ ´ hranice jeden-bit-na-symbol u Huffmanova kodov´ an´ı [15]. Kodov´ an´ı pomoc´ı intervalu je ´ matematicky ekvivalentn´ı k aritmetickému kodov´ an´ı. Podrobnˇejˇs´ı informace o principu této metody jsou dostupné napˇr´ıklad v [15]..

(20) 16. Markov-chain je matematická metoda pro statistické modelován´ı. Podrobnˇejˇs´ı informace jsou k dispozici napˇr´ıklad v [9]. 3.2.4. PPM (Prediction by Partial Matching). PPM [8] je adaptivn´ı, statistická metoda komprese dat, zaloˇzená na modelech kontextu a ˚ Od svého vzniku, tedy od 90. let minulého stolet´ı, patˇr´ı PPM k pˇredpov´ıdán´ı symbolu. ˚ komprese textu˚ v pˇrirozeném jazyce. Jeho historie sahá nejv´ıce efektivn´ım algoritmum jeˇstˇe dále, jeho dˇr´ıvˇejˇs´ımu rozˇs´ırˇ en´ı bránil ale fakt, zˇ e je velmi nároˇcny´ na pamˇet’ové prostˇredky. Jedná se také o cˇ asovˇe nároˇcnˇejˇs´ı metodu a to se tyk´ ´ a jak komprese, tak i dekomprese. Existuje nˇekolik variant této metody, nˇekteré z nich implementuj´ı napˇr´ıklad programy WinRAR nebo 7-zip. Metoda PPM je zaloˇzena na modelech [6, 8]. Kaˇzdy´ z modelu˚ si udrˇzuje statistiky ˚ Kaˇzdy´ model má doposud zhlédnutych ´ symbolu˚ v kontextu pˇredcházej´ıc´ıch symbolu. urˇceno, kolik symbolu˚ si bude takto udrˇzovat. Celá metoda PPM pak udrˇzuje nˇekolik ˚ y´ poˇcet symbolu˚ — od nula symbolu˚ aˇz po tˇechto modelu˚ a kaˇzdy´ z nich udrˇzuje ruzn maximáln´ı poˇcet n, kde hodnota n pˇredstavuje stupenˇ PPM a znaˇc´ı se typicky PPM(n). ˇ nejsou tedy nijak limitovány Existuj´ı také varianty, které nemaj´ı pevnˇe stanoveny´ stupen, délkou kontextu, ty se oznaˇcuj´ı PPM*. Modely slouˇz´ı k vypoˇ ´ ctu pˇredpovˇed´ı toho, s jakou pravdˇepodobnost´ı se budou vyskytovat následuj´ıc´ı symboly. Vypoˇctená pravdˇepodob´ nost se pak pouˇz´ıvá k zakodov´ an´ı daného symbolu pomoc´ı aritmetického kódován´ı. Po zpracován´ı kaˇzdého symbolu se model uprav´ı tak, aby zachytil právˇe zpracovany´ symbol. Pˇredpovˇed’ pravdˇepodobnosti pracuje následovnˇe. Pokud je symbol nalezen v nejdelˇs´ım kontextu, je pravdˇepodobnost urˇcena jako relativn´ı cˇ etnost symbolu v daném kontextu. Pokud nen´ı v tomto kontextu symbol nalezen, pouˇzije se dalˇs´ı nejdelˇs´ı kontext. Pˇrechod na jiny´ kontext je indikován zápisem tzv. escape-znaku [6]. Tento proces se opakuje do té doby, dokud nen´ı nalezena shoda, nebo dokud nen´ı k dispozici zˇ a´ dny´ dalˇs´ı kontext. V pˇr´ıpadˇe, zˇ e jiˇz nelze pravdˇepodobnost urˇcit z zˇ a´ dného modelu, docház´ı k proveden´ı fixn´ı pˇredpovˇedi. ˚ e varianty PPM se liˇs´ı v tom, jak rˇ eˇs´ı problematiku urˇcen´ı pravdˇepodobnosti Ruzn´ ˚ Nˇekteré varianty tˇemto symbolum ˚ pˇriˇrazuj´ı konstantnˇe doposud neznámych ´ symbolu. hodnotu 1. Varianta PPMd, kterou jsme vyuˇzili prakticky pˇri implementaci algoritmu˚ komprese XML, navyˇsuje hodnotu pro kaˇzdy´ doposud neshlédnuty´ symbol o jedna a pravdˇepodobnost vyskytu tohoto symbolu je pak vypoˇctena jako pomˇer jedineˇcnych ´ ´ ˚ symbolu˚ k celkovému poˇctu doposud shlédnutych ´ symbolu.. 3.3. XML-Aware komprese. Metody komprese, které se pˇr´ımo zamˇerˇ uj´ı na XML, vyuˇz´ıvaj´ı sémantické informace uloˇzené v XML datech. Tyto informace jsou v XML pˇr´ıtomny v podobˇe znaˇcek — ty dávaj´ı sémanticky´ vyznam obsahu, ktery´ je v nich uzavˇren. Základn´ı myˇslenka vˇetˇsiny tˇechto ´ kompresoru˚ je pˇripravit data XML souboru pro bˇezˇ né kompresn´ı algoritmy tak, aby se vyuˇzit´ım vlastnost´ı tˇechto algoritmu˚ dosáhlo efektivnˇejˇs´ı komprese [1, 6, 14]. Existuj´ı.

(21) 17. i algoritmy, které se specializuj´ı na kompresi struktury XML, pˇriˇcemˇz vyuˇz´ıvaj´ı schémat XML (napˇr´ıklad DTD), nicménˇe i ty provád´ı fináln´ı kompresi bˇezˇ nymi algoritmy [13]. ´ XML-aware algoritmy lze rozdˇelit do dvou základn´ıch skupin — algoritmy s podporou dotazován´ı a algoritmy bez podpory dotazován´ı.. 3.4. ´ ı Komprese XML s podporou dotazovan´. Komprese s podporou dotazován´ı komprimuje vstupn´ı XML data a pˇri tom ponechává moˇznost dále s daty pracovat i v komprimované podobˇe. Motivace k pouˇzit´ı toho ˚ principu komprese XML nemus´ı byt zmenˇsen´ı datové nároˇcnosti se za´ cˇ istˇe z duvodu chován´ım dotazován´ı. Práce s komprimovanymi daty a dekomprese pouze vybranych ´ ´ ˚ ze byt cˇ a´ st´ı XML muˇ stejného XML v nekompri´ cˇ asovˇe ménˇe nároˇcnˇejˇs´ı, neˇz analyza ´ mované podobˇe. Typickymi pˇredstaviteli této kategorie jsou metody XGrind, XPRESS a ´ XQzip. 3.4.1. XGrind. ˚ ktery´ se zaˇcal zabyvat XGrind je dle dostupnych ´ materiálu˚ jedn´ım z prvn´ıch nástroju, ´ problematikou komprese XML s podporou dotazován´ı. Podrobnˇejˇs´ı informace jsou k dispozici v [21]. ´ ´ XGrind oddˇeluje strukturu od dat a strukturu koduje slovn´ıkovym an´ım. U nˇej ´ kodov´ ´ koduje kaˇzdou znaˇcku jako T (tag) a atribut jako A následované jedineˇcnym ´ identifikátorem. Pomoc´ı tohoto identifikátoru se pak odkazuje do slovn´ıku, ktery´ obsahuje ˚ ´ ´ puvodn´ ı upln y´ zápis znaˇcky nebo názvu atributu. Koncové znaˇcky se pak koduj´ ı speciáln´ım znakem, XGrind pouˇz´ıvá konkrétnˇe symbol /. Pˇri dekompresi je koncová znaˇcka vˇzdy odvozena z kontextu11 , nen´ı tedy nutné pro konkrétn´ı koncové znaˇcky vytvárˇ et záznamy ve slovn´ıku. ´ Kodov´ an´ı struktury je homomorfn´ı, to znamená, zˇ e komprimovany´ soubor je také strukturovany. nástroji, jaké ´ T´ım pádem je moˇzné prohl´ızˇ et jej a zpracovávat stejnymi ´ se pouˇz´ıvaj´ı pro práci s XML v bˇezˇ né formˇe [21]. Tento pˇr´ıstup má nˇekolik vyhod: ´ ´ • Upravy dokumentu lze provádˇet pˇr´ımo v komprimované verzi. • Lze vyuˇz´ıt osvˇedˇcené techniky vyvinuté pro práci s XML (analyza ´ cˇ i dotazován´ı). ˚ ci komprimované verzi sché• Komprimovanou verzi XML dat je moˇzné ovˇerˇ it vuˇ matu XML dokumentu. XGrind pracuje specificky s vyˇ ´ ctovymi ´ typy. K jejich identifikaci vyuˇz´ıvá DTD schéma ´ ´ a koduje je pomoc´ı log2 K kodov´ an´ı, kde K je celkovy´ poˇcet hodnot dané domény vyˇ ´ ctového typu [21]. Data XGrind komprimuje pomoc´ı bezkontextové komprese12 . Bezkontextová komˇ prese umoˇznuje lokalizovat rˇ etˇezce pˇr´ımo v komprimovanych datech bez nutnosti je ´ 11. ˇ Vzpomenme, zˇ e well-formed XML dokumenty nedovoluj´ı pˇrekˇr´ızˇ en´ı znaˇcek. ´ ˚ tak, zˇ e tyto kody ´ Bezkontextová komprese pˇriˇrazuje kody jednotlivym nejsou závislé na ´ rˇ etˇezcum aktuáln´ı pozici daného rˇ etˇezce ve zdrojovém souboru dat. 12.

(22) 18. ˚ pˇri jejich hledán´ı dekomprimovat. Toho se dosahuje jednoduchym protoˇze ´ zpusobem, hledany´ rˇ etˇezec je nejdˇr´ıve komprimován stejnou metodou, jaká se pouˇzila pˇri kompresi vstupn´ıho souboru. Takto komprimovany´ rˇ etˇezec se pak pˇr´ımo hledá v komprimovanych ´ datech. ´ Proto XGrind vyuˇz´ıvá konkrétnˇe neadaptivn´ı Huffmanovo kodov´ an´ı. Kontextové13 algoritmy, jako napˇr´ıklad LZ77, nejsou pro pouˇzit´ı v této situaci vhodné. Pokud by se ˚ pouˇzila kontextová komprese, doˇslo by k nárustu reˇzie nutné k dekompresi kaˇzdého rˇ etˇezce pˇred jeho porovnán´ım s hledanou hodnotou a pˇred proveden´ım samotné dekomprese by musela aplikace vyhodnotit pozici rˇ etˇezce v souboru a podle toho urˇcit pˇr´ısluˇsné ´ kodov´ an´ı. ´ Pro zvyˇ an´ı rozd´ılné tabulky roz´ sen´ı efektivity komprese pouˇz´ıvá XGrind pˇri kodov´ loˇzen´ı cˇ etnosti znaku˚ a to zvlásˇ t’ pro jednotlivé prvky a pro nevyˇ ´ ctové atributy. T´ım ˇ zohlednuje sémantiku dat, protoˇze jak jiˇz bylo nˇekolikrát zm´ınˇeno, data uloˇzená ve stejné struktuˇre byvaj´ ´ ı sémanticky pˇr´ıbuzná. Architektura XGrind podporuje dotazován´ı v komprimovanych ´ datech v závislosti na typu dotazu. Dotazy na pˇresnou shodu, pˇri kterych se hledá znaˇcka nebo atribut ´ pˇresnˇe se shoduj´ıc´ı s hledanym a dotazy na shodu prefixu, pˇri kterych ´ vyrazem ´ ´ se hledá prefix znaˇcky odpov´ıdaj´ıc´ı hledané hodnotˇe. V obou pˇr´ıpadech XGrind komprimuje cestu dotazu a predikát dotazu stejnou metodou, jakou pouˇzil pˇri kompresi dat. D´ıky tomu, zˇ e ´ se v obou pˇr´ıpadech vyuˇz´ıvá bezkontextová komprese, odpov´ıdaj´ı kodovan´ e hodnoty dotazu pˇresnˇe hodnotám v komprimovanych ´ datech. XGrind vyuˇz´ıvá bajtové zarovnán´ı ´ ˚ coˇz je mnohem rychlejˇs´ı (nikoliv bitové), tzn. porovnáván´ı prob´ıhá vˇzdy na urovni bajtu, neˇz pˇri operac´ıch s jednotlivymi bity, nicménˇe nen´ı tak efektivn´ı. Teprve aˇz po nalezen´ı ´ poˇzadovaného prvku docház´ı k jeho dekompresi. U dotazu˚ na cˇ a´ steˇcnou shodu a rozsah ˚ komprimuje XGrind pouze cestu dotazu. Pˇri postupném pruchodu komprimovanych ´ dat pak vyhledává vˇsechny shody hledané cesty a teprve u odpov´ıdaj´ıc´ıch provád´ı dekompresi hodnot a vyhodnocen´ı dotazu. Tento typ dotazu je tedy nároˇcnˇejˇs´ı na vyhodnocen´ı. ˚ Dany´ zpusob dotazován´ı nen´ı zcela optimáln´ı, jeho nedostatky jsou nast´ınˇeny v kapitole 3.4.3. 3.4.2. XPRESS. XPRESS je dalˇs´ım nástrojem pro kompresi XML z rodiny algoritmu˚ podporuj´ıc´ıch dotazován´ı. Pˇri jeho návrhu vycházeli autoˇri pˇredevˇs´ım z vlastnost´ı nástroje XGrind. XPRESS pˇredstavil nové, efektivnˇejˇs´ı metody komprese XML a optimalizoval principy dotazován´ı v komprimovanych ´ datech [18]. ´ XPRESS vyuˇz´ıvá automatické odvozen´ı datovych ´ typu˚ a provád´ı jejich efektivn´ı koˇ dován´ı. Autoˇri se inspirovali XML-aware kompresorem XMill, ktery´ také umoˇznuje efek´ tivnˇe kodovat specifické datové typy (celá cˇ ´ısla atp.), nicménˇe XPRESS narozd´ıl od XMill provád´ı jejich automatickou detekci bez nutnosti uˇzivatelského zásahu. Podporuje celkem sˇ est sémantických kompresoru, ˚ jejichˇz pˇrehled zobrazuje tabulka 1. Sémantické kom13. ´ Pˇri kontextové kompresi jsou generované kody závislé na pozici symbolu ve vstupn´ıch datech..

(23) 19. presory u8, u16, u32 a f32 jsou rozd´ılové kodéry cˇ ´ıselnych ´ hodnot a kompresory dict8 a ´ huff jsou urˇcené pro kodov´ an´ı textu. kod ´ u8 u16 u32 f32 dict8 huff. popis kompresoru ´ kodov´ an´ı celych ´ cˇ ´ısel, kde max − min < 27 ´ kodov´ an´ı celych ´ cˇ ´ısel, kde 27 + 1 < max − min < 215 ´ kodov´ an´ı celych ´ cˇ ´ısel, kde 215 + 1 < max − min < 231 ´ kodov´ an´ı cˇ ´ısel s desetinnou cˇ a´ rkou ´ kodov´ an´ı vyˇ ´ ctovych ´ dat ´ Huffmanovo kodov´ an´ı textovych ´ dat. Tabulka 1: Pˇrehled sémantickych ´ kompresoru˚ nástroje XPRESS ´ XPRESS komprimuje data bezkontextovˇe — kodov´ an´ı prob´ıhá bez závislosti na jeˇ jich pozici v souboru. To opˇet umoˇznuje provádˇet dotazován´ı pˇr´ımo v komprimovanych ´ datech. Vystup je, stejnˇe jako u XGrind, homomorfn´ı [18]. ´ ˚ XPRESS oddˇeluje strukturu od dat. Oproti ostatn´ım algoritmum, popsanych ´ v tomto ´ ´ textu, ale zcela jinak pˇristupuje k jej´ımu kodov´ an´ı. XPRESS nevyuˇz´ıvá slovn´ıkové kodován´ı, ale reverzn´ı aritmetické kódován´ı. Pˇri nˇem pˇriˇrazuje kaˇzdé cestˇe, nebo jej´ı podmnoˇzinˇe, ´ jednoznaˇcny´ interval v rozmez´ı <0.0, 1.0). Reverzn´ı aritmetické kodov´ an´ı rozdˇeluje cely´ ˚ Kaˇzdému subinterval na subintervaly a jednotlivé subintervaly jsou pˇriˇrazeny prvkum. ´ erná cˇ etnosti intervalu je pˇriˇrazen právˇe jeden prvek. Velikost kaˇzdého intervalu je umˇ ˚ Podrobnosti postupu vypoˇ prvku (v pomˇeru k celkové cˇ etnosti prvku). ´ ctu intervalu jsou k dispozici napˇr´ıklad v [18]. ˚ Procesor dotazu Vyhodnocen´ı cesty dotazu pak pˇredstavuje vyhodnocen´ı intervalu. pˇrevede cestu dotazu (posloupnost prvku˚ od koˇrene k aktuáln´ımu prvku) na interval ˚ stejnym jakym ´ zpusobem, ´ to provedl u cest bˇehem komprese XML. Poté vyhledá ty prvky, které odpov´ıdaj´ı dané cestˇe podle toho, zda interval cesty dotazu leˇz´ı v intervalu ˚ které odpov´ıdaj´ı hledané cesty prvku. Vyhodnocen´ı dotazu pak prob´ıhá pouze u prvku, cestˇe. Tento postup je tedy efektivnˇejˇs´ı, neˇz v pˇr´ıpadˇe XGrind, ktery´ porovnává kaˇzdou ˚ cestu. Nicménˇe ani tento zpusob nen´ı zcela optimáln´ı, jak je popsáno v následuj´ıc´ı kapitole 3.4.3. 3.4.3. XQzip. Autoˇri XQzip si vˇsimli u kompresn´ıch algoritmu˚ XGrind a XPRESS nˇekolika nedostatku˚ a navrhli dalˇs´ı metodu komprese XML s podporou dotazován´ı. XQZip rˇ eˇs´ı efektivnˇejˇs´ım ´ kodov´ an´ım struktury jak samotnou kompresi, tak i efektivnˇejˇs´ı dotazován´ı. Pro zvyˇ ´ sen´ı efektivity také pracuje s vyrovnávac´ı pamˇet´ı, pomoc´ı které zrychluje provádˇen´ı opakovanych ´ cˇ i podobnych ´ dotazu˚ [7]. Nejdˇr´ıve k problematickym ´ parti´ım XGrind a XPRESS. XGrind mus´ı pˇri vyhodno´ cen´ı dotazu procházet cely´ dokument a u kaˇzdého zakodovan´ eho prvku cˇ i atributu mus´ı porovnávat jeho cestu s cestou dotazu. Pokud se cesty shoduj´ı, dotaz se vyhodnot´ı. Pˇri.

(24) 20. provádˇen´ı dotazu tak mus´ı proj´ıt cely´ soubor a porovnávat jednotlivé cesty. XPRESS rˇ eˇs´ı ´ ˇ tuto problematiku pomoc´ı reverzn´ıho aritmetického kodov´ an´ı, které odstranuje nutnost porovnávat kaˇzdou cestu, protoˇze se s vyuˇzit´ım intervalu˚ vybere pouze odpov´ıdaj´ıc´ı podmnoˇzina cest. Nicménˇe i zde je nutné dále vyhodnotit cestu kaˇzdého prvku této ˚ ze byt podmnoˇziny a tato podmnoˇzina muˇ ´ stále velmi obsáhlá (pˇredevˇs´ım u rozsáhlych ´ ˚ u kterych XML dokumentu, ´ se cˇ asto opakuje stejná struktura). XGrind i XPRESS vytvárˇ´ı ˇ homomorfn´ı vystup, ktery´ je stejnˇe strukturovany´ jako vstup, coˇz má pˇres zminovan´ e ´ vyhody i jednu nevyhodu — pokud se v dokumentu objevuje v´ıce dat um´ıstˇenych ´ ´ ´ ve ˚ stejné struktuˇre, docház´ı k nárustu dat samotné struktury, protoˇze se uloˇzen´ı struktury nijak neoptimalizuje [7]. XQzip rˇ eˇs´ı oba uvedené problémy zaveden´ım struktury SIT (Structure Index Tree), d´ıky které docház´ı k odstranˇen´ı duplikovanych struktur. Pomoc´ı hashovac´ıch tabulek ´ ˚ této struktury. XQzip dokápak pˇriˇrazuje komprimované bloky dat jednotlivym ´ prvkum ˚ zˇ e efektivnˇeji vyhodnocovat dotazy, protoˇze nemus´ı prohledávat celou puvodn´ ı strukturu, ale pouze optimalizovanou v podobˇe SIT [7]. XQzip podporuje sˇ irˇs´ı sˇ kálu XPath dotazu˚ [7], nab´ız´ı tak rozsáhlejˇs´ı moˇznosti dotazovan´ı v komprimovanych ´ datech, neˇz jak je tomu u XGrind cˇ i XPRESS. Dalˇs´ı optimalizaˇcn´ı technikou, kterou XQzip vyuˇz´ıvá, je buffer-pool, ktery´ v pamˇeti udrˇzuje posledn´ı dekomprimované bloky dat, cˇ ´ımˇz se cˇ a´ steˇcnˇe ˇ odstranuje reˇzie potˇrebná pro opakovanou dekompresi dat u podobnych ´ cˇ i stejnych ´ dota˚ zu. Dalˇs´ı podrobnosti o XQzip jsou k dispozici napˇr´ıklad v [7].. 3.5. ´ ı Komprese XML bez podpory dotazovan´. Kategorie kompresn´ıch algoritmu˚ bez podpory dotazovan´ı zahrnuje ty algoritmy, které komprimuj´ı XML data s vyuˇzit´ım sémantickych ´ informac´ı (z´ıskanych ´ ze struktury XML). Pokud ale chceme s daty pracovat, mus´ıme je nejdˇr´ıve jako celek dekomprimovat, pak zpracovat a následnˇe opˇet jako celek komprimovat. Do této kategorie patˇr´ı napˇr´ıklad XMill, MHMPPM (XMLPPM), SCMPPM a Xml Structure Compression. Prvn´ı tˇri pˇredstavitelé — XMill, XMLPPM a SCMPPM — pracuj´ı na stejném principu. Zpracovávaj´ı a pˇripravuj´ı XML data tak, aby vyuˇzili co nejv´ıce vlastnost´ı kompresn´ıch ˚ které pouˇz´ıvaj´ı k fináln´ı kompresi. Mezi ty patˇr´ı pˇredevˇs´ım GZip, BZip2 a algoritmu, PPM. Metoda Xml Structure Compression se nezabyv´ ´ a kompres´ı samotnych ´ dat, ale speciali´ zuje se na efektivn´ı kodov´ an´ı struktury. K tomu vyuˇz´ıvá schémata XML, konkrétnˇe DTD. 3.5.1. XMill. ˚ XMill [14] patˇr´ı mezi nejznámˇejˇs´ı pˇredstavitele této kategorie kompresn´ıch algoritmu. Jako jeden z prvn´ıch pouˇzil myˇslenku komprimovat XML oddˇelen´ım struktury od dat a ´ data seskupit podle jejich sémantické pˇr´ıbuznosti. Struktura se koduje pomoc´ı slovn´ıkového ´ kodov´ an´ı, znaˇcky a názvy atributu˚ jsou tedy m´ısto neustálého vypisován´ı nahrazeny ˚ ´ odkazy do slovn´ıku. Uˇz jen tento zpusob kodov´ an´ı zaruˇc´ı sn´ızˇ en´ı datové nároˇcnosti ´ kodovan ych dat. Data se ukládaj´ı oddˇelenˇe, seskupená podle sémantického vyznamu ´ ´.

No results found