TRIVIÁLNÍ ALGORITMUS PRO VYHLEDÁVÁNÍ VZORKU TEXTU

Dokumentografické informační systémy

Induktivní informační systémy

V tomto textu budeme uvažovat induktivní DIS obsahující údaje o n dokumentech, indexovaných pomocí množiny m termů.

Struktura systému:

Struktura induktivního DIS se podobá dvojvrstvé neuronové síti. Systém tvoří dvě vrstvy uzlů:

Vstupní vrstva obsahuje m uzlů, reprezentujících termy t₁ .. t_m.

Výstupní vrstva obsahuje n uzlů, reprezentujících termy d₁ .. d_n.

Každý term je spojen s každým dokumentem orientovanou hranou, která je ohodnocena vahou . Tato síť spojů reprezentuje tedy informaci shodnou s vektorovým DIS. V induktivním DIS jsou kromě těchto vah, vedoucích od termů k dokumentům také obráceně orientované váhy , vedoucí od dokumentů zpět k termům.

Pokud , znamená to že term není pro identifikaci dokumentu nijak důležitý.

Pokud , znamená to že term je pro identifikaci dokumentu

velmi důležitý.

Dotaz v induktivním DIS:

Dotazem se rozumí, stejně jako ve vektorovem DIS, m-složkový vektor:

Pokud , znamená to že term není dle tazatele pro identifikaci hledaných dokumentů nijak důležitý.

Pokud , znamená to že term je dle tazatele pro identifikaci hledaných dokumentů

velmi důležitý.

Pro vyhodnocení, nakolik dokument odpovídá položenému dotazu se používá následující algoritmus.

Váhy v dotazu se vloží do vstupní vrstvy uzlů. T.j.

Pomocí dopředných vah se naindukují hodnoty v dokumentech. T.j. . (Tento krok je analogický k výpočtu podobností ve vektorovém modelu)

Pokud proběhl předepsaný počet cyklů, KONEC

Pomocí zpětných vah se naindukují nové hodnoty v termech. T.j. . (Tento krok zpětně naindukuje hodnoty u takových termů, které uživatel v dotazu nepoužil, ale jsou jimi identifikovány dotazu vyhovující dokumenty. Jedná se tedy o typ zpětné vazby, zde zabudované již do fáze vyhodnocení dotazu)

Zpět k bodu 2.

Model v tomto případě není příliš stabilní, protože se vzrůstajícím počtem cyklů narůstají hodnoty indukované v uzlech. To je způsobeno tím, že zpětný krok naidnukuje více termů než bylo v původním dotazu, více termů v dotazu naindukuje více uzly dokumentů a tak dále. Aby se zabránilo neustálému nárůstu indukovaných hodnot v uzlech, zavádí se na horní vrstvě (dokumentů) mechanizmus laterální inhibice. Ten spočívá v tom, že se model rozšíří o orientované hrany vedoucí mezi dvojicemi dokumentů, a ohodnocené vahami . Každý z uzlů dokumentů potlačuje úměrně své vnitřní hodnotě a váze na spojovací hraně hodnoty ostatních dokumentů. Takto upravený model vypadá po přidání nového kroku mezi kroky 2. a 3. takto:

Váhy v dotazu se vloží do vstupní vrstvy uzlů. T.j.

Pomocí dopředných vah se naindukují hodnoty v dokumentech. T.j. .

Pomocí laterálních vah se sníží hodnoty v okolních dokumentech. T.j..

Pokud proběhl předepsaný počet cyklů, KONEC

Pomocí zpětných vah se naindukují nové hodnoty v termech. T.j. .

Zpět k bodu 2.

Latrální inhibice předpokládá existenci n² dodatečných vah. Protože to představuje velké prostorové nároky (počet dokumentů je obvykle vysoký), modifikuje se algoritmus tak, že každý dokument má přiřazenu jen jednu váhu (schopnost potlačovat okolní dokumenty), která ohodnocuje všechny hrany z něj vedoucí, nebo se zvolí jedna jediná váha, která ohodnocuje úplně všechny laterální hrany. Tím se prostorové nároky na reprezentaci vah laterální inhibice zredukují z kvadratických na lineární či dokonce na konstantní.

Řízení výstupu v induktivních DIS

Jako ve vektorovém modelu.

Obrázek A - Induktivní informační systém

Siganturové informační systémy

Vznikly jako prostředek zpracování velmi rozsáhlých databází dokumentů v plném znění, uložených na pomalých médiích. Jejich rozvoj se zrychlil v době nástupu optických disků, které mají vysokou kapacitu a pomallé přístupové doby.

Nejedná se o přesné vyhledávání, proto se signaturové vyhledávání zařazuje jen jako předstupeň k nějaké jiné a přesnější metodě.

Principem signaturové metody je na základě malého množství dat a rychlého algoritmu vyřadit z přesného vyhledávání velké množství dokumentů, které nemohou obsahovat všechny požadované termy.

Dotazem se v tomto modelu rozumí množina termů (jedno- i víceprvková). Text (dokument) odpovídá dotazu, pokud obsahuje všechny uvedené termy.

Signaturou S se rozumí k-bitový binární řetězec s₁s₂...s_k.

Definice: S <= T právě když s_i <= t_i pro každé i.

Tvrzení: S <= T právě když S and not T = 0

Princip signaturového vyhledávání spočívá v přiřazení odpovídající signatury každému uloženému dokumentu a také hledanému vzorku textu. Pokud je přiřazení signatur dobře zvoleno, může při porovnávání signatury vzorku SV a signatury textu ST dojít k následujícím výsledkům:

SV and not ST <> 0 , text T nemůže obsahovat vzorek V

SV and not ST = 0 , text T může (ale nemusí) obsahovat vzorek V

Obrázek B - Signaturové vyhledávání

Pokud je výsledek nulový, je nutné použít přesnější vyhledávaní pro ověření přítomnosti vzorku textu v dokumentu. Snahou tedy je, aby k situacím, kdy je výsledek nulový a přitom dokument vzorek neobsahuje, docházelo co nejméně.

Přiřazení signatury k jednomu termu:

Každý term má přidělenu signaturu s jednou jedničkou na jiném místě. (Nulový výsledek porovnání zaručuje přítomnost termu v textu, ale signatury musí mít tolik bitů, kolik je různých termů).

Použije se (v principu libovolné) hašovací funkce h např:

h(term) Î {1,2,...,k} odpovídající signatura je 0₁0₂..0_h-11_h0_h+1..0_k

Pozn:

Metoda, kdy volíme hašovací funkci h(term) Î {0,1,...,2^k-1} a odpovídající signaturou je binární zápis h(term) se nepoužívá, protože výsledek obsahuje příliš mnoho jedniček

Přiřazení signatury k textu:

Signatury termů je možné přiřazovat dvojím způsobem:

Vrstvením - vznikne vrstvená signatura

Vhodná pro vytvoření jedné signatury pro víceslovný text.

Výsledná signatura vznikne navrstvením signatur jednotlivých termů na sebe pomocí operace OR

Řetězením - vznikne řetězená signatura

Vhodná pro vytvoření signatury pro strukturovaný záznam, napřklad v případě, že dokument je reprezentován n-ticí (<Autor>,<Název>,<Vydavatel>,...,<Abstrakt>,<Text>)

Výsledná signatura se vytvoří zřetězením signatur jednotlivých složek n-tice (signatura pro každou složku vznikla vrstvením signatur slov hodnoty této složky)

Pro každou ze složek je možné zvolit délku signatury samostatně.

Výhodou je možnost eliminace neodpovídajících záznamů na základě omezení jen v jedné složce.

Př: (Signatury složek jsou odděleny znakem “|”)

nechť signatura(“Alois”) = ‘00101000’ a signatura(“Jirásek”) = ‘00001010’,

Pokud budeme chtít nalézt knihy od Aloise Jiráska, bude mít signatura dotazu podobu 00101010|0...0|0...0|...|0...0|0...0.

Úseky signatury dotazu, které odpovídají jiným složkám než jménu autora jsou nulové.

Pokud bude

signatura(“Eduard”) = ‘01000010’ a signatura(“Bass”) = ‘10001000’,

díla Eduarda Basse neprojdou přes porovnání signatur.

Pokud ovšem bude např.

signatura(“Božena”) = ‘00100010’ a signatura(“Němcová”) = ‘10001000’,

naleznou se také všechna díla Boženy němcové. Na oddělení skutečných děl Aloise Jiráska od ostatních, která prošla porovnáním signatur je nutné použít přesnější metodu, například přímé vyhledání v textu pomocí některého z vyhledávacích automatů.

Při vrstvení slov dochází ke zvyšování počtu jedniček ve výsledné signatuře. Signatura, která obsahuje příliš mnoho jedniček, odpovídá příliš mnoha signaturám dotazu, a jí reprezentovaný text se musí často podrobně prohlížet. Snahou je proto počet jedniček v signatuře omezit. Toho se dosahuje pomocí rozdělení dokumentu na bloky. Rozdělení se provádí dvěma různými způsoby:

Na bloky pevné délky (FBS - fixed block size metoda)

každý blok obsahuje nejvýše předem pevně daný počet slov (nebo znaků)

Na bloky pevné váhy (FBW - fixed block weight metoda) - vahou se rozumí počet jedniček v signatuře

Do bloku se zařadí dolik slov, aby váha bloku nepřesáhla stanovenou hodnotu

Jako nejlepší se z hlediska výsledku jeví zvolit váhu rovnou k/2, tedy používat signatury, obsahující polovinu jedniček a polovinu nul.

Použití zástupných znaků (wildcards) v dotazu se obecně nedá použít. Po zvolení metody, vytvářející tzv. monotonní signatury je možné používat pravostranné rozšíření pomocí znaku “*”.

Def: Signatura se nazývá moonotonní, pokud pro každá dvě slova (fragmenty slov) u a v platí:

signatura(u.v) ³ signatura(u)

tedy: každé pravostranné prodloužení libovolného slova u má větší signaturu než původní slovo u.

Pokud bude signatura monotonní a v dotazu se použije výraz “datab*”, což odpovídá signatuře dotazu signatura(“datab”), budou dotazu odpovídat texty, obsahující libovolné pravostranné prodloužení slova “datab”, např. slova “databáze”, “databázový” a pod.

Def: N-gramem se rozumí posloupnost N po sobě jdoucích znaků textu. Pro N = 1, 2, 3, ... mluvíme o unigramech, bigramech, trigramech, ...

Vytvoření monotonní signatury:

Použije se (v principu libovolná) hašovací funkce h např:

h(fragment_slova) Î {1,2,...,k} odpovídající signatura je 0₁0₂..0_h-11_h0_h+1..0_k

monotonní signatura slova se vytvoří jako disjunkce signatur všech jeho prefixů, napříkald monotonní signatura slova “textový” se vytvoří jako disjunkce původních signatur fragmentů “t”, “te”, “tex”, “text”, “texto”, “textov” a “textový”.

Použije se (v principu libovolná) hašovací funkce h např:

h(N-gram) Î {1,2,...,k} odpovídající signatura N-gramu je 0₁0₂..0_h-11_h0_h+1..0_k

monotonní signatura slova se vytvoří jako disjunkce signatur všech jeho N-gramů, napříkald monotonní signatura slova “textový” se vytvoří (pro N=3) jako disjunkce původních signatur fragmentů “tex”, “ext”, “xto”, “tov” a “ový”.

Metoda 2. má výhodu, že N-gramů je pevné množství. Výsledek hašovací funkce rozdělí N-gramy do k tříd podle výsledku. Lze sestrojit hašovací tabulku pro zobrazení N-gramů do množiny {1,2,..k} tak aby celková pravděpodobnost výskytu N-gramů z jedné třídy v textu byla přibližně 1/k. V tom případě budou mít všechny pozice v signatuře stejnou rozlišovací schopnost.

V případě, že některý bit signatury se nastavuje příliš často, je jeho hodnota pro skoro každý text rovna jedné, a tím tento bit nijak neomezuje výslednou množinu dokumentů vzhledem k položenému dotazu.