Dokumentografické informační systémy

 

 

Induktivní informační systémy

 

V tomto textu budeme uvažovat induktivní DIS obsahující údaje o n dokumentech, indexovaných pomocí množiny m termů.

Struktura systému:

 

Struktura induktivního DIS se podobá dvojvrstvé neuronové síti. Systém tvoří dvě vrstvy uzlů:

 

 

Každý term je spojen s každým dokumentem orientovanou hranou, která je ohodnocena vahou . Tato síť spojů reprezentuje tedy informaci shodnou s vektorovým DIS. V induktivním DIS jsou kromě těchto vah, vedoucích od termů k dokumentům také obráceně orientované váhy , vedoucí od dokumentů zpět k termům.

 

velmi důležitý.

 

Dotaz v induktivním DIS:

 

Dotazem se rozumí, stejně jako ve vektorovem DIS, m-složkový vektor:

 

 

velmi důležitý.

 

Pro vyhodnocení, nakolik dokument odpovídá položenému dotazu se používá následující algoritmus.

 

  1. Váhy v dotazu se vloží do vstupní vrstvy uzlů. T.j.
  2. Pomocí dopředných vah se naindukují hodnoty v dokumentech. T.j. . (Tento krok je analogický k výpočtu podobností ve vektorovém modelu)
  3. Pokud proběhl předepsaný počet cyklů, KONEC
  4. Pomocí zpětných vah se naindukují nové hodnoty v termech. T.j. . (Tento krok zpětně naindukuje hodnoty u takových termů, které uživatel v dotazu nepoužil, ale jsou jimi identifikovány dotazu vyhovující dokumenty. Jedná se tedy o typ zpětné vazby, zde zabudované již do fáze vyhodnocení dotazu)
  5. Zpět k bodu 2.

 

Model v tomto případě není příliš stabilní, protože se vzrůstajícím počtem cyklů narůstají hodnoty indukované v uzlech. To je způsobeno tím, že zpětný krok naidnukuje více termů než bylo v původním dotazu, více termů v dotazu naindukuje více uzly dokumentů a tak dále. Aby se zabránilo neustálému nárůstu indukovaných hodnot v uzlech, zavádí se na horní vrstvě (dokumentů) mechanizmus laterální inhibice. Ten spočívá v tom, že se model rozšíří o orientované hrany vedoucí mezi dvojicemi dokumentů, a ohodnocené vahami . Každý z uzlů dokumentů potlačuje úměrně své vnitřní hodnotě a váze na spojovací hraně hodnoty ostatních dokumentů. Takto upravený model vypadá po přidání nového kroku mezi kroky 2. a 3. takto:

 

  1. Váhy v dotazu se vloží do vstupní vrstvy uzlů. T.j.
  2. Pomocí dopředných vah se naindukují hodnoty v dokumentech. T.j. .
  3. Pomocí laterálních vah se sníží hodnoty v okolních dokumentech. T.j..
  4. Pokud proběhl předepsaný počet cyklů, KONEC
  5. Pomocí zpětných vah se naindukují nové hodnoty v termech. T.j. .
  6. Zpět k bodu 2.

 

Latrální inhibice předpokládá existenci n2 dodatečných vah. Protože to představuje velké prostorové nároky (počet dokumentů je obvykle vysoký), modifikuje se algoritmus tak, že každý dokument má přiřazenu jen jednu váhu (schopnost potlačovat okolní dokumenty), která ohodnocuje všechny hrany z něj vedoucí, nebo se zvolí jedna jediná váha, která ohodnocuje úplně všechny laterální hrany. Tím se prostorové nároky na reprezentaci vah laterální inhibice zredukují z kvadratických na lineární či dokonce na konstantní.

 

Řízení výstupu v induktivních DIS

 

Jako ve vektorovém modelu.

 

Obrázek A - Induktivní informační systém

 

Siganturové informační systémy

 

Vznikly jako prostředek zpracování velmi rozsáhlých databází dokumentů v plném znění, uložených na pomalých médiích. Jejich rozvoj se zrychlil v době nástupu optických disků, které mají vysokou kapacitu a pomallé přístupové doby.

Nejedná se o přesné vyhledávání, proto se signaturové vyhledávání zařazuje jen jako předstupeň k nějaké jiné a přesnější metodě.

Principem signaturové metody je na základě malého množství dat a rychlého algoritmu vyřadit z přesného vyhledávání velké množství dokumentů, které nemohou obsahovat všechny požadované termy.

 

Dotazem se v tomto modelu rozumí množina termů (jedno- i víceprvková). Text (dokument) odpovídá dotazu, pokud obsahuje všechny uvedené termy.

 

Signaturou S se rozumí k-bitový binární řetězec s1s2...sk.

 

Definice: S <= T právě když si <= ti pro každé i.

Tvrzení: S <= T právě když S and not T = 0

 

Princip signaturového vyhledávání spočívá v přiřazení odpovídající signatury každému uloženému dokumentu a také hledanému vzorku textu. Pokud je přiřazení signatur dobře zvoleno, může při porovnávání signatury vzorku SV a signatury textu ST dojít k následujícím výsledkům:

 

SV and not ST <> 0 , text T nemůže obsahovat vzorek V

SV and not ST = 0 , text T může (ale nemusí) obsahovat vzorek V

 

Obrázek B - Signaturové vyhledávání

 

Pokud je výsledek nulový, je nutné použít přesnější vyhledávaní pro ověření přítomnosti vzorku textu v dokumentu. Snahou tedy je, aby k situacím, kdy je výsledek nulový a přitom dokument vzorek neobsahuje, docházelo co nejméně.

 

Přiřazení signatury k jednomu termu:

  1. Každý term má přidělenu signaturu s jednou jedničkou na jiném místě. (Nulový výsledek porovnání zaručuje přítomnost termu v textu, ale signatury musí mít tolik bitů, kolik je různých termů).
  2. Použije se (v principu libovolné) hašovací funkce h např:

 

Pozn:

 

Přiřazení signatury k textu:

Signatury termů je možné přiřazovat dvojím způsobem:

 

Př: (Signatury složek jsou odděleny znakem “|”)

nechť signatura(“Alois”) = ‘00101000’ a signatura(“Jirásek”) = ‘00001010’,

Pokud budeme chtít nalézt knihy od Aloise Jiráska, bude mít signatura dotazu podobu 00101010|0...0|0...0|...|0...0|0...0.

Úseky signatury dotazu, které odpovídají jiným složkám než jménu autora jsou nulové.

Pokud bude

signatura(“Eduard”) = ‘01000010’ a signatura(“Bass”) = ‘10001000’,

díla Eduarda Basse neprojdou přes porovnání signatur.

Pokud ovšem bude např.

signatura(“Božena”) = ‘00100010’ a signatura(“Němcová”) = ‘10001000’,

naleznou se také všechna díla Boženy němcové. Na oddělení skutečných děl Aloise Jiráska od ostatních, která prošla porovnáním signatur je nutné použít přesnější metodu, například přímé vyhledání v textu pomocí některého z vyhledávacích automatů.

Při vrstvení slov dochází ke zvyšování počtu jedniček ve výsledné signatuře. Signatura, která obsahuje příliš mnoho jedniček, odpovídá příliš mnoha signaturám dotazu, a jí reprezentovaný text se musí často podrobně prohlížet. Snahou je proto počet jedniček v signatuře omezit. Toho se dosahuje pomocí rozdělení dokumentu na bloky. Rozdělení se provádí dvěma různými způsoby:

Použití zástupných znaků (wildcards) v dotazu se obecně nedá použít. Po zvolení metody, vytvářející tzv. monotonní signatury je možné používat pravostranné rozšíření pomocí znaku “*”.

 

Def: Signatura se nazývá moonotonní, pokud pro každá dvě slova (fragmenty slov) u a v platí:

signatura(u.v) ³ signatura(u)

tedy: každé pravostranné prodloužení libovolného slova u má větší signaturu než původní slovo u.

Pokud bude signatura monotonní a v dotazu se použije výraz datab*, což odpovídá signatuře dotazu signatura(“datab”), budou dotazu odpovídat texty, obsahující libovolné pravostranné prodloužení slova “datab”, např. slova databáze”, “databázový” a pod.

 

Def: N-gramem se rozumí posloupnost N po sobě jdoucích znaků textu. Pro N = 1, 2, 3, ... mluvíme o unigramech, bigramech, trigramech, ...

 

Vytvoření monotonní signatury:

  1. Použije se (v principu libovolná) hašovací funkce h např:

  1. Použije se (v principu libovolná) hašovací funkce h např:

Metoda 2. má výhodu, že N-gramů je pevné množství. Výsledek hašovací funkce rozdělí N-gramy do k tříd podle výsledku. Lze sestrojit hašovací tabulku pro zobrazení N-gramů do množiny {1,2,..k} tak aby celková pravděpodobnost výskytu N-gramů z jedné třídy v textu byla přibližně 1/k. V tom případě budou mít všechny pozice v signatuře stejnou rozlišovací schopnost.

V případě, že některý bit signatury se nastavuje příliš často, je jeho hodnota pro skoro každý text rovna jedné, a tím tento bit nijak neomezuje výslednou množinu dokumentů vzhledem k položenému dotazu.