3784500553

3784500553



Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego ...    233

Przykłady obliczeń:    A1 (1,1) = 5 * log2(4/4) = 0

A 1(2,2) = 7*log2(4/2) = 7

A 1(5,1) = 2*log2(4/3) = 2* log 10(4/3) / logl0(2) = 0.83 A2(5,l) = 0.83 / sqrt(2A2 + 0.83A2) = 0.38

Zauważmy, że Terml został „odrzucony” z powodu występowania we wszystkich dokumentach. Jest więc on nieistotny w analizowanym zbiorze dokumentów. W praktyce (duże rzeczywiste zbiory dokumentów) taka sytuacja będzie miała miejsce bardzo rzadko.

Macierz (1) jest w praktyce macierzą bardzo rzadką (ang. sparse). Jedynie znikoma część jej elementów ma wartości różne od zera. Ilustruje to rysunek 4, na którym pokazano stopień wypełnienia przykładowej macierzy wygenerowanej dla pewnego zbioru liczącego 1063 dokumentów, który zawiera ok. 9000 różnych termów (liczba po zastosowaniu stop listy oraz stemmera). Dla czytelności rysunku uwzględniono na nim wszystkie dokumenty oraz jedynie pierwsze 600 termów. Macierz zawiera jedyni 0.59% niezerowych elementów!

vtyi-Y’ i-li -ty

Rys. 4. Pierwsze 600 wierszy macierzy TDM dla przykładowego zbioru 1063 indeksowanych dokumentów

Istotną wadą przedstawionego modelu TDM jest fakt równego traktowania każdego termu, czyli nieuwzględnienie żadnej semantycznej zależności pomiędzy poszczególnymi słowami. W każdym języku istnieją jednak synonimy (np. akcja, papier wartościowy, walor) oraz tzw. poli-semy (np. zamek (w drzwiach) i zamek (obronny)). Wskutek tego trudno będzie na przykład odnaleźć w zbiorze dokumentów zaindeksowanym podstawową strukturą TDM pozycji dobrze pasujących do wydanego zapytania (ang. relevant documents), ale niezawierających w sobie jawnie fraz użytych w zapytaniu. Rozwiązaniem tego problemu jest odpowiednie przekształcenie macierzy TDM do postaci, która uwidacznia tzw. ukryte znaczenie semantyczne (ang. latent semantics). Analiza przeprowadzana na tak zmodyfikowanej strukturze danych zwana jest w literaturze analizą LSA (ang. latent sematic analysis) lub indeksowaniem LSI (ang. latent semantic indexing) [BD095, FDD88].

3.2. Analiz LSA oraz przekształcenie SVD

Analiza LSA oparta jest na algebraicznym przekształceniu (dekompozycji) SVD (ang. singular value decompositioń). Przekształcenie SVD jest operacją, która wykonana na macierzy TDM między innymi istotnie poprawia semantyczną jakość wyników zwracanych przez wyszukiwarki oparte o model wektorowy.

Istota pomysłu sprowadza się do wydobywania relacji leksykalnych (tu w znaczeniu podobieństwa semantycznego) pomiędzy słowami występującymi w analizowanym tekście. Pierwszym krokiem w analizie LSA jest oczywiście zbudowanie odpowiedniej macierzy TDM, co zostało



Wyszukiwarka

Podobne podstrony:
Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego ...
Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego ...
Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego ...
Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego ...
Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego ...   &nb
Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego ...
Metody algebraiczne w zadaniach eksploracji danych na przy kładzie automatycznego ...
Metody algebraiczne w zadaniach eksploracji danych na przy kładzie automatycznego ...
XVI Konferencja PLOUG Kościelisko Październik 2010 Metody algebraiczne w zadaniach eksploracji
img1 (10) Program wykładu Zadania administratora DBMS na przykładzie PostgreSGL: ♦    
13 54.    Buszko, Andrzej: Metody badań w dziedzinie nauk o zarządzaniu na przyk
case study in an enierprise). 2.    Zastosowanie metod eksploracji danych na wybranym
str 46 47 Armin GUGELMAN Szwajcaria ZADANIA PEDAGOGIKI SPECJALNEJ NA PRZYKŁADZIE SZWAJCARII Szkolnic
Metodykazarządzania jednostkami wymiaru sprawiedliwościStudium przypadku na przykładzieSądu Rejonowe
10870 slajd11 (178) EKSPLORACJA DANYCHZadania eksploracji danych: klasyfikacja Przykłady zadań klasy
32985 plyta 1 1 ĆWICZENIE 4PŁYTA ZASTOSOWANIE METODY MORY DO OKREŚLANIA PRZEMIESZCZEŃ NA PRZYKŁADZIE

więcej podobnych podstron