plik


ÿþWalidacja drzew decyzji (A. Dbrowski: O teorii informacji. WSiP, Warszawa 1974) System identyfikacyjny S1 Czy rzucono 1 or 2 ? T N Y N Czy rzucono 3 lub 4 ? Czy rzucono 1 ? T N T N 1 2 Czy rzucono 3 ? Czy rzucono 5 ? T N T N 4 3 6 5 2*(1/6) + 2*(1/6) + 3*(1/6) + 3*(1/6) +3*(1/6) + 3*(1/6) = 1/3 + 1/3 + + 1/2 + 1/2 + 1/2 + 1/2 = 2.66 System identyfikacyjny S2 Czy rzucono 1 ? 1 Czy rzucono 3 lub 4 ? Czy rzucono 3 ? Czy rzucono 2 ? 3 4 2 Czy rzucono 5 ? 5 6 1*(1/6) + 2*(1/6) + 2*(1/6) + 3*(1/6) +4*(1/6) + 4*(1/6) = 1/6 + 1/3 + + 1/3 + 1/2 + 2/3 + 2/3 = 3.00 dla X = {x1, x2, x3, . . . xN} P{xi} = pi (i = 1, 2, 3, . . . N) E(S1) = 2.66 E(S2) = 3.00 S1 jest lepszy od S2 poniewa|: E(S1) < E(S2) System identyfikacyjny S3 X = {x1, x2, x3, . . . xN} p1 = 0.95, p2, p3, p4, p5, p6, = 0.01 E(S3) = 1.12 Obecnie rozstrzygniemy kolejne zagadnienie  mo|liwo[ci ut- worzenia optymalnego drzewa pytaD. Mamy zbiór liczb, które mog by rzdami wzBów terminal- nych w takim drzewie: S(x1) = 2 S(x3) = 3 S(x5) = 4 S(x2) = 2 S(x4) = 3 x1 x2 x3 x4 x5 Gdy wszystkie alternatywy (obiekty, przypadki) maj to same prawdopodobieDstwo, np. p1 = p2= p3 = p4 = p5 = 0.20, wtedy E(SE) = 2.80 Jednak|e gdy prawdopodobieDstwa s ró|ne, np.: p1 = 0.5, p2= 0.2, p3 = p4 = p5 = 0.1 to [rednia liczba pytaD w tym samym systemie identyfikacyj- nym, E(SD), wynosi 2.40. Co spowodowaBo, |e rozpatrywany system staB si lepszy? Zjawisko to zostalo spowodowane po- przez umiejscowienie (losowe) alternatyw bardziej prawdopo- dobnych w wzBch ni|szych rzdów (tj. wzBów osigalnych przy mniejszej liczbie pytaD). Std, zgodnie ze znan ogóln re- guB (znan pod nazw reguBy Huffmanna) konstruowania op- tymalnych systemów identyfikacyjnych, nale|y alternatywy o najwikszym prawdopodobieDstwie lokowa w drzewie pytaD w wzBach mo|liwie najni|szego rzdu. Sci[le mówic mo|na utworzy wiele ró|nych drzew, posiada- jcych wzBy terminalne okre[lonego rzdu. Jednak identyfika- cyjne odpowiadajce tym drzewom, nie musz by takie same, a równowa|ne. Musimy bowiem pamita, |e nie ka|da sek- wencja liczb n1, n2, n3, . . . , nN mo|e reprezentowa rzdy wz- Bów terminalnych. Na przykBad, liczby 1, 1, 1 nie mog by rz- dami li[ci w jakimkolwiek binarnym drzewie, poniewa| nie wicej ni| dwa wzBy mog by rzdu pierwszego. Zatem, inte- resujca mo|e by odpowiedz na ogólne pytanie: Jakie warunki musz speBnia liczby n1, n2, n3, . . nN, aby istnia- Bo drzewo binarne, którego wzBy terminalne maj odpowiednio rzd S(x1) = n1, S(x2) = n2, S(x3) = n3, . . . , S(xN) = nN ? Odpowiedzi na powy|sze pytanie jest nierowno[ Krafta. Li- czby n1, n2, n3, . . . nN mog by rzdami wzBów w pewnym drzewie wtedy i tylko wtedy, gdy speBniaj t nierówno[: W naszym przypadku nierówno[c Krafta jest speBniona (0.25 + 0.25 + 0.125 + 0.125 + 0.0625 = 0.8125), zatem liczby 2, 2, 3, 3 oraz 4 mog by rzdami wzBów terminalnych binarnego drze- wa uprzednio pokazanego. Porównanie [redniej liczby pytaD dla dwu (lub wicej) syste- mów identyfikujcych ten sam zbiór przypadków umo|liwia stwierdzenie, który z rozpatrywanych systemów jest lepszy. Na- le|y jednak postawi pytanie, czy (i kiedy?) dane drzewo jest optymalne, tzn. czy reprezentuje najlepszy system? Odpowiedz na to pytanie mo|na uzyska przyjmujc zaBo|enie, |e dla zbio- ru przypadków (alternatyw) X istnieje liczba, która jest doln granic warto[ci [redniej liczby pytaD wszystkich systemów iden- tyfikacyjnych tego zbioru X. Je|eli E(Sk) jest równe tej liczbie (dla pewnego systemu) wtedy wiemy na pewno, |e jest to naj- lepszy system identyfikacyjny danego zbioru alternatyw. Do- kBadny zapis wspomniaego zaBo|enia jest nastpujcy: Niech X = {x1, x2, x3, . . . xN} bdzie zbiorem alternatyw, za[ liczby P{xi} = pi (dla i = 1, 2, 3, . . . N) prawdopodobieDstwem elementów zbioru X. Wtedy dla ka|dego systemu identyfika- cyjnego S zachodzi nierówno[: E(S) >= H(X) gdzie jest ilo[ci informacji potrzebnej do identyfikacji elemetów z- bioru X, lub krócej - ilosci informacji zawartej w zbiorze X. H(X) [bitów] mo|e byc zatem uznane za [redni liczb pytaD w pewnym idealnym systemie rozpoznajcym elementy zbioru X. Niech, na przykBad X = {x1, x2, x3, x4}, P{x1} = 0.5 P{x2} = 0.25 P{x3} = P{x4} = 0.125 S(x1) = 1, S(x2) = 2, S(x3) = S(x4) = 3 E(S) = 0.5*1 + 0.25*2 + 0.125*3 + 0.125*3 = 7/4 H(X) =  0.5*log20.5  0.25*log20.25  2*(0.125*log20.125) = 7/4 Nasuwa si pytanie, dla jakich zbiorów X oraz odpowiednich systemów identyfikacyjnych Sk, jest wa|na (prawdziwa) zale|- no[ E(S) = H(X)? Inaczej mówic, jeste[my zainteresowani problemem, czy dla danego zbioru przypadków istnieje taki sy- stem identyfikacyjny, który speBnia t ogóln zale|no[? Mo|- liwo[ udzielenia odpowiedzi na to pytanie, mo|e oszczdzi mnóstwo niepotrzebnego wysiBku. U|ytecznym w rozstrzygni- ciu postawionego problemu jest teoremat stwierdzajcy, |e aby istniaB system S identyfikujcy elementy zbióru X, koniecznym i wystarczajcym jest aby dla ka|dego i = 1, 2, 3, . . . N, log2pi byB liczb czBkowit. Narzuca to wniosek, |e jedynie niektóre zbiory alternatyw mog mie absolutnie najlepszy system iden- tyfikacyjny [tzn. E(S) = H(X)]. Wszystkie inne zbiory przypad- ków (alternatyw) wykazuj tak wBa[ciwo[, |e zawsze istnieje system identyfikacyjny, w którym [rednia liczba pytaD ró|ni si od warto[ci H(X) o nie wicej ni| jeden, tzn. H(X) < E(S) < H(X) + 1. Wrómy do przykBadu rozwa|anego poprzednio (system E(SD)). Mamy E(SD) = 2.4 (dla nierówno rozdzielonych prawdopodo- bieDstw poszczególnych przypadków), podczas gdy: H(X) =  0.5*log20.5  0.2*log20.2 3(0.1*log20.1) = 1.961 Zatem E(SD) > H(X), a to oznacza, |e E(SD) nie jest optymalnym systemem identyfikacji alternatyw zbioru X. W rozpatrywa- nym przypadku jedynie mo|na przypuszcza, |e mo|e istnie taki system identyfikacji przypadków ze zbioru X, dla którego [rednia liczba pytaD jest bli|sza warto[ci H(X); w przypadku systemu doskonaBego E(SD) bdzie równe H(X). Musimy jednak sprawdzi, czy bdzie to mo|liwe? Okazuje si, |e dla rozpatry- wanego zbioru alternatyw (z przypisanymi warto[ciami praw- dopodobieDstwa) nie mo|na zaprojektowa optymalnego syste- mu, poniewa| log20.2 oraz log20.1 nie s liczbami caBkowitymi. Z tego wic wzgldu, [rednia liczba pytaD jest liczb z przedzia- Bu E(SD) " " <1.961, 2.961> " " [By mo|e nale|y przypomnie definicj logarytmu: logBN = Z BZ = N (np. log102 = 0.3010, poniewa| 100.3010 = 2) log2N = Z, wic 2Z = N Z ln 2 = ln N Z = ln N/ln 2 = ln N/0.6931 ]

Wyszukiwarka

Podobne podstrony:
8zti
8zti
8zti&
8zti uzup
8zti
8zti
8zti
8zti
8zti
8zti
8zti
8zti
8zti
8zti
8zti
8zti
8zti
8zti

więcej podobnych podstron