3784499257

3784499257



Wstęp

W niniejszej pracy zajmuję się problemem urównoleglania tekstów dwujęzycznych' na poziomie zdania. Rozwiązanie tego problemu polega na dopasowaniu do siebie odpowiadających sobie zdań w tekstach będących wzajemnymi tłumaczeniami. Dzięki opracowaniu algorytmów dokonujących tego zadania automatycznie możliwe stało się pozyskanie dużych urównoleglonych korpusów tekstów które znajdują zastosowanie w wielu aspektach związanych z lingwistyką komputerową, szczególnie zaś w tłumaczeniu automatycznym (ang. Machinę Translation) i tłumaczeniu wspomaganym komputerowo (ang. Computer Aided Translation).

Ponadto szerzej omawiam w niniejszej pracy także problem podziału tekstu na zdania, który jest jednym z istotnych elementów urównoleglania.

W pracy rysuje się pewien, co prawda nieostry, podział na część teoretyczną, którą tworzą pierwszy i drugi rozdział oraz część praktyczną - rozdziały trzeci i czwarty.

W pierwszym rozdziale zdefiniowane są podstawowe pojęcia związane z urównoleglaniem i segmentacją tekstów dwujęzycznych. Ponadto, krótko omówione są zastosowania opisywanych algorytmów.

W drugim rozdziale przedstawione są od strony teoretycznej dwa algorytmy urównoleglania tekstów dwujęzycznych: algorytm Gale'a i Churcha oraz algorytm Moore'a. Omówione jest ich podłoże matematyczne, sposób działania wraz z pseudokodem oraz pokrótce analiza złożoności obliczeniowej i skuteczność działania. Wybór omawianych algorytmów nie jest przypadkowy -algorytm Gale'a i Churcha jest szeroko rozpowszechnionym algorytmem bazującym wyłącznie na długościach segmentów. Zrozumienie mechaniki jego działania ułatwia znacznie zrozumienie bardziej złożonego algorytmu Moore'a, który w pierwszej fazie swego działania wykorzystuje algorytm podobny do algorytmu Gale'a i Churcha. Algorytm Moore'a jest jednym z najlepszych znanych obecnie algorytmów urównoleglania.

W trzecim rozdziale opisany jest program do segmentacji tekstu split. Program realizuje dwa stworzone przeze mnie algorytmy podziału tekstu, dla których dokonana jest w tym rozdziale analiza złożoności obliczeniowej. Omówiona jest również architektura programu oraz jego interfejs programistyczny.

Czwarty rozdział dotyczy programu do urównoleglania tekstów dwujęzycznych align, czyli

1 Po angielsku nazwa problemu brzmi bilingual text alignment. W języku polskim nie istnieje jednoznacznie zdefiniowany odpow iednik słowa alignment. Najczęściej stosow ane jest tłumaczenie dopasowywanie, ale moim zdaniem jest to określenie zbyt szerokie, dlatego stosuje określenie używ ane alternatywnie - urównoleglanie.



Wyszukiwarka

Podobne podstrony:
3 (2288) /WSTĘP Dydaktyka ogólna zajmuje się problematyką, której znajomość niezbędna jest nie tylko
Wstęp W niniejszym tomie staraliśmy się omówić znaczenie psychologii pracy i organizacji, wskazując
6 7 Pedagogika wczesnoszkolna, zajmująca się problematyką pracy edukacyjnej z dzieckiem w młodszym w
Wstęp W niniejszym tomie staraliśmy się omówić znaczenie psychologii pracy i organizacji, wskazując
WSTĘP Nie ukrywam, że pomysł napisania niniejszej pracy wziął się z pewnego rodzaju pozytywnego leni
Image026 TREŚĆ STANDARDU
skanuj0003 (236) Wstęp W niniejszej pracy podjęty został temat transportu bliskiego materiałów sypki
1. Psychologio pracy - zajmuje się prawidłowościami i nieprawidłowościami związanymi z pracą •
1. Wstęp W niniejszej pracy przedmiotem raportu jest próba określenia jakości wybranych produktów
Przykłady konstrukcji robotów przemysłowych 1. Wstęp Robotyka przemysłowa zajmuje się zagadnieniami
Ekonomika pracy zajmuje się zagadnieniami rynku pracy z punktu widzenia przedsiębiorstwa, pracownikó
46569 P1170517 370 Ol/akuuja należy, ze polscy badacze, zajmujący się problematyką gospodarczą, wyni

więcej podobnych podstron