konwersja plików PDF do HTML.





LEM - 30 Sty 2004 20:38
Zastanawiam sie czy jest to wogóle osiągalne w zadowalającej formie. Jeśli tak to gdzie szukać dobrego "konwertera". Próbowałem zapisywać PDFa do HTML za pomocą Adobe Acrobat ale robi z tego "sieczke" i gubi polskie litery.

Jakby ktoś miał jakieś informacje na ten temat to proszę się podzielić wiedzą





techrys - 31 Sty 2004 16:20
Jeżeli dysponujesz linuxem to zainteresuj się programikami pdf2txt i pdf2html. pdf2txt ma problem z ogonkami, więc ten drugi pewnie też, ale siorka pisze teraz pracę dyplomową i jest w miarę zadowolona z wyników konwersji.



bobo - 31 Sty 2004 18:22
PDF2HTML pod okna jest do zlapania na stronie http://e-lunatic.net/.
W trakcie przetwarzania tworzy folder na dysku z odpowiednia zawartoscią. Nie wiem czy on ma tylko problem z "ogonami", u mnie robi poprawnie, natomiast z rysunkiem wprowadził mnie w osłupienie. Po konwersji pliku pdf ( 170kB ) plik html + obrazek miał rozmiar 1,8MB 8O

Pozdrówka



jiwaniuk - 31 Sty 2004 23:08
bobo
Czy możesz napisać jak można wejść na tą stronę, bo mi poza dłonią i napisem Lunatyk nic się nie pokazuje.

Pozdrawiam wszystkich

jjanek





bobo - 31 Sty 2004 23:34
Kliknij na napise LUNATIC ( patrz załącznik )
Pozdrowka



LEM - 01 Lut 2004 00:10
Dzięki za informację. Ściągąłem program PDF2HTML i przyznać muszę, że działa znośnie. Jednak gubi mi polskie znaki

bobo

Może masz jakiś sposób na to, aby nie "gubił" ogonków



bobo - 01 Lut 2004 00:44
Nie wiem czy jest bezpośredni związek pomiędzy Acrobatem a PDF2HTML. Piszę to dlatego ze, do tworzenia dokumentów w formacie PDF używam Worda ( teksty ) i dokonuje konwersji z pomoca AdobeDistillera. W komp. mam zainstalowana pełną wersje Adobe Acrobata 5.0 i fonty ( polskie ) Type1 oraz Type2. Po tej konwersji do pdf, dostaje już gotowy plik z "ogonami" ( patrz załacznik: bascom.pdf ). Dodam tylko że generalnie jestem maniakiem jednej czcionki Verdana i wszystkie dokumenty piszę tym fontem. Dalej, dokonuje konwersji z pomocą PDF2HTML ( patrz załącznik: bascom.html ).
Pozdrówka



Kondzior - 16 Lut 2004 04:07
A tu cos dla skanujacych ABBYY Finereader 7.0 ma opcje czytania z obrazow (dowolnie-.jpg;.pdf) - osobiscie preferuje wlasnie jego-nie gubi zadnych polskich znakow.

Tutaj macie link do wersji TRIAL ze strony producenta...
http://fr7.abbyy.com/fr70pro/FR703966.exe



qrak_q - 13 Mar 2004 15:27
moze tu:
http://www.gohtm.com/convert_html.asp



nebo - 31 Mar 2004 07:20

PDF2HTML pod okna jest do zlapania na stronie http://e-lunatic.net/.
W trakcie przetwarzania tworzy folder na dysku z odpowiednia zawartoscią. Nie wiem czy on ma tylko problem z "ogonami", u mnie robi poprawnie, natomiast z rysunkiem wprowadził mnie w osłupienie. Po konwersji pliku pdf ( 170kB ) plik html + obrazek miał rozmiar 1,8MB 8O

Pozdrówka


wiesz co na tej stronie już nie ma tego programu mółbyś go zamieści na forum albo ewentualnie wysłać mi go na maila kubus_(małpa)tenbit.pl ... byłbym bardzo wdzięczny......



bobo - 31 Mar 2004 17:34
Nie bede umieszczal na forum tego programu, nie mam do tego prawa. Natomiast na wymienoinej witrynie trzeba troche "pogrzebac" i dostac sie do odpowiedniej strony na ktorej jest wym. program. Na dole strony sa ikony, dwie strzaleczki i domek ( patrz zalacznik ), nacisniecie tej w lewo cofa strony i tam na ktorejs z nich jest ten program.
Pozdrowka



nez - 12 Kwi 2004 19:07
WITAM
Jestem tu nowy i obcy. Całkiem przypadkowo trafiłem tu z wyszukiwarki.
Mam problem.
Chcę zrobić tłumaczenie przy użyciu DeuscheTranslatora z pliku PDF .Więc będę musiał go przekonwentowować na plik tekstowy.
Pilnie podążalem za wskazowkami umieszczonymi tu powyżej niestety nie radzę sobie technicznie z programem PDF2TXT -lub PDF2HTML po prostu nie umiem go obsłużyć .
W wyniku dzialania tegoż programu wychodzą mi pliki html-'owe tylko z jednym słowem "next" i/lub "Previous" pliki te mają po ok.360 bajtów lecz są puste .
TU MÓJ UKłON W KIERUNKU BOBO ,NEBO ,i LEM'a czy nie zechcielibyście podpowiedzieć krok po kroku jak postępować ? .. /Po polsku/ help po anngielsku do mnie też nie przemawia ;((
Z gory dziękuję .
POZDRAWIAM
nez



nez - 12 Kwi 2004 20:40
cd. nez
Zeby ułatwić ewentualnie odpowiedź to napiszę jak ja to robię /może uda się wychwycić mój błąd .
Odpalam plik PDF Acrobatem 4.0 z tekstem do przekonwentorowania. Uruchamiam program PDF2TXT a w nim otwieram MRNU następnie tam wybieram opcję OPEN PDF FILE wskazuję na wybrany plik .Po zatwierdzeniu program dość szybko przetwarza i pyta o nazwę/lokalizację dla nowo tworzonego pliku txt lub html.
w pliku txt mam oprócz nazwy i ścieżki dostępu do pliku takie parametry:

>>Creator : PScript5.dll Version 5.2
Producer : Acrobat Distiller 5.0 (Windows)
Created Date : D:20040323183207+01'00'
Modified Date: D:20040323183207+01'00'
SavedBy :
Encrypt : No
Version : 1.3
Filesize : 2291605
Page Count : 18<<

plus 18 linijek >> ----<< tyle ile jest stronic tekstu pdf

PYTANIE :CO ROBIĘ ŹLE ?

Pozdrawiam
nez



nebo - 13 Kwi 2004 09:13
no tak ale acrobat reader jest taka opcja ze możesz zaznaczyś tekst i go np. skopiować
pod tym adresem znajdziesz skriny jak to zrobić a może później wstawie tutaj te obraski...

http://www.pa.piwko.pl



eudajmonion - 13 Kwi 2004 10:43
nebo napisal:


no tak ale acrobat reader jest taka opcja ze możesz zaznaczyś tekst i go np. skopiować

w wiekszosci przypadkow to dziala, ale nie zawsze

http://www.elektroda.pl/rtvforum/viewtopic.php?p=592074#592074



bobo - 13 Kwi 2004 19:23
Podstawową sprawą jest spowodowanie aby program PDF2HTML, stał się w pełni fukcjonalny ( służy do tego dodatek na tej samej odsłonie e-lunatic ). W samym programie aby go obsługiwać nie trzeba "odkrywać
koła", jest tak prosty że aż "boli". Jedynie należy zwrócić uwagę na pewne ustawienia w File/Preferens/General ( można wywołać Ctrl + D ), jest tam pozycja Page Range, ma być ustawione All, reszta ustawień domyślna. Wynikowy produkt (plik html) jest obrazem strony pdf i o tym trzeba pamiętać, to nie jest konwersja typu ocr. Odnośnie Adobe Distillera, ten program też należy poprawnie skonfigurować aby rezultaty byly zadowalające. Najważniesze jest ustawienie Job options i tutaj mamy do wyboru: Press, Print, eBook, Screen, najlepsze jakościowo pliki ale zarazem największe rozmiarami uzyskujemy w ustawieniu Press, w miare dobre rezultaty daje ustawienie eBook.
Pozdrowka



nez - 13 Kwi 2004 21:03
No fajnie Dziękuję Wam Wszystkim za wlożony tu trud by mnie oświecić ale : -NADAL JESTEM CIEMNY JAK TABAKA W ROGU
1) Do NEBO Po co zaznaczać i kopiować tekst i co dalej z tym robić ?
2) Do BOBO jeżeli nie jest to konwersja OCR-owa to czy jest szansa na zrobienie z tego pliku tekstowego ?
Niestety ponieważ nie znam angielskiego a więc jestem kaleką w sieci ten program dla mnie to "odkrywanie koła
Jeszcze raz piękne dzięki dlej będę się z tym "pałował"
Z pozdrowieniem.
nez



bobo - 13 Kwi 2004 21:43
RE. nez Szanowny kolego, nieznajomość angielskiego nie robi z nikogo kaleki, ja nie umię pływać a jestem zapalonym wędkarzem i wody sie nie boje. Ale powaznie, wyjasnic należy pewne szczegóły. Pliki w formacie pdf, mogą byc tworzone metodą scanowania stron i wtedy zapomnij o mozliwosci konwersji, lub poprostu na piechotę, pisane "z palca" ( patrz co napisałem we wczesniejszych postach ). I to jest sedno problemu który Ciebie dotyka. Jezeli wynikowy plik pdf chcesz wyeksportowac do zbioru tekstowego, to umozliwia taka operacje darmowy AcrobatReader5CE ( menu Plik/Eksport dokumentu do tekstu... ) haczyk tkwi w tym że taki plik jest w formacie RTF ( czytany przez Worda ) i jest pozbawiony wszelkiej grafiki która moze byc obecna w dokumencie PDF. Ale akurat ten przypadek jest dla Ciebie nie istotny. Jezeli uda sie w twoim przypadku dostać taki zbiór to wtedy jest prosta sprawa, Word daje mozliwość eksportu do HTML a ten juz jest czytany przez DeuscheTranslatora ( bo domyslam sie że to jest takie właśnie narzędzie do konwersji html'i ). Bardzo łatwo mozna sprawdzić czy plik html bedzie tekstem czy obrazkiem, poprostu zobacz jego kod źródlowy i tam widac jak na "stole" co w nim jest. Pewnie którys z kolegów podsunie jakis inny pomysł na konwersje takich plików ale myslę ze ta metoda da Ci mozliwość uzyskania zadowalającego rezultatu.
Pozdrowka



nebo - 14 Kwi 2004 06:50

No fajnie Dziękuję Wam Wszystkim za wlożony tu trud by mnie oświecić ale : -NADAL JESTEM CIEMNY JAK TABAKA W ROGU
1) Do NEBO Po co zaznaczać i kopiować tekst i co dalej z tym robić ?

mówiłeś coś ze chciałeś to do jakiegoś łumacza wrzucić czy jakoś tak .....
tak więc kopiujesz i wklejasz .... i tłumacz zaczyna odwalać swoją działke to jest chyba proste (raczej)



bobo - 14 Kwi 2004 18:01
Re nebo, czy probowales ta metoda kopiowac dokumenty pdf z "ogonami" lub tp. ? bo jak na zlosc pojawiaja sie na kopi "krzaki" a wtedy translator przechodzi w tryb ogłupienia i cos marnie mu idzie ta dzialka.
Pozdrowka



nez - 14 Kwi 2004 22:36
Do NEBO
>>mówiłeś coś ze chciałeś to do jakiegoś łumacza wrzucić czy jakoś tak .....
tak więc kopiujesz i wklejasz .... i tłumacz zaczyna odwalać swoją działke to jest chyba proste (raczej) <<
no nie to nie takie proste NEBO ALE DZIĘKI
Nie mam pewności ale wszystko na to wskazuje że Translator toleruje tylko pliki tekstowe/doc.txt itp/
Probowalem to robic też tak
Konwentorowalem przeglądąrką plik pdf na tif. Potem zgodnie z sugestią z tego forum Fine Readerem skanować te pliki tif by z kolei zapisać to w formacie Wordowskiego doc. NO ALE MORDĘGA TO NIESAMOWITA Bo Fine Reader /7 .0 Trial/ robił tyle błędów że lepiej to po prostu przepisać .
Żeby uzmyslowić Wam to dodam że to prawdopodobnie skan 18 stron zapisany w pdf-ie Plik ma ponad 2,6 MB
SORRY W MIĘDZYCZASIE ODKRYŁEM TO CO PRZEOCZYLEM A PRZEOCZYŁEM DOŚĆ WYCZERPUJĄCĄ ODPOWIEDŹ BOBO ,KTÓRY nazywa ten moj przypadk "po imieniu"
Tak BOBO to jest dokładnie mój problem -skan sprobuję jeszcze dostosować się do Twoich wskazówek .
Podwójne DZIĘKI BOBO
raz za objaśnienie
drugi raz za użycie języka bardziej zrozumiałego dla lamera
POZDRAWIAM nez