Posted By: johanka (still in grad school) on 'CZwww'
Title:     Re: php a extrakce rtf/doc/pdf...
Date:      Mon May 15 22:16:36 2006

> Nevite nekdo o nejake (spolehlive, bezpecne, rychle :o) knihovne
> pro php-ko (4), ktera by umela vycucnout z rtf/doc/pdf (prip.
> dalsich) vycucnout text (i s nabodenickama)?

Ja bohuzel opravdu nevim :) Parsovat pdf neni sranda, muj muz to 
ted resi do nejakyho projektu, je to dost husty, protoze obecny PDF
vypada tak, ze jen rika, co je na jake pozici na strance - klidne
jednotliva pismena. Takze poskladat z toho slova, odstavce (to
jeste jde) nebo nedejboze souvisly useky textu v pripade sloupcovy
ci jinak perverzni sazby je kompletne ukolem toho parsovaciho
programu, a rict "zvladnu vsechna PDF", to si netroufne zadnej
program, protoze to prakticky nejde. Doma se nam ted furt vali 
nejakej bulvarni tisk, protoze ten ma sazbu nejhorsi, tak je 
dobrej na odhadovani, jaky nejvetsi prasarny tam muzou bejt :) 
[I v Metru jsou perly, treba takova ta stranka od Dopravniho
podniku ma prej nejaky napisy, ktery jsou pak prekryty bilejma
obdelnikama...:) - to je taky jeden z pruseru, coz taky ten
parser musi umet, zjistit, co v tom vyslednym textu nakonec
vubec neni videt :)]

Tim chci rict, ze solidni program na parsovani pdf pravdepodobne
neexistuje (zatim, nez to ten muj napise a bude slavnej :)).
Prej ty slova a odstavce nektery programy zvladaj, ale komplet 
text moc ne...

Na doc a rtf jsem mela v ruce (ale uz nemam, daj se urcite nekde
najit) utility antiword a (asi) unrtf. Obe pousteny z shellu a 
vyhazujici plain text, jiste by se do toho PHP daly nejak adaptovat. 
Ale s nabodenickama to nebylo slavny :(. Myslim, ze zdrojaky to snad
u sebe melo, takze by se to asi taky dalo vyresit.

                                        johanka

Search the boards