Liane BBS: CZwww: Re: php a extrakce rtf/doc/pdf...

Posted By: johanka (still in grad school) on 'CZwww' Title: Re: php a extrakce rtf/doc/pdf... Date: Mon May 15 22:16:36 2006 > Nevite nekdo o nejake (spolehlive, bezpecne, rychle :o) knihovne > pro php-ko (4), ktera by umela vycucnout z rtf/doc/pdf (prip. > dalsich) vycucnout text (i s nabodenickama)? Ja bohuzel opravdu nevim :) Parsovat pdf neni sranda, muj muz to ted resi do nejakyho projektu, je to dost husty, protoze obecny PDF vypada tak, ze jen rika, co je na jake pozici na strance - klidne jednotliva pismena. Takze poskladat z toho slova, odstavce (to jeste jde) nebo nedejboze souvisly useky textu v pripade sloupcovy ci jinak perverzni sazby je kompletne ukolem toho parsovaciho programu, a rict "zvladnu vsechna PDF", to si netroufne zadnej program, protoze to prakticky nejde. Doma se nam ted furt vali nejakej bulvarni tisk, protoze ten ma sazbu nejhorsi, tak je dobrej na odhadovani, jaky nejvetsi prasarny tam muzou bejt :) [I v Metru jsou perly, treba takova ta stranka od Dopravniho podniku ma prej nejaky napisy, ktery jsou pak prekryty bilejma obdelnikama...:) - to je taky jeden z pruseru, coz taky ten parser musi umet, zjistit, co v tom vyslednym textu nakonec vubec neni videt :)] Tim chci rict, ze solidni program na parsovani pdf pravdepodobne neexistuje (zatim, nez to ten muj napise a bude slavnej :)). Prej ty slova a odstavce nektery programy zvladaj, ale komplet text moc ne... Na doc a rtf jsem mela v ruce (ale uz nemam, daj se urcite nekde najit) utility antiword a (asi) unrtf. Obe pousteny z shellu a vyhazujici plain text, jiste by se do toho PHP daly nejak adaptovat. Ale s nabodenickama to nebylo slavny :(. Myslim, ze zdrojaky to snad u sebe melo, takze by se to asi taky dalo vyresit. johanka

Search the boards