Posted By: Jovo () on 'CZprogram'
Title:     Re: Parsovani HTML (XML)
Date:      Sat Nov 26 18:35:25 2011

Ahoj.

  Kdyz mate XML, XSLT je prvni volba. Pokud potrebujes delat spis neco 
slozitejsiho, tak XPath se blbe ladi - ja pouzivam Java:dom4j+jaxen a 
naprogramuji si to. Treba takove prochazeni elementu iteratorem a delani case 
je v kodu o hodne rychlejsi udelat a o dost lip se to udrzuje. Navic 
konstrukce v programovacim jazyku (substring, startsWIth, matches, porovnavani 
cisel,...) jsou bohatsi nez v XPath/XSLT... navic se pri zpracovani muzes 
treba juknout do databaze a vysledek modifikovat podle toho;)

  Pro parsovani HTML doporucuji knihovnu HTMLParser, ktera zvlada i nevalidni 
HTML. Ja ji pouzivam pri zpracovani vysledku vyhledavani v Katastru 
nemovitosti a drive jsem si stahoval informace o filmech z IMDB a CSFD.

Jovo.

Search the boards