Posted By: johanka (mama ma dve dema) on 'CZhelp' Title: Re: kombinace dvou slov Date: Tue Apr 20 09:26:09 2010 > Ahojda, > > zajimalo by me, zdali lze sehnat vsechny kombinace dvou slov o celkove delce > X > znaku, kde X=6 nebo X=9. Znaky mohou byt s diakritikou. Priklad pro X=6 by Chapu to dobre tak, ze chces neco jako vygenerovat vsechny rezetce delky N a pak overit, ktery z nich jsou (v cestine? nebo v jinym jazyce? nebo to ma bejt jazykove nezavisly?) validni, tj. splnujou tu Tebou danou podminku, ze to je konkatenace dvou slov existujicich v tom jazyce (vcetne sklonovani, casovani apod.)? A nebo to neni jenom konkatenace, ale dvojice, ktera se v tom jazyce skutecne spolecne pouziva ve vetsim nez malem mnozstvi? Na to potrebujes slovnik danyho jazyka. Ten si nejsnaz vyrobis tak, ze si postahujes mraky textu v tom jazyce (jednoduchym robotem prosmejdis cz domenu, nebo treba jen webovej prostor nejakejch novin, blogu apod., nejak nahrubo vyhazis html kod, hlavicky, paticky), a z toho si ten slovnik vytahas. Nebo teda (nevim, jak presne ta uloha zni) bud si vytahas unigramy (slova) a ty pak michas a vyjdou Ti z toho treba kraviny, nebo bigramy (dve slova po sobe), no a pak to mas jasny, ze ano, v zivym jazyce se tohle vyskytuje a staci jen pak vybrat ty, co splnujou tu dylku. Zalezi samozrejme, jak moc velkou ztratovost/chybovost (ja nevim, jak se cesky rekne presicion a recall :)) si muzes dovolit, jestli Ti tenhle postup bude stacit. Pokud ne, tak holt more data :) a nebo pockat jeste tak rok nebo dva a my pak releasnem tool, kterej to bude stahovat a cistit daleko lepe nez nahrubo :) johanka