Posted By: johanka (mama ma dve dema) on 'CZhelp'
Title: Re: kombinace dvou slov
Date: Tue Apr 20 09:26:09 2010
> Ahojda,
>
> zajimalo by me, zdali lze sehnat vsechny kombinace dvou slov o celkove delce
> X
> znaku, kde X=6 nebo X=9. Znaky mohou byt s diakritikou. Priklad pro X=6 by
Chapu to dobre tak, ze chces neco jako vygenerovat vsechny rezetce
delky N a pak overit, ktery z nich jsou (v cestine? nebo v jinym
jazyce? nebo to ma bejt jazykove nezavisly?) validni, tj. splnujou
tu Tebou danou podminku, ze to je konkatenace dvou slov existujicich
v tom jazyce (vcetne sklonovani, casovani apod.)? A nebo to neni
jenom konkatenace, ale dvojice, ktera se v tom jazyce skutecne
spolecne pouziva ve vetsim nez malem mnozstvi?
Na to potrebujes slovnik danyho jazyka. Ten si nejsnaz vyrobis tak,
ze si postahujes mraky textu v tom jazyce (jednoduchym robotem prosmejdis
cz domenu, nebo treba jen webovej prostor nejakejch novin, blogu apod.,
nejak nahrubo vyhazis html kod, hlavicky, paticky),
a z toho si ten slovnik vytahas. Nebo teda (nevim, jak presne ta uloha
zni) bud si vytahas unigramy (slova) a ty pak michas a vyjdou Ti
z toho treba kraviny, nebo bigramy (dve slova po sobe), no a pak to
mas jasny, ze ano, v zivym jazyce se tohle vyskytuje a staci jen
pak vybrat ty, co splnujou tu dylku.
Zalezi samozrejme, jak moc velkou ztratovost/chybovost (ja nevim, jak
se cesky rekne presicion a recall :)) si muzes dovolit, jestli Ti tenhle
postup bude stacit. Pokud ne, tak holt more data :) a nebo pockat jeste
tak rok nebo dva a my pak releasnem tool, kterej to bude stahovat a
cistit daleko lepe nez nahrubo :)
johanka