Popis:
V posledních dvaceti letech roste množství informací uložených v textové podobě a tím i potřeba automaticky organizovat a klasifikovat textové dokumenty s ohledem na jejich využití v budoucnosti. Na semináři bude popsán problém klasifikace textových dokumentů, jeho základní varianty a hlavní etapy procesu klasifikace (reprezentace textových dokumentů, snížení dimenzionality a návrh klasifikačních pravidel).
Hlavním rysem a problémem klasifikace dokumentů je vysoká dimenzionalita příznakového prostoru při reprezentaci dokumentů pomocí příznaků/slov (několik desítek tisíc). Dominantní přístup k redukci dimensionality v klasifikaci dokumentů je globální výběr příznaků. Populární jsou metody, které se aplikují na jednotlivá slova, neboť jsou rychlé a jednoduché. Avšak tyto metody zcela ignorují existenci ostatních slov a jejich vzájemné vztahy.
Na semináři budou prezentovány nové algoritmy pro výběr příznaků/slov. Tyto algoritmy jsou založeny na modifikacich v této oblasti používaného kriteria vzájemné informace.