Založeno v roce 2005 s podporou MŠMT ČR (projekt 1M0572)

Přednášky

Automatická klasifikace textových dokumentů.

Přednášející:
Od:
Mar. 21 2006 2:00PM
Do:
Mar. 21 2006 3:00PM
Místo:
místnost 474, ÚTIA AV ČR
Popis:
V posledních dvaceti letech roste množství informací uložených v textové podobě a tím i potřeba automaticky organizovat a klasifikovat textové dokumenty s ohledem na jejich využití v budoucnosti. Na semináři bude popsán problém klasifikace textových dokumentů, jeho základní varianty a hlavní etapy procesu klasifikace (reprezentace textových dokumentů, snížení dimenzionality a návrh klasifikačních pravidel).
Hlavním rysem a problémem klasifikace dokumentů je vysoká dimenzionalita příznakového prostoru při reprezentaci dokumentů pomocí příznaků/slov (několik desítek tisíc). Dominantní přístup k redukci dimensionality v klasifikaci dokumentů je globální výběr příznaků. Populární jsou metody, které se aplikují na jednotlivá slova, neboť jsou rychlé a jednoduché. Avšak tyto metody zcela ignorují existenci ostatních slov a jejich vzájemné vztahy.
Na semináři budou prezentovány nové algoritmy pro výběr příznaků/slov. Tyto algoritmy jsou založeny na modifikacich v této oblasti používaného kriteria vzájemné informace.
 
Copyright 2005 DAR XHTML CSS