Established in 2005 under support of MŠMT ČR (project 1M0572)

Lectures and Presetations

Automatická klasifikace textových dokumentů.

From:
Mar. 21 2006 2:00PM
To:
Mar. 21 2006 3:00PM
Place:
místnost 474, ÚTIA AV ČR
Description:
V posledních dvaceti letech roste množství informací uložených v textové podobě a tím i potřeba automaticky organizovat a klasifikovat textové dokumenty s ohledem na jejich využití v budoucnosti. Na semináři bude popsán problém klasifikace textových dokumentů, jeho základní varianty a hlavní etapy procesu klasifikace (reprezentace textových dokumentů, snížení dimenzionality a návrh klasifikačních pravidel).
Hlavním rysem a problémem klasifikace dokumentů je vysoká dimenzionalita příznakového prostoru při reprezentaci dokumentů pomocí příznaků/slov (několik desítek tisíc). Dominantní přístup k redukci dimensionality v klasifikaci dokumentů je globální výběr příznaků. Populární jsou metody, které se aplikují na jednotlivá slova, neboť jsou rychlé a jednoduché. Avšak tyto metody zcela ignorují existenci ostatních slov a jejich vzájemné vztahy.
Na semináři budou prezentovány nové algoritmy pro výběr příznaků/slov. Tyto algoritmy jsou založeny na modifikacich v této oblasti používaného kriteria vzájemné informace.
 
Copyright 2005 DAR XHTML CSS