Web projektu DAR

Výzkumné centrum
Data - Algoritmy - Rozhodování

Založeno v roce 2005 s podporou MŠMT ČR (projekt 1M0572)

Přednášky

Automatická klasifikace textových dokumentů.

Přednášející:

Jana Novovičová

Od:

Mar. 21 2006 2:00PM

Do:

Mar. 21 2006 3:00PM

Místo:

místnost 474, ÚTIA AV ČR

Popis:

V posledních dvaceti letech roste množství informací uložených v textové podobě a tím i potřeba automaticky organizovat a klasifikovat textové dokumenty s ohledem na jejich využití v budoucnosti. Na semináři bude popsán problém klasifikace textových dokumentů, jeho základní varianty a hlavní etapy procesu klasifikace (reprezentace textových dokumentů, snížení dimenzionality a návrh klasifikačních pravidel).
Hlavním rysem a problémem klasifikace dokumentů je vysoká dimenzionalita příznakového prostoru při reprezentaci dokumentů pomocí příznaků/slov (několik desítek tisíc). Dominantní přístup k redukci dimensionality v klasifikaci dokumentů je globální výběr příznaků. Populární jsou metody, které se aplikují na jednotlivá slova, neboť jsou rychlé a jednoduché. Avšak tyto metody zcela ignorují existenci ostatních slov a jejich vzájemné vztahy.
Na semináři budou prezentovány nové algoritmy pro výběr příznaků/slov. Tyto algoritmy jsou založeny na modifikacich v této oblasti používaného kriteria vzájemné informace.

Kontaktní osoba:

Václav Šmídl (ÚTIA - Oddělení adaptivních systémů)

V rámci akce:

Pravidelný seminář Rozhodování a řízení za neurčitosti. (Kontaktní osoba: Miroslav Kárný)