bibtype J - Journal Article
ARLID 0041014
utime 20240103182723.8
mtime 20060911235959.9
title (primary) (eng) Oscillating feature subset search algorithm for text categorization
specification
page_count 10 s.
serial
ARLID cav_un_epca*0258518
ISSN 0302-9743
title Lecture Notes in Computer Science
volume_id 44
volume 4225 (2006)
page_num 578-587
title (cze) Oscilační vyhledávací algoritmus výběru podmnožiny příznaků pro kategorizaci textových dokumentů.
keyword text classification
keyword feature selection
keyword oscillating search algorithm
keyword Bhattacharyya distance
author (primary)
ARLID cav_un_auth*0101171
name1 Novovičová
name2 Jana
institution UTIA-B
fullinstit Ústav teorie informace a automatizace AV ČR, v. v. i.
author
ARLID cav_un_auth*0101197
name1 Somol
name2 Petr
institution UTIA-B
full_dept Department of Pattern Recognition
fullinstit Ústav teorie informace a automatizace AV ČR, v. v. i.
author
ARLID cav_un_auth*0101182
name1 Pudil
name2 Pavel
institution UTIA-B
full_dept Department of Pattern Recognition
fullinstit Ústav teorie informace a automatizace AV ČR, v. v. i.
COSATI 09K
COSATI 12B
cas_special
project
project_id IAA2075302
agency GA AV ČR
ARLID cav_un_auth*0001801
project
project_id 507752
country XE
agency EC
ARLID cav_un_auth*0200689
project
project_id 2C06019
agency GA MŠk
ARLID cav_un_auth*0216518
research CEZ:AV0Z10750506
abstract (eng) The usability of the Oscillating Search algorithm for feature/word selection (FS) in text categorization is explored. The multiclass Bhattacharyya distance for multinomial model as the global feature subset selection criterion for reducing the dimensionality of the bag of words vector document represenation is used. This criterion takes into consideration inter-feature relationships. The experiments illustrate that using a non-trivial FS algorithm brings substantial improvement in classification accuracy.
abstract (cze) Prozkoumána použitelnost oscilačních vyhledávacích algoritmů pro výběr příznaků/slov v problému kategorizace textových dokumentů. Byla použita vícetřídní Bhattacharyya vzdálenost pro multinomický model jako globální kriterium pro výběr podmnožiny slov za účelem snížení dimensionality reprezentace dokumentů na základě "balíku slovů". Toto kriterium bere v úvahu vzájemné vztahy mezi slovy v dokumentu. Experimenty ilustrují, že použití netriviálních oscilačních metod pro výběr slov vede k podstatnému zlepšení klasifikační přesnosti.
reportyear 2007
RIV BB
permalink http://hdl.handle.net/11104/0134607
arlyear 2006
mrcbU63 cav_un_epca*0258518 Lecture Notes in Computer Science 0302-9743 Roč. 44 č. 4225 2006 578 587