資料介紹
一種改進(jìn)的基于粗糙集理論的特征選取方法_王作飛
文本分類是文本挖掘的重要組成部分。通過(guò)該技術(shù)可以自 動(dòng)地為文檔集合中的每篇文檔確定類別, 并對(duì)它們進(jìn)行有效組 織和分類,以便檢索和分析,從而能夠使用戶方便、快捷地瀏覽 文檔,具有很高的實(shí)際應(yīng)用價(jià)值。文本分類一般分為訓(xùn)練和分類 階段,在分類階段,文本集經(jīng)過(guò)文本預(yù)處理后得到特征集。但是 特征集仍然是個(gè)高維的特征空間, 對(duì)于所有的分類算法來(lái)說(shuō)維 數(shù)都太大。因此,選擇一個(gè)合適的特征方法,以降低特征空間的 維數(shù),提高分類的效率和精度,往往成為文本分類的首選任務(wù)和 關(guān)鍵。 目前,常用的特征選擇算法一般是先構(gòu)建一個(gè)評(píng)估函數(shù),對(duì) 特征集中的每個(gè)特征獨(dú)立地進(jìn)行評(píng)估每個(gè)特征獲得一個(gè)評(píng)估 值,然后根據(jù)評(píng)估值對(duì)特征進(jìn)行排序,最后選取最佳的特征作為 類別中心特征向量。而選取多少個(gè)最佳特征主要針對(duì)某一個(gè)具 體的問(wèn)題通過(guò)實(shí)驗(yàn)來(lái)決定。現(xiàn)在這樣的評(píng)估函數(shù)有:文檔頻數(shù), 信息增益,期望交叉熵,互信息,CHI 統(tǒng)計(jì)法等。 作為一種處理含糊和不精確問(wèn)題的新型數(shù)學(xué)工具, 粗糙集 在處理不完備、不確定、不一致數(shù)據(jù)方面顯現(xiàn)出了其特有的優(yōu) 勢(shì)。針對(duì)以往基于粗糙集理論中正區(qū)域約簡(jiǎn)特征選取在處理不 一致決策表時(shí)存在的不足,本文通過(guò)過(guò)引入粒度函數(shù)的概念,并 以此為基礎(chǔ)采用粗糙集啟發(fā)式屬性約簡(jiǎn)方法實(shí)現(xiàn)了特征在分 類中的重要性度量標(biāo)定和約簡(jiǎn), 使原來(lái)的特征維數(shù)得到一定的 降低,建立了特征選擇與文本分類之間的聯(lián)系。該方法有效地提 高了分類的效率和準(zhǔn)確度,大大降低了文本分類子集的維數(shù),生 成規(guī)則易于理解, 適應(yīng)性強(qiáng)。最后用實(shí)驗(yàn)驗(yàn)證了該方法的可行
文本分類是文本挖掘的重要組成部分。通過(guò)該技術(shù)可以自 動(dòng)地為文檔集合中的每篇文檔確定類別, 并對(duì)它們進(jìn)行有效組 織和分類,以便檢索和分析,從而能夠使用戶方便、快捷地瀏覽 文檔,具有很高的實(shí)際應(yīng)用價(jià)值。文本分類一般分為訓(xùn)練和分類 階段,在分類階段,文本集經(jīng)過(guò)文本預(yù)處理后得到特征集。但是 特征集仍然是個(gè)高維的特征空間, 對(duì)于所有的分類算法來(lái)說(shuō)維 數(shù)都太大。因此,選擇一個(gè)合適的特征方法,以降低特征空間的 維數(shù),提高分類的效率和精度,往往成為文本分類的首選任務(wù)和 關(guān)鍵。 目前,常用的特征選擇算法一般是先構(gòu)建一個(gè)評(píng)估函數(shù),對(duì) 特征集中的每個(gè)特征獨(dú)立地進(jìn)行評(píng)估每個(gè)特征獲得一個(gè)評(píng)估 值,然后根據(jù)評(píng)估值對(duì)特征進(jìn)行排序,最后選取最佳的特征作為 類別中心特征向量。而選取多少個(gè)最佳特征主要針對(duì)某一個(gè)具 體的問(wèn)題通過(guò)實(shí)驗(yàn)來(lái)決定。現(xiàn)在這樣的評(píng)估函數(shù)有:文檔頻數(shù), 信息增益,期望交叉熵,互信息,CHI 統(tǒng)計(jì)法等。 作為一種處理含糊和不精確問(wèn)題的新型數(shù)學(xué)工具, 粗糙集 在處理不完備、不確定、不一致數(shù)據(jù)方面顯現(xiàn)出了其特有的優(yōu) 勢(shì)。針對(duì)以往基于粗糙集理論中正區(qū)域約簡(jiǎn)特征選取在處理不 一致決策表時(shí)存在的不足,本文通過(guò)過(guò)引入粒度函數(shù)的概念,并 以此為基礎(chǔ)采用粗糙集啟發(fā)式屬性約簡(jiǎn)方法實(shí)現(xiàn)了特征在分 類中的重要性度量標(biāo)定和約簡(jiǎn), 使原來(lái)的特征維數(shù)得到一定的 降低,建立了特征選擇與文本分類之間的聯(lián)系。該方法有效地提 高了分類的效率和準(zhǔn)確度,大大降低了文本分類子集的維數(shù),生 成規(guī)則易于理解, 適應(yīng)性強(qiáng)。最后用實(shí)驗(yàn)驗(yàn)證了該方法的可行
粗糙集理論
加入交流群
掃碼添加小助手
加入工程師交流群
下載該資料的人也在下載
下載該資料的人還在閱讀
更多 >
- 權(quán)重模糊粗糙集的改進(jìn)規(guī)則挖掘算法 4次下載
- 程度多粒度軟粗糙集模型綜述 1次下載
- 一種基于粗糙集聚類的報(bào)文格式推斷方法 3次下載
- 一種統(tǒng)計(jì)粗糙集模型 0次下載
- 一種改進(jìn)的變精度粗糙集漏洞威脅評(píng)估模型 0次下載
- 粗糙集理論的數(shù)據(jù)挖掘方法在水泥生產(chǎn)分解爐中的應(yīng)用_王夙娟 0次下載
- 粗糙集方法在紅外圖像增強(qiáng)中的應(yīng)用
- 基于粗糙集理論的網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)
- 基于粗糙集理論的空氣質(zhì)量智能數(shù)據(jù)分析
- 基于粗糙集規(guī)則提取算法的研究及應(yīng)用
- 基于遺傳算法的誤差因子粗糙集模型
- 基于粗糙集的啟發(fā)式約簡(jiǎn)算法
- 基于概率粗糙集模型的信息檢索
- 基于粗糙集理論的除氧系統(tǒng)智能控制器設(shè)計(jì)
- 基于粗糙集理論的入侵檢測(cè)方法研究
- 一種基于點(diǎn)、線和消失點(diǎn)特征的單目SLAM系統(tǒng)設(shè)計(jì) 932次閱讀
- 一種簡(jiǎn)單高效配置FPGA的方法 2.4k次閱讀
- 一種完全分布式的點(diǎn)線協(xié)同視覺(jué)慣性導(dǎo)航系統(tǒng) 1.5k次閱讀
- FLAT的一種改進(jìn)方案 2.5k次閱讀
- 基于改進(jìn)FCOS的鋼帶表面缺陷檢測(cè)算法 2.5k次閱讀
- 一種基于DSP+FPGA結(jié)構(gòu)的通用飛控計(jì)算機(jī)設(shè)計(jì)方法介紹 3k次閱讀
- 人工智能是一種改進(jìn)數(shù)據(jù)控制和處理的方法 3.6k次閱讀
- 研究人員提出了一種多尺度高效率的新模型FAMED-Net 4.4k次閱讀
- OpenAI提出了一種回報(bào)設(shè)置方法RND 3.8k次閱讀
- 一種自動(dòng)生成反向傳播方程的方法 4.3k次閱讀
- 【新專利介紹】一種改進(jìn)電表 1.6k次閱讀
- 基于激光誘導(dǎo)超塑性的卷對(duì)卷工藝制程是一種新的制造方法 5.6k次閱讀
- 一種新的基于電穿孔的皮膚高效核酸遞送方法 6.2k次閱讀
- 基于特征模理論和CMA技術(shù)的天線設(shè)計(jì) 1.1w次閱讀
- 一種matlab調(diào)用signaltap采集數(shù)據(jù)的方法 4.2k次閱讀
下載排行
本周
- 1MDD品牌三極管MMBT3906數(shù)據(jù)手冊(cè)
- 2.33 MB | 次下載 | 免費(fèi)
- 2MDD品牌三極管S9012數(shù)據(jù)手冊(cè)
- 2.62 MB | 次下載 | 免費(fèi)
- 3聯(lián)想flex2-14D/15D說(shuō)明書
- 4.92 MB | 次下載 | 免費(fèi)
- 4收音環(huán)繞擴(kuò)音機(jī) AVR-1507手冊(cè)
- 2.50 MB | 次下載 | 免費(fèi)
- 524Pin Type-C連接器設(shè)計(jì)報(bào)告
- 1.06 MB | 次下載 | 免費(fèi)
- 6新一代網(wǎng)絡(luò)可視化(NPB 2.0)
- 3.40 MB | 次下載 | 免費(fèi)
- 7MS1000TA 超聲波測(cè)量模擬前端芯片技術(shù)手冊(cè)
- 0.60 MB | 次下載 | 免費(fèi)
- 8MS1022高精度時(shí)間測(cè)量(TDC)電路數(shù)據(jù)手冊(cè)
- 1.81 MB | 次下載 | 免費(fèi)
本月
- 1愛(ài)華AIWA HS-J202維修手冊(cè)
- 3.34 MB | 37次下載 | 免費(fèi)
- 2PC5502負(fù)載均流控制電路數(shù)據(jù)手冊(cè)
- 1.63 MB | 23次下載 | 免費(fèi)
- 3NB-IoT芯片廠商的資料說(shuō)明
- 0.31 MB | 22次下載 | 1 積分
- 4H110主板CPU PWM芯片ISL95858HRZ-T核心供電電路圖資料
- 0.63 MB | 6次下載 | 1 積分
- 5UWB653Pro USB口測(cè)距通信定位模塊規(guī)格書
- 838.47 KB | 5次下載 | 免費(fèi)
- 6技嘉H110主板IT8628E_BX IO電路圖資料
- 2.61 MB | 4次下載 | 1 積分
- 7蘇泊爾DCL6907(即CHK-S007)單芯片電磁爐原理圖資料
- 0.04 MB | 4次下載 | 1 積分
- 8100W準(zhǔn)諧振反激式恒流電源電路圖資料
- 0.09 MB | 2次下載 | 1 積分
總榜
- 1matlab軟件下載入口
- 未知 | 935137次下載 | 10 積分
- 2開(kāi)源硬件-PMP21529.1-4 開(kāi)關(guān)降壓/升壓雙向直流/直流轉(zhuǎn)換器 PCB layout 設(shè)計(jì)
- 1.48MB | 420064次下載 | 10 積分
- 3Altium DXP2002下載入口
- 未知 | 233089次下載 | 10 積分
- 4電路仿真軟件multisim 10.0免費(fèi)下載
- 340992 | 191439次下載 | 10 積分
- 5十天學(xué)會(huì)AVR單片機(jī)與C語(yǔ)言視頻教程 下載
- 158M | 183353次下載 | 10 積分
- 6labview8.5下載
- 未知 | 81602次下載 | 10 積分
- 7Keil工具M(jìn)DK-Arm免費(fèi)下載
- 0.02 MB | 73822次下載 | 10 積分
- 8LabVIEW 8.6下載
- 未知 | 65991次下載 | 10 積分
電子發(fā)燒友App





創(chuàng)作
發(fā)文章
發(fā)帖
提問(wèn)
發(fā)資料
發(fā)視頻
上傳資料賺積分
評(píng)論