日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

電子發(fā)燒友App

硬聲App

掃碼添加小助手

加入工程師交流群

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示
創(chuàng)作
電子發(fā)燒友網(wǎng)>電子資料下載>模擬數(shù)字>混合型缺失數(shù)據(jù)的填補方法研究論文資料免費下載

混合型缺失數(shù)據(jù)的填補方法研究論文資料免費下載

2019-02-11 | pdf | 2.63 MB | 次下載 | 免費

資料介紹

  隨著科技的不斷發(fā)展,數(shù)據(jù)的獲取及存儲能力有了極大提升,致使數(shù)據(jù)規(guī)模呈現(xiàn)急速膨脹態(tài)勢。這為數(shù)據(jù)挖掘和數(shù)據(jù)分析帶來更多機遇的同時,各種數(shù)據(jù)質量問題的研究也給我們提出了巨大的挑戰(zhàn),其中數(shù)據(jù)缺失是影響數(shù)據(jù)質量的重點問題之一。數(shù)據(jù)庫中大量的缺失值不僅嚴重影響應用者的查詢質量,還會對數(shù)據(jù)挖掘與數(shù)據(jù)分析結果的正確性造成影響,進而誤導決策。因此,本文針對缺失數(shù)據(jù)填補這類問題展開深入研究。目前缺失數(shù)據(jù)的填補方法很多,大部分方法是針對不完整數(shù)據(jù)中存在一種缺失類型的數(shù)據(jù)進行填補,但隨著數(shù)據(jù)量的增長,龐雜的數(shù)據(jù)中缺失類型往往是混合的,單純地應用現(xiàn)有的方法達不到一個很好的填補效果。為此,本文針對不同缺失類型同時出現(xiàn)在不完整數(shù)據(jù)中的這種復雜情況展開研究。主要工作如下:

  首先,本文針對常規(guī)型缺失數(shù)據(jù)的特點結合關聯(lián)規(guī)則的原理,提出了一種基于弱可用項集的數(shù)據(jù)填補方法,從關聯(lián)規(guī)則填補缺失值存在的兩個問題展開深入研究。第一,針對頻繁項集挖掘時間長這個問題提出了一種基于布爾矩陣的關聯(lián)規(guī)則挖掘方法,該方法結合布爾矩陣運算的特點來快速求解相關參數(shù),減少 I/O 操作的同時也從整體上優(yōu)化了頻繁項集的挖掘效率。第二,針對產(chǎn)生規(guī)則少影響填補率這個問題提出了一種基于弱可用項集的填補方法,該方法通過在頻繁與弱可用項集之間建立連接,一方面利用挖掘出的連接規(guī)則提高了填補率;另一方面利用挖掘出的互斥規(guī)則為下一步的填補提供了更有效的計算依據(jù)。

  然后,本文針對異常型缺失數(shù)據(jù)的特點結合推薦算法的思想,提出了一種基于元組相似度的數(shù)據(jù)填補方法。從相似元組的查找效率和求解元組相似度的準確性上進行優(yōu)化,一方面通過建立項目-元組倒排表來提高相似元組的查找效率;另一方面基于屬性貢獻度來計算元組相似度,最后利用 top-k 得分獲得最優(yōu)填補值。

  最后,本文采用一組真實的 UCI 數(shù)據(jù)集進行實驗,證明了本文提出的這套填補方法在混合型缺失數(shù)據(jù)中更高效。

  隨著互聯(lián)網(wǎng)及信息技術的高速發(fā)展,數(shù)據(jù)作為這些技術不可或缺的資源正在被以指數(shù)級增長的速度開采和挖掘,龐大的數(shù)據(jù)給社會生產(chǎn)、經(jīng)濟研究、生物醫(yī)學、信息科學研究等諸多領域的改革創(chuàng)新帶來無限機遇的同時,也帶來了越來越多的挑戰(zhàn),那就是如何挖掘出隱含在這些海量數(shù)據(jù)中有價值的信息和知識,因此,數(shù)據(jù)挖掘[1]作為一項重要的技術隨之應運而生,并得到社會生產(chǎn)、經(jīng)濟研究、生物醫(yī)療、科學研究等許多領域的廣泛應用,取得了巨大的社會效益和經(jīng)濟效益。然而許多模型和算法都是建立在高質量的數(shù)據(jù)集上,但現(xiàn)實世界中的數(shù)據(jù)集很多都存在數(shù)據(jù)缺失、數(shù)據(jù)不一致、數(shù)據(jù)冗余、噪聲數(shù)據(jù)等問題[2,3]。這些問題將嚴重影響數(shù)據(jù)挖掘的成功與否和適用性能,成為數(shù)據(jù)挖掘的障礙。因此,為了能有效地應用數(shù)據(jù)挖掘的方法和提高挖掘的質量,在對數(shù)據(jù)庫中的數(shù)據(jù)進行分析之前要對數(shù)據(jù)進行預處理,其中數(shù)據(jù)缺失問題的處理是預處理中非常重要的一個環(huán)節(jié)。

  在現(xiàn)實社會的各個領域中,數(shù)據(jù)缺失現(xiàn)象可以說是無處不在,且處理不當會對后續(xù)的生產(chǎn)和研究工作帶來很多不利影響。比如,在工業(yè)生產(chǎn)過程中,由于硬件設備等問題導致一些數(shù)據(jù)不能正常獲取;在大型普查過程中,可能因為時間、地理位置的變化導致普查結果的不完整;在醫(yī)療領域,經(jīng)常需要對各種病歷進行臨床實驗,但由于有些病人的檢驗結果不能第一時間獲取而導致實驗數(shù)據(jù)缺失的情況;在市場調研時,由于被調研者對于問題的理解程度不同,或是主觀的某些原因都會導致調研結果的缺失出現(xiàn)。可以看出數(shù)據(jù)缺失問題覆蓋了經(jīng)濟研究、社會生產(chǎn)、人們生活產(chǎn)品制造和科學研究的各個方面且不可避免,并且隨著數(shù)據(jù)量的激增呈現(xiàn)出一種上升的態(tài)勢,如果對缺失數(shù)據(jù)的處理僅僅停留在單一地處理(像刪除含缺失值記錄或使用均值填充)層面上,很難從整體上來把握數(shù)據(jù)的趨勢變化,更糟糕的是可能會因為這樣的分析結果導出錯誤的決策,這不管對于科學研究還是社會生產(chǎn)等各個領域都是不愿看到的。

  為了能在海量數(shù)據(jù)中挖掘出有意義的信息資源從而為決策者提供科學依據(jù),

  數(shù)據(jù)質量研究成為目前重要研究課題,其中合理填補缺失值、構建更為準確的完整數(shù)據(jù)集是課題研究中的一個難點和重點。因此,我們要認識到填補缺失值對于數(shù)據(jù)挖掘及數(shù)據(jù)分析有著重要的意義。

  1. 填補缺失值能夠防止刪除含有少量缺失值的重要記錄,這樣使得數(shù)據(jù)集中某些重要信息得以保留從而為正確決策提供有效依據(jù)。

  2. 填補缺失值能夠重新修復出一個完整的數(shù)據(jù)集,從而讓數(shù)據(jù)挖掘能在一個全總的數(shù)據(jù)集上進行分析,而不是在局部數(shù)據(jù)上進行分析,避免了因局部分析結果的片面性而產(chǎn)生錯誤的決策。

  3. 填補正確的缺失值可以避免因引入新的噪音而影響數(shù)據(jù)挖掘的效果。因此,深入研究數(shù)據(jù)缺失問題,不僅為了全面、準確地利用現(xiàn)有數(shù)據(jù)去反映真實的實際情況,更是為了能夠進行高層次的分析進而挖掘出這些數(shù)據(jù)隱含的、有用的關系和規(guī)則。所以,本文的主要工作就在于對現(xiàn)有的主流填補方法進行較全面的分析后,研究如何利用現(xiàn)有數(shù)據(jù)完成對數(shù)據(jù)集中存在的混合型缺失數(shù)據(jù)的填補工作,提出了一套新的缺失數(shù)據(jù)填補方法,并對其填補結果進行分析與評價,以期為實際數(shù)據(jù)預處理提供借鑒,具有非常重要的現(xiàn)實意義。

數(shù)據(jù)庫 數(shù)據(jù)挖掘 數(shù)據(jù)分析
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

下載該資料的人也在下載 下載該資料的人還在閱讀
更多 >

評論

查看更多

下載排行

本周

  1. 1PD取電芯片 ECP5702規(guī)格書
  2. 0.88 MB   |  3次下載  |  免費
  3. 2氮化鎵GaN FET/GaN HEMT 功率驅動電路選型表
  4. 0.10 MB   |  2次下載  |  免費
  5. 3EMC PCB設計總結
  6. 0.33 MB   |  2次下載  |  免費
  7. 41節(jié)電池用電池保護IC S-8261D系列數(shù)據(jù)手冊
  8. 3.07 MB   |  1次下載  |  1 積分
  9. 5PD取電芯片,可取5/9/12/15/20V電壓ECP5702數(shù)據(jù)手冊
  10. 0.88 MB   |  1次下載  |  免費
  11. 6飛騰FT2000-4 COM Express核心板技術手冊0603
  12. 1.22 MB  |  1次下載  |  免費
  13. 7飛騰S5000C-64雙路服務器系列應用宣傳冊--一乘科技
  14. 945.81 KB  |  1次下載  |  免費
  15. 8IP2345支持PD3.0等多種快充協(xié)議 支持4~6節(jié)串聯(lián)電池最大充電功率30W異步升降壓充電IC
  16. 1.41 MB  |  次下載  |  免費

本月

  1. 1美的電磁爐電路原理圖資料
  2. 4.39 MB   |  22次下載  |  10 積分
  3. 2反激式開關電源設計解析
  4. 0.89 MB   |  16次下載  |  5 積分
  5. 3耗盡型MOS FET產(chǎn)品目錄選型表
  6. 0.14 MB   |  3次下載  |  免費
  7. 4PD取電芯片 ECP5702規(guī)格書
  8. 0.88 MB   |  3次下載  |  免費
  9. 5氮化鎵GaN FET/GaN HEMT 功率驅動電路選型表
  10. 0.10 MB   |  2次下載  |  免費
  11. 6EMC PCB設計總結
  12. 0.33 MB   |  2次下載  |  免費
  13. 7PC5200 700V_10A GaN HEMT驅動器數(shù)據(jù)手冊
  14. 1.63 MB   |  1次下載  |  免費
  15. 81節(jié)電池用電池保護IC S-8261D系列數(shù)據(jù)手冊
  16. 3.07 MB   |  1次下載  |  1 積分

總榜

  1. 1matlab軟件下載入口
  2. 未知  |  935137次下載  |  10 積分
  3. 2開源硬件-PMP21529.1-4 開關降壓/升壓雙向直流/直流轉換器 PCB layout 設計
  4. 1.48MB  |  420064次下載  |  10 積分
  5. 3Altium DXP2002下載入口
  6. 未知  |  233095次下載  |  10 積分
  7. 4電路仿真軟件multisim 10.0免費下載
  8. 340992  |  191457次下載  |  10 積分
  9. 5十天學會AVR單片機與C語言視頻教程 下載
  10. 158M  |  183360次下載  |  10 積分
  11. 6labview8.5下載
  12. 未知  |  81605次下載  |  10 積分
  13. 7Keil工具MDK-Arm免費下載
  14. 0.02 MB  |  73831次下載  |  10 積分
  15. 8LabVIEW 8.6下載
  16. 未知  |  65991次下載  |  10 積分
南通市| 教育| 永修县| 仁布县| 彭水| 莆田市| 安丘市| 建宁县| 垣曲县| 姚安县| 龙泉市| 潼南县| 阜宁县| 康马县| 沙河市| 高淳县| 澄迈县| 神池县| 淮南市| 获嘉县| 湖北省| 驻马店市| 米易县| 新宾| 平安县| 永德县| 临澧县| 合江县| 天全县| 禹州市| 五常市| 怀仁县| 靖边县| 松滋市| 灯塔市| 田阳县| 闻喜县| 鸡西市| 建阳市| 安陆市| 乌苏市|