日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大數(shù)據(jù)挖掘,數(shù)據(jù)結(jié)構(gòu)化首當(dāng)其沖

MqC7_CAAI_1981 ? 來源:未知 ? 作者:李倩 ? 2018-06-11 09:39 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

現(xiàn)實(shí)中的大數(shù)據(jù)常常表示為一種非結(jié)構(gòu)化,交叉和動(dòng)態(tài)變化的文本數(shù)據(jù)。如何從大規(guī)模文本數(shù)據(jù)中抽取結(jié)構(gòu)化知識(shí)是一個(gè)非常值得研究的任務(wù)。很多研究工作依賴于勞動(dòng)密集型的數(shù)據(jù)標(biāo)注,用有監(jiān)督的方法去抽取知識(shí)。但是,這些方法不具有普適性,難以擴(kuò)展,進(jìn)而難以處理具有動(dòng)態(tài)性或領(lǐng)域限定性的文本數(shù)據(jù)。我們認(rèn)為大規(guī)模的文本數(shù)據(jù)其自身蘊(yùn)含著大量的模式、結(jié)構(gòu)或知識(shí)。通過將無領(lǐng)域限制的大規(guī)模文本數(shù)據(jù)和具有領(lǐng)域限制的知識(shí)庫(kù)結(jié)合,我們可以充分發(fā)揮大規(guī)模文本數(shù)據(jù)的優(yōu)勢(shì)去處理非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)的難題。

——韓家煒

2018中國(guó)人工智能大會(huì)(CCAI2018)將于7月28日至29日在深圳舉行,韓家煒教授屆時(shí)將在會(huì)上分享他關(guān)于大規(guī)模文本數(shù)據(jù)挖掘的最新研究,發(fā)表題為《基于海量文本數(shù)據(jù)的結(jié)構(gòu)化知識(shí)抽?。簲?shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和自然語(yǔ)言處理的融合技術(shù)》的主題演講,探討如何借助大規(guī)模文本數(shù)據(jù)自身的力量去做大規(guī)模的知識(shí)提取。

適逢盛會(huì),心向往之。會(huì)前,我們整理了韓教授以往關(guān)于大數(shù)據(jù)挖掘的相關(guān)觀點(diǎn),方便大家一睹為快。

韓家煒現(xiàn)為美國(guó)伊利諾伊大學(xué)香檳分校計(jì)算機(jī)系教授,ACM會(huì)士和IEEE會(huì)士,被稱為“數(shù)據(jù)挖掘第一人”。他在數(shù)據(jù)挖掘領(lǐng)域有重要的學(xué)術(shù)影響力,發(fā)表論文600余篇,出版多部專著。曾擔(dān)任國(guó)際知名會(huì)議KDD、SDM和ICDM程序委員會(huì)主席,創(chuàng)辦了學(xué)術(shù)期刊ACM TKDD并擔(dān)任主編。曾榮獲2004 ACM SIGKDD創(chuàng)新獎(jiǎng)、2005 IEEE計(jì)算機(jī)分會(huì)技術(shù)成就獎(jiǎng)、2009 IEEE計(jì)算機(jī)協(xié)會(huì)的M. Wallace McDowell獎(jiǎng)。他的專著Data Mining: Concepts and Techniques被公認(rèn)為數(shù)據(jù)挖掘領(lǐng)域的經(jīng)典教材。

大數(shù)據(jù)挖掘,數(shù)據(jù)結(jié)構(gòu)化首當(dāng)其沖

大數(shù)據(jù)(Big data或Megadata),或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模十分巨大,以至于無法在合理時(shí)間內(nèi)通過人工截取、管理、處理、并整理成為人類所能解讀的信息。在總數(shù)據(jù)量相同的情況下,與個(gè)別分析獨(dú)立的小型數(shù)據(jù)集(data set)相比,將各個(gè)小型數(shù)據(jù)集合并后進(jìn)行分析可得出許多額外的信息和數(shù)據(jù)關(guān)系性,可用來察覺商業(yè)趨勢(shì)、判定研究質(zhì)量、避免疾病擴(kuò)散、打擊犯罪或測(cè)定實(shí)時(shí)交通路況等;這樣的用途正是大型數(shù)據(jù)集盛行的原因。

我們這個(gè)時(shí)代,由于互聯(lián)網(wǎng)的發(fā)展,產(chǎn)生了大量數(shù)據(jù)。這些數(shù)據(jù)中絕大部分(超過 80%)都是以文本等無結(jié)構(gòu)或半結(jié)構(gòu)的方式存儲(chǔ)。所以,挖掘大數(shù)據(jù)首先就是要系統(tǒng)地研究如何挖掘無結(jié)構(gòu)的文本數(shù)據(jù),也就是說,要實(shí)現(xiàn)從Big Data 到Actionable Knowledge的轉(zhuǎn)變。

韓家煒認(rèn)為,要將無結(jié)構(gòu)的 Big Data 變成有用的 Knowledge,首先要做的就是將數(shù)據(jù)結(jié)構(gòu)化。他提出兩種結(jié)構(gòu)化數(shù)據(jù)的形式,一種是異質(zhì)網(wǎng)絡(luò)(Heterogeneous Network),另一種是多維文本立方體(Multi-dimensional Text Cube)。由結(jié)構(gòu)化數(shù)據(jù)生成 Knowledge 已經(jīng)證明是很強(qiáng)大的,但是如何將原始無結(jié)構(gòu)的數(shù)據(jù)變成有結(jié)構(gòu)的數(shù)據(jù)(Network 或 Text Cube)則是非常困難的。

在 Network/Text Cube 到 Knowledge 的問題上,韓家煒等人已經(jīng)做了很多研究工作,也已經(jīng)由此獲得了很多獎(jiǎng)項(xiàng);在無結(jié)構(gòu)文本數(shù)據(jù)到有結(jié)構(gòu) Network/Text Cube 的路上他們也做出了許多嘗試和成果,現(xiàn)在仍在不斷求索中。

數(shù)據(jù)挖掘三部曲

韓家煒認(rèn)為,數(shù)據(jù)挖掘的研究工作可以總結(jié)為三部曲:

(1)從文本數(shù)據(jù)中挖掘隱藏的結(jié)構(gòu)。文本數(shù)據(jù)中隱藏著大量的結(jié)構(gòu),這步工作就是將這些數(shù)據(jù)挖掘出來

(2)將文本數(shù)據(jù)轉(zhuǎn)化為有類型的 Network/Text Cube。將文本數(shù)據(jù)變成有結(jié)構(gòu)、有類型的數(shù)據(jù)(Network/Text Cube)

(3)挖掘 Network/Text Cube 生成有用的知識(shí)。最后一步才是挖掘。

此外,在研究的推進(jìn)過程中,他們也曾遇到了很多困難。

一是領(lǐng)域限制。用一般語(yǔ)料獲得的實(shí)體標(biāo)注在特定領(lǐng)域、動(dòng)態(tài)領(lǐng)域或者新興的領(lǐng)域無法很好的工作。

二是名稱的歧義性。多個(gè)實(shí)體可能共享同一個(gè)表面名字(Surface Name,例如「Washington」,它可能是州、市、人名、球隊(duì)名等)。

三是上下文稀疏。對(duì)同一個(gè)關(guān)系可能有許多種表示方法(想想中文有多少中表示體育比賽結(jié)果的方法)。

雖然數(shù)據(jù)挖掘已經(jīng)有了成型的結(jié)構(gòu),但仍有重重困難需要克服。韓教授曾說:“在這條路上,我們現(xiàn)在只是找到了幾個(gè)口子可以往前走。現(xiàn)在這還不是一條大路,只是一條小路。要想變成一條康莊大道,需要大家共同努力。這條路通寬了,將來我們就可以從大量的無結(jié)構(gòu)的文本,變成大量的有用的知識(shí)?!?/p>

在即將到來的盛夏,韓家煒教授作為中國(guó)人工智能大會(huì)的特邀嘉賓,將會(huì)介紹他最近的研究:如何借助大規(guī)模文本數(shù)據(jù)自身的力量去做大規(guī)模的知識(shí)抽???主要包括關(guān)鍵短語(yǔ)抽取,基于遠(yuǎn)監(jiān)督的實(shí)體識(shí)別和關(guān)系分類,基于模式的信息提取方法,多元分類的自動(dòng)發(fā)現(xiàn)以及多維文本數(shù)據(jù)集的構(gòu)建等方法。在CCAI2018的報(bào)告中,韓家煒教授將證明數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和自然語(yǔ)言處理三個(gè)技術(shù)進(jìn)行融合是一個(gè)“非常重要且極有前途”的方向。

在CCAI2018,跟隨開路先鋒韓家煒教授,一起踏上這條非常重要且極有前途的路吧!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1821

    文章

    50403

    瀏覽量

    267232
  • 數(shù)據(jù)挖掘
    +關(guān)注

    關(guān)注

    1

    文章

    406

    瀏覽量

    25133
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    9102

    瀏覽量

    144108

原文標(biāo)題:CCAI2018 | 韓家煒:大規(guī)模文本數(shù)據(jù)挖掘的新方向

文章出處:【微信號(hào):CAAI-1981,微信公眾號(hào):中國(guó)人工智能學(xué)會(huì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    告別手動(dòng)!1688商品詳情API讓你秒級(jí)獲取商品數(shù)據(jù)

    分析 價(jià)格/庫(kù)存監(jiān)控 商品信息同步到自家平臺(tái) 2. API 獲取商品數(shù)據(jù)的優(yōu)勢(shì) 優(yōu)勢(shì) 說明 秒級(jí)響應(yīng) API 直接返回 JSON 數(shù)據(jù),比爬蟲快且穩(wěn)定 自動(dòng) 可批量抓取,無需人工操作 數(shù)據(jù)結(jié)
    的頭像 發(fā)表于 05-09 16:44 ?6次閱讀

    破解通信盲區(qū):云翎智能低軌衛(wèi)星通信數(shù)據(jù)終端構(gòu)建極端環(huán)境下的應(yīng)急通信韌性

    在地震、洪水、礦山事故等極端災(zāi)害場(chǎng)景中,地面通信基站往往首當(dāng)其沖,導(dǎo)致通信中斷,形成信息孤島,嚴(yán)重阻礙救援指揮與災(zāi)情研判。云翎智能推出的低軌衛(wèi)星物聯(lián)網(wǎng)通信終端,正是為了破解這一難題,通過構(gòu)建空天地
    的頭像 發(fā)表于 03-30 21:05 ?1507次閱讀
    破解通信盲區(qū):云翎智能低軌衛(wèi)星通信<b class='flag-5'>數(shù)據(jù)</b>終端構(gòu)建極端環(huán)境下的應(yīng)急通信韌性

    NVIDIA cuDF和cuVS獲全球領(lǐng)先數(shù)據(jù)平臺(tái)采用

    企業(yè)每年產(chǎn)生數(shù)百 ZB (Zettabyte) 的數(shù)據(jù),并在爭(zhēng)相將這些信息轉(zhuǎn)化為洞察。NVIDIA cuDF 和 cuVS 作為基于 NVIDIA CUDA-X 構(gòu)建的加速數(shù)據(jù)庫(kù),正在被各行業(yè)的數(shù)據(jù)平臺(tái)所應(yīng)用,帶來至高 5 倍性
    的頭像 發(fā)表于 03-19 15:46 ?498次閱讀

    生成式AI賦能工程師挖掘結(jié)構(gòu)化數(shù)據(jù)價(jià)值

    您是否知道,生成式 AI(GenAI)可以幫助工程師在幾秒鐘內(nèi)診斷汽車故障,甚至在設(shè)備出現(xiàn)問題之前預(yù)測(cè)潛在失效?GenAI 正在通過加速數(shù)據(jù)分析和算法開發(fā),讓這些場(chǎng)景從設(shè)想走向現(xiàn)實(shí),使工程師能夠充分發(fā)揮專業(yè)知識(shí),挖掘可執(zhí)行的洞察。
    的頭像 發(fā)表于 02-28 10:24 ?650次閱讀

    物聯(lián)網(wǎng)數(shù)據(jù)中臺(tái)的功能應(yīng)用有哪些

    源,包括數(shù)據(jù)庫(kù)、文件系統(tǒng)、云存儲(chǔ)、物聯(lián)網(wǎng)設(shè)備、社交媒體等,將分散在不同系統(tǒng)中的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)采集到
    的頭像 發(fā)表于 02-26 14:35 ?248次閱讀

    技術(shù)分享|道路數(shù)據(jù)編輯與格式適配解析

    結(jié)構(gòu)化道路的加工,工作流程通常依賴于明確的數(shù)據(jù)基礎(chǔ)和后續(xù)的可視化處理。在進(jìn)入U(xiǎn)nrealEngine或Blender等工具進(jìn)行地圖外觀加工之前,具備完整、準(zhǔn)確的
    的頭像 發(fā)表于 02-13 16:01 ?216次閱讀
    技術(shù)分享|道路<b class='flag-5'>數(shù)據(jù)</b>編輯與格式適配解析

    數(shù)字的基礎(chǔ)是什么

    、用戶交互等渠道持續(xù)收集結(jié)構(gòu)化(如數(shù)據(jù)庫(kù)記錄)和非結(jié)構(gòu)化數(shù)據(jù)(如文本、圖像、視頻)。 數(shù)據(jù)存儲(chǔ)與管理 :依賴
    的頭像 發(fā)表于 02-04 17:53 ?1338次閱讀

    結(jié)構(gòu)化布線中使用電纜標(biāo)簽的4個(gè)主要優(yōu)勢(shì)

    在現(xiàn)代通信和網(wǎng)絡(luò)基礎(chǔ)設(shè)施建設(shè)中,結(jié)構(gòu)化布線系統(tǒng)扮演著至關(guān)重要的角色。它不僅確保了網(wǎng)絡(luò)的高效傳輸和穩(wěn)定運(yùn)行,還為未來的擴(kuò)展和維護(hù)提供了便利。而在結(jié)構(gòu)化布線中,電纜標(biāo)簽的使用雖看似是一個(gè)小小的細(xì)節(jié),卻能
    的頭像 發(fā)表于 11-24 10:34 ?440次閱讀

    芯盾時(shí)代SDP替代VPN重塑遠(yuǎn)程辦公體系

    國(guó)資委79號(hào)文明確要求,2027年前,網(wǎng)絡(luò)安全設(shè)備必須“全面替代”。VPN作為央國(guó)企遠(yuǎn)程辦公的標(biāo)配,是通往企業(yè)內(nèi)網(wǎng)的“咽喉要道”,自然首當(dāng)其沖
    的頭像 發(fā)表于 11-13 13:45 ?1182次閱讀
    芯盾時(shí)代SDP替代VPN重塑遠(yuǎn)程辦公體系

    【HZ-T536開發(fā)板免費(fèi)體驗(yàn)】6、使用protoc-gen-gorm生成標(biāo)準(zhǔn)數(shù)據(jù)結(jié)構(gòu)

    在設(shè)計(jì)espnow協(xié)議的時(shí)候,考慮到我需要在esp32,Linux設(shè)備,web上使用相同的數(shù)據(jù)結(jié)構(gòu),那就需要考慮一下,是否使用一個(gè)通用的跨平臺(tái)序列數(shù)據(jù)結(jié)構(gòu)。這時(shí)候我想起了protobuf,這個(gè)就是
    發(fā)表于 08-26 00:32

    智能體AI面臨非結(jié)構(gòu)化數(shù)據(jù)難題:IBM推出解決方案

    ,同時(shí)提供一個(gè)開放的混合數(shù)據(jù)基礎(chǔ)架構(gòu)和企業(yè)級(jí)的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)管理。 智能體AI面臨非結(jié)構(gòu)化數(shù)據(jù)
    的頭像 發(fā)表于 07-02 09:40 ?702次閱讀

    微軟下月初計(jì)劃再裁員數(shù) 千人銷售部門首當(dāng)其沖

    行業(yè)芯事行業(yè)資訊
    電子發(fā)燒友網(wǎng)官方
    發(fā)布于 :2025年06月19日 13:44:15

    DDN攜手NVIDIA釋放非結(jié)構(gòu)化數(shù)據(jù)的AI價(jià)值

    DDN 通過與 NVIDIA AI 數(shù)據(jù)平臺(tái)的合作,推出聯(lián)合解決方案,簡(jiǎn)化了企業(yè)對(duì)非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)、訪問和激活方式,助力客戶釋放生成式 AI 的巨大商業(yè)潛能。DDN 全球合作伙伴負(fù)責(zé)人
    的頭像 發(fā)表于 06-10 10:31 ?1090次閱讀

    MySQL數(shù)據(jù)庫(kù)是什么

    MySQL數(shù)據(jù)庫(kù)是一種 開源的關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS) ,由瑞典MySQL AB公司開發(fā),后被Oracle公司收購(gòu)。它通過結(jié)構(gòu)化查詢語(yǔ)言(SQL)進(jìn)行數(shù)據(jù)存儲(chǔ)、管理和操作,廣
    的頭像 發(fā)表于 05-23 09:18 ?1499次閱讀

    程序設(shè)計(jì)與數(shù)據(jù)結(jié)構(gòu)

    《程序設(shè)計(jì)與數(shù)據(jù)結(jié)構(gòu)》重點(diǎn)闡述了三大方向內(nèi)容: 1. C語(yǔ)言學(xué)習(xí)中的痛點(diǎn):針對(duì)當(dāng)前工程師在C語(yǔ)言學(xué)習(xí)中的痛點(diǎn),如指針函數(shù)與函數(shù)指針,如何靈活應(yīng)用結(jié)構(gòu)體等。從變量的三要素(變量的類型,變量的值和變量
    發(fā)表于 05-13 16:45
    梨树县| 桐庐县| 昆明市| 织金县| 井陉县| 孟津县| 剑川县| 嘉黎县| 郧西县| 丽水市| 长顺县| 方城县| 木兰县| 吴江市| 孟州市| 成都市| 崇明县| 托克逊县| 天门市| 安新县| 宝鸡市| 黔西县| 南江县| 凉山| 甘孜县| 烟台市| 武威市| 永寿县| 夏河县| 资源县| 乌拉特中旗| 内丘县| 景德镇市| 扬中市| 汝城县| 铜梁县| 山丹县| 武夷山市| 桐柏县| 荆门市| 建昌县|