日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何使用表格做爬蟲

Wildesbeast ? 來源:今日頭條 ? 作者:Python之眼 ? 2020-02-03 15:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

很多人不知道,其實(shí)我們最常用的表格,在某些情況下也是可以用來做爬蟲的,而且爬下來的數(shù)據(jù)規(guī)整,不需要花太多時(shí)間進(jìn)行數(shù)據(jù)清洗,來看看是怎么實(shí)現(xiàn)的。

一、Microsoft Excel

首先教大家一個(gè)用Excel爬取數(shù)據(jù)的方法,這里用的Microsoft Excel 2013版本,下面手把手開始教學(xué)~

(1)新建Excel,打開它,如下圖所示

(2)點(diǎn)擊“數(shù)據(jù)”——“自網(wǎng)站”

(3)在彈出的對(duì)話框中輸入目標(biāo)網(wǎng)址,這里以全國(guó)實(shí)時(shí)空氣質(zhì)量網(wǎng)站為例,點(diǎn)擊轉(zhuǎn)到,再導(dǎo)入

選擇導(dǎo)入位置,確定

(4)結(jié)果如下圖所示,怎么樣,是不是很贊?

(5)如果要實(shí)時(shí)更新數(shù)據(jù),可以在“數(shù)據(jù)”——“全部更新”——“連接屬性”中進(jìn)行設(shè)置,輸入更新頻率即可

非誠(chéng)勿擾:正在學(xué)習(xí)python的小伙伴或者打算學(xué)習(xí)的,可以私信小編“01”領(lǐng)取資料!

二、Google Sheet

使用Google Sheet爬取數(shù)據(jù)前,要保證三點(diǎn):使用Chrome瀏覽器、擁有Google賬號(hào)、電腦可以科學(xué)上網(wǎng)。如果這三個(gè)條件具備了的話,下面我們就開始吧~

(1)打開Google Sheet網(wǎng)站:http://www.google.cn/sheets/about/

(2)在首頁(yè)上點(diǎn)擊“轉(zhuǎn)到Google表格”,然后登錄自己的賬號(hào),可以看到如下界面,再點(diǎn)擊“+”創(chuàng)建新的表格

新建的表格如下:

(3)打開要爬取的目標(biāo)網(wǎng)站,一個(gè)全國(guó)實(shí)時(shí)空氣質(zhì)量網(wǎng)站http://www.pm25.in/rank,目標(biāo)網(wǎng)站上的表格結(jié)構(gòu)如下圖所示

(4)回到Google sheet頁(yè)面,使用函數(shù)=IMPORTHTML(網(wǎng)址, 查詢, 索引),“網(wǎng)址”就是要爬取數(shù)據(jù)的目標(biāo)網(wǎng)站,“查詢”中輸入“l(fā)ist”或“table”,這個(gè)取決于數(shù)據(jù)的具體結(jié)構(gòu)類型,“索引”填阿拉伯?dāng)?shù)字,從1開始,對(duì)應(yīng)著網(wǎng)站中定義的哪一份表格或列表

對(duì)于我們要爬取的網(wǎng)站,我們?cè)贕oogle sheet的A1單元格中輸入函數(shù)

=IMPORTHTML("http://www.pm25.in/rank","table",1),回車后就爬得數(shù)據(jù)啦

(5)將爬取好的表格存到本地

是不是感覺超級(jí)簡(jiǎn)單?

當(dāng)然,沒有學(xué)習(xí)成本的技能缺陷也是很明顯的,就是在網(wǎng)頁(yè)的數(shù)據(jù)排列沒那么規(guī)則的時(shí)候,或者說多個(gè)頁(yè)面的數(shù)據(jù),以上的方法就失效了,這個(gè)時(shí)候Python就展現(xiàn)出它強(qiáng)大的威力了。

不過,話說回來,這么裝逼的技能,而且不需要學(xué)習(xí)成本,掌握了有什么不好呢,沒準(zhǔn)什么時(shí)候就能用上了。

最后多說一句,小編是一名python開發(fā)工程師,這里有我自己整理了一套最新的python系統(tǒng)學(xué)習(xí)教程,包括從基礎(chǔ)的python腳本到web開發(fā)、爬蟲、數(shù)據(jù)分析、數(shù)據(jù)可視化、機(jī)器學(xué)習(xí)等。想要這些資料的可以關(guān)注小編,并在后臺(tái)私信小編:“01”即可領(lǐng)取。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 瀏覽器
    +關(guān)注

    關(guān)注

    1

    文章

    1043

    瀏覽量

    37184
  • Excel
    +關(guān)注

    關(guān)注

    4

    文章

    231

    瀏覽量

    57805
  • 爬蟲
    +關(guān)注

    關(guān)注

    0

    文章

    87

    瀏覽量

    8183
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    AI算法核心知識(shí)清單(深度實(shí)戰(zhàn)版4)

    五、AI算法工程化與實(shí)踐1.數(shù)據(jù)預(yù)處理全流程數(shù)據(jù)采集結(jié)構(gòu)化數(shù)據(jù):數(shù)據(jù)庫(kù)查詢(SQL)、Excel/CSV文件讀取、API接口調(diào)用(如RESTfulAPI)非結(jié)構(gòu)化數(shù)據(jù):圖像數(shù)據(jù):爬蟲爬?。ㄈ?/div>
    的頭像 發(fā)表于 04-30 09:22 ?219次閱讀
    AI算法核心知識(shí)清單(深度實(shí)戰(zhàn)版4)

    Python全棧一課通(470集)(12.96 GB)-網(wǎng)盤資源下載

    跨部門協(xié)作的摩擦成本 在傳統(tǒng)的軟件企業(yè)組織架構(gòu)中,業(yè)務(wù)鏈條被人為地割裂:前端寫頁(yè)面、后端寫接口、數(shù)據(jù)組寫爬蟲、測(cè)試組自動(dòng)化。這種分工雖然在大規(guī)模工業(yè)時(shí)代有其合理性,但也催生了極其高昂的“內(nèi)部交易成本
    發(fā)表于 04-19 16:30

    從個(gè)人開發(fā)到企業(yè)專屬集群,NineData怎么的?

    最近看了一圈數(shù)據(jù)管理相關(guān)產(chǎn)品,一個(gè)比較明顯的感受是: 很多工具都能解決一個(gè)點(diǎn),但很少有產(chǎn)品能把“從開發(fā)到生產(chǎn)、從個(gè)人到企業(yè)”的整條鏈路做完整。 而 NineData 比較有意思的一點(diǎn),正是它不只是
    的頭像 發(fā)表于 03-25 15:35 ?127次閱讀
    從個(gè)人開發(fā)到企業(yè)專屬集群,NineData怎么<b class='flag-5'>做</b>的?

    小型直流 UPS 靠譜嗎?怎樣選擇?

      UPS指的就是不間斷電源(Uninterruptible Power Supply),停電時(shí)能給你家路由器、電腦繼續(xù)供電的設(shè)備,防止數(shù)據(jù)丟失。那為什么學(xué)生和家用要用小型直流UPS呢,在做選擇的時(shí)候又該怎么呢?下文就為大家分析。
    的頭像 發(fā)表于 03-13 14:44 ?321次閱讀
    小型直流 UPS 靠譜嗎?怎樣<b class='flag-5'>做</b>選擇?

    油電同智?為什么燃油車很難自動(dòng)駕駛?

    細(xì)心的小伙伴應(yīng)該會(huì)發(fā)現(xiàn),雖然市面上智能電動(dòng)車的自動(dòng)駕駛功能日新月異,但在燃油車領(lǐng)域,高階智駕的普及速度卻明顯緩慢。為什么燃油車很難自動(dòng)駕駛?
    的頭像 發(fā)表于 03-01 11:54 ?1731次閱讀
    油電同智?為什么燃油車很難<b class='flag-5'>做</b>自動(dòng)駕駛?

    京東關(guān)鍵詞搜索商品列表的Python爬蟲實(shí)戰(zhàn)

    京東關(guān)鍵詞搜索商品列表 Python 爬蟲實(shí)戰(zhàn) 你想要實(shí)現(xiàn)京東關(guān)鍵詞搜索商品的爬蟲,我會(huì)從 合規(guī)聲明、環(huán)境準(zhǔn)備、頁(yè)面分析、代碼實(shí)現(xiàn)、反爬優(yōu)化 五個(gè)方面展開,幫助你完成實(shí)戰(zhàn)項(xiàng)目。 一、前置聲明(重要
    的頭像 發(fā)表于 01-04 10:16 ?1358次閱讀

    智能顯示模塊能實(shí)現(xiàn)表格顯示功能嗎?

    智能顯示模塊能實(shí)現(xiàn)表格顯示
    發(fā)表于 12-15 08:19

    # 深度解析:爬蟲技術(shù)獲取淘寶商品詳情并封裝為API的全流程應(yīng)用

    需求。本文將深入探討如何借助爬蟲技術(shù)實(shí)現(xiàn)淘寶商品詳情的獲取,并將其高效封裝為API。 一、爬蟲技術(shù)核心原理與工具 1.1 爬蟲運(yùn)行機(jī)制 網(wǎng)絡(luò)爬蟲本質(zhì)上是一種遵循特定規(guī)則,自動(dòng)抓取網(wǎng)頁(yè)信
    的頭像 發(fā)表于 11-17 09:29 ?508次閱讀

    用 Python 給 Amazon “全身 CT”——可量產(chǎn)、可擴(kuò)展的商品詳情爬蟲實(shí)戰(zhàn)

    一、技術(shù)選型:為什么選 Python 而不是 Java? 結(jié)論: “調(diào)研階段用 Python,上線后如果 QPS 爆表再考慮 Java 重構(gòu)?!?二、整體架構(gòu)速覽(3 分鐘看懂) 三、開發(fā)前準(zhǔn)備(5 分鐘搞定) 環(huán)境 Python 3.11 + VSCode + 虛擬環(huán)境 依賴一次性裝完 bash ? python -m venv venvsource venv/bin/activatepip install playwright pandas tqdm loguru fake-useragent aiofilesplaywright install chromium # 自動(dòng)下載瀏覽器 ? 目標(biāo)字段 & CSS 選擇器 ? 四、MVP:120 行代碼即可跑通 單文件腳本,支持異步并發(fā) 10 個(gè) ASIN,自動(dòng)重
    的頭像 發(fā)表于 10-21 16:59 ?640次閱讀
    用 Python 給 Amazon <b class='flag-5'>做</b>“全身 CT”——可量產(chǎn)、可擴(kuò)展的商品詳情<b class='flag-5'>爬蟲</b>實(shí)戰(zhàn)

    從 0 到 1:用 PHP 爬蟲優(yōu)雅地拿下京東商品詳情

    PHP 語(yǔ)言 實(shí)現(xiàn)一個(gè) 可運(yùn)行的京東商品爬蟲 ,不僅能抓取商品標(biāo)題、價(jià)格、圖片、評(píng)價(jià)數(shù),還能應(yīng)對(duì)常見的反爬策略。全文附完整代碼, 復(fù)制粘貼即可運(yùn)行 。 一、為什么選擇 PHP 爬蟲? 雖然 Python 是
    的頭像 發(fā)表于 09-23 16:42 ?1086次閱讀
    從 0 到 1:用 PHP <b class='flag-5'>爬蟲</b>優(yōu)雅地拿下京東商品詳情

    Nginx限流與防爬蟲配置方案

    在互聯(lián)網(wǎng)業(yè)務(wù)快速發(fā)展的今天,網(wǎng)站面臨著各種流量沖擊和惡意爬蟲的威脅。作為運(yùn)維工程師,我們需要在保證正常用戶訪問的同時(shí),有效防范惡意流量和爬蟲攻擊。本文將深入探討基于Nginx的限流與防爬蟲解決方案,從原理到實(shí)踐,為大家提供一套完
    的頭像 發(fā)表于 09-09 15:52 ?1103次閱讀

    matlab appdesigner 表格組件賦值問題,求助

    如上圖所示,我在用matlab2021Ra APP模塊進(jìn)行編程的時(shí)候,想在表格中調(diào)入自己編寫的結(jié)構(gòu)數(shù)組,我從網(wǎng)上AI了一個(gè)程序語(yǔ)句,看著沒問題,但是就是給表格賦值不了,還請(qǐng)各位大神幫忙看一下這個(gè)是怎么回事,我是初學(xué)者,請(qǐng)各位幫忙看看
    發(fā)表于 07-12 11:45

    【HarmonyOS 5】鴻蒙應(yīng)用實(shí)現(xiàn)發(fā)票掃描、文檔掃描輸出PDF圖片或者表格的功能

    【HarmonyOS 5】鴻蒙應(yīng)用實(shí)現(xiàn)發(fā)票掃描、文檔掃描輸出PDF圖片或者表格的功能 ##鴻蒙開發(fā)能力 ##HarmonyOS SDK應(yīng)用服務(wù)##鴻蒙金融類應(yīng)用 (金融理財(cái)# 一、前言 圖(1-1
    的頭像 發(fā)表于 07-11 18:16 ?1624次閱讀
    【HarmonyOS 5】鴻蒙應(yīng)用實(shí)現(xiàn)發(fā)票掃描、文檔掃描輸出PDF圖片或者<b class='flag-5'>表格</b>的功能

    求大佬解答,怎么保存為帶表頭的電子表格

    求大佬解答,怎么保存為帶表頭的電子表格
    發(fā)表于 06-04 14:14

    CYUSB3014從機(jī)FIFO接口圖顯示支持DQ[31:0],但表格僅表明支持DQ[15:0],哪一個(gè)是正確的?

    問題 1)從機(jī)FIFO接口圖顯示支持DQ[31:0],但表格僅表明支持DQ[15:0]。 哪一個(gè)是正確的? 請(qǐng)?jiān)敿?xì)解釋一下。 問題 2) 從屬 FIFO 接口使用 A[1:0]、FLAGA 和 FLAGB,但 USB 通信也可以與所連接的電路配合使用。 我可以只使用 FLAGA 嗎?
    發(fā)表于 05-16 06:15
    惠州市| 通江县| 申扎县| 和静县| 西乌| 晋宁县| 丽江市| 石门县| 琼中| 周宁县| 攀枝花市| 大新县| 恭城| 广东省| 新余市| 平泉县| 会东县| 岚皋县| 湖州市| 玛曲县| 乐亭县| 忻城县| 柳林县| 阆中市| 盐边县| 东源县| 延长县| 友谊县| 武汉市| 剑川县| 岑巩县| 武宁县| 宁安市| 女性| 乌兰浩特市| 明光市| 彰化县| 武穴市| 石景山区| 白水县| 宾阳县|