web-crawler

    0熱度

    1回答

    我是Python新手。我想要做的是使用Webhose.io API將Web數據抓取成Json格式。每個查詢會給我5篇文章/文章。我正在嘗試爲數據集獲取1000篇文章。 Webhose可以免費註冊,每月免費提供1000個請求,所以這應該足以獲取數據集。 我的代碼目前looke這樣的: import webhoseio, json, io webhoseio.config(token="YOUR

    1熱度

    1回答

    我是Jsoup解析的新手,我想要獲得本頁面上所有公司的列表: 現在,一種方法是使用div標籤檢查頁面與我需要的相關。 然而,當我打電話的方法: Document doc = Jsoup.connect("https://angel.co/companies?company_types[]=Startup").get(); System.out.println(doc.html()); 首先,

    -2熱度

    2回答

    Why do inner text is not active Here is HTML code [這裏是HTML代碼] <ul class="product"> <li class="product col-md-4 col-sm-4 col-xs-6 "><div class="product-header"> <a href="/so-mi-octopus-xanh-soc-trang

    0熱度

    1回答

    我在使用Nutch抓取時遇到了一些問題。我跟着教程從here但錯誤: " /home/apache-nutch-2.3.1/runtime/local/bin/nutch inject urls/seed.txt -crawlId TestCrawl Failed with exit value 1. " 任何人都可以提供指導給我參考如何在窗口中正確使用Nutch的?

    0熱度

    1回答

    我在一個函數中創建了一個小型web爬蟲,upso_final。 如果我print(upso_final()),我得到15個名單,包括標題,地址,電話號碼。不過,我只想打印出標題,所以我使用變量標題爲全局字符串。當我打印它時,我只能得到1個標題,這是最後一個標題。我想獲得全部15個冠軍。 from __future__ import unicode_literals import request

    0熱度

    1回答

    我有一個JSON版本DOM樹的,我想只保留頁面之間的差異(除去導航頁腳...) 例子: const a = { id: '1', child: [ { id: '2', child: [{id: '1'}, {id: '2'}] }, { id: '3', child: [{id: '1

    0熱度

    1回答

    我的python版本是3.6.3。而我的操作系統是WIN7。 我現在正在從以下網站提取中國人物: https://crl.ptopenlab.com:8800/poem/show?3&%25E5%258F%2591%25E7%2594%259F&A718FCB2-CE47-4649-BB46-0E09B169FD59 我想提取的元素嵌入HTML代碼如下字符: <div id="poemconten

    0熱度

    1回答

    我想要獲取的網址數量在SitemapSpider之間。我試圖覆蓋start_requests方法,但它打印0.我有一個sitemap_url其中包含數千個網址。我想得到這些網址的數量。 這是我嘗試過的,但我想從站點地圖的Url不在start_urls。 class MainSpider(SitemapSpider): name = 'main_spider' allowed_d

    0熱度

    1回答

    的HTML代碼,我試圖用得到網頁的HTML代碼,它的URL。我寫了下面的代碼,它的工作原理,但比較結果字符串,它不匹配我使用谷歌瀏覽器檢查時看到的代碼。我不是HTML gru,但它似乎有所不同。 HttpWebRequest request = (HttpWebRequest)WebRequest.Create("https://fantasy.premierleague.com/a/league

    0熱度

    1回答

    我是Scrapy的新手,目前我正在嘗試編寫一個CrawlSpider來抓取Tor darknet上的論壇。目前我CrawlSpider代碼: import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class HiddenAnswer