web-crawler

0熱度

1回答

我是Python新手。我想要做的是使用Webhose.io API將Web數據抓取成Json格式。每個查詢會給我5篇文章/文章。我正在嘗試爲數據集獲取1000篇文章。 Webhose可以免費註冊，每月免費提供1000個請求，所以這應該足以獲取數據集。我的代碼目前looke這樣的： import webhoseio, json, io webhoseio.config(token="YOUR

1熱度

1回答

jsoup獲得div元素的類

我是Jsoup解析的新手，我想要獲得本頁面上所有公司的列表：現在，一種方法是使用div標籤檢查頁面與我需要的相關。然而，當我打電話的方法： Document doc = Jsoup.connect("https://angel.co/companies?company_types[]=Startup").get(); System.out.println(doc.html()); 首先，

-2熱度

2回答

的innerText在simple_html_dom

Why do inner text is not active Here is HTML code [這裏是HTML代碼] <ul class="product"> <li class="product col-md-4 col-sm-4 col-xs-6 "><div class="product-header"> <a href="/so-mi-octopus-xanh-soc-trang

0熱度

1回答

在窗口上使用Nutch

我在使用Nutch抓取時遇到了一些問題。我跟着教程從here但錯誤： " /home/apache-nutch-2.3.1/runtime/local/bin/nutch inject urls/seed.txt -crawlId TestCrawl Failed with exit value 1. " 任何人都可以提供指導給我參考如何在窗口中正確使用Nutch的？

0熱度

1回答

python print（）不輸出我期望的內容

我在一個函數中創建了一個小型web爬蟲，upso_final。如果我print(upso_final())，我得到15個名單，包括標題，地址，電話號碼。不過，我只想打印出標題，所以我使用變量標題爲全局字符串。當我打印它時，我只能得到1個標題，這是最後一個標題。我想獲得全部15個冠軍。 from __future__ import unicode_literals import request

0熱度

1回答

保持唯一的區別兩者之間的JSON

我有一個JSON版本DOM樹的，我想只保留頁面之間的差異（除去導航頁腳...）例子： const a = { id: '1', child: [ { id: '2', child: [{id: '1'}, {id: '2'}] }, { id: '3', child: [{id: '1

0熱度

1回答

中文字符無法在Windows操作系統上使用python3.x中的Beutifulsoup4獲得

我的python版本是3.6.3。而我的操作系統是WIN7。我現在正在從以下網站提取中國人物： https://crl.ptopenlab.com:8800/poem/show?3&%25E5%258F%2591%25E7%2594%259F&A718FCB2-CE47-4649-BB46-0E09B169FD59 我想提取的元素嵌入HTML代碼如下字符： <div id="poemconten

0熱度

1回答

從蜘蛛（Scrapy）無法獲取網址

我想要獲取的網址數量在SitemapSpider之間。我試圖覆蓋start_requests方法，但它打印0.我有一個sitemap_url其中包含數千個網址。我想得到這些網址的數量。這是我嘗試過的，但我想從站點地圖的Url不在start_urls。 class MainSpider(SitemapSpider): name = 'main_spider' allowed_d

0熱度

1回答

獲取網頁

的HTML代碼，我試圖用得到網頁的HTML代碼，它的URL。我寫了下面的代碼，它的工作原理，但比較結果字符串，它不匹配我使用谷歌瀏覽器檢查時看到的代碼。我不是HTML gru，但它似乎有所不同。 HttpWebRequest request = (HttpWebRequest)WebRequest.Create("https://fantasy.premierleague.com/a/league

0熱度

1回答

如何使用我的scrapy CrawlSpider將相對路徑轉換爲絕對路徑？

我是Scrapy的新手，目前我正在嘗試編寫一個CrawlSpider來抓取Tor darknet上的論壇。目前我CrawlSpider代碼： import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class HiddenAnswer