如何更改Crawler4j中的默認crawlStorageFolder？

當我嘗試Crawler4j example的快速啓動，如何更改Crawler4j中的默認crawlStorageFolder？

在controller.java

我想這是我應該改變的結果存儲的地點。

`public class Controller { 
    public static void main(String[] args) throws Exception { 
     String crawlStorageFolder = "/data/crawl/root"; 
     int numberOfCrawlers = 7; 

     CrawlConfig config = new CrawlConfig(); 
     config.setCrawlStorageFolder(crawlStorageFolder);`

首先，我不知道什麼是"/data/crawl/root"的文件字典。

然後我嘗試改變"C:\Fraps\try"。它創建了一個名爲前沿與一些未知的文件夾，如je.lck，je.info.0 ...

在我的理解，crawler4j可以找到外部合作鏈接和內容解析。

是否意味着許多不同html包含網頁內容的文件應該出現在這個crawlStorageFolder？

換句話說，我可以通過crawler4j下載html文件（文本里面）？或者，我應該通過crawler4j下載哪些內容？

來源

2016-09-11 evabb

crawlStorageFolder是存儲中間爬網數據的文件夾。它是而不是一個文件夾來存儲任何類型的分析和下載的HTML內容。

檢查this的配置說明。

如果要下載和存儲提取的數據，則必須在自定義爬網程序實現中實現此行爲，該實現應該延伸到WebCrawler。

檢查GitHub上的示例。

來源

2016-09-19 11:09:53 rzo

如何更改Crawler4j中的默認crawlStorageFolder？

回答

相關問題