2016-09-11 107 views
0

當我嘗試Crawler4j example的快速啓動,如何更改Crawler4j中的默認crawlStorageFolder?

controller.java

我想這是我應該改變的結果存儲的地點。

`public class Controller { 
    public static void main(String[] args) throws Exception { 
     String crawlStorageFolder = "/data/crawl/root"; 
     int numberOfCrawlers = 7; 

     CrawlConfig config = new CrawlConfig(); 
     config.setCrawlStorageFolder(crawlStorageFolder);` 

首先,我不知道什麼是"/data/crawl/root"的文件字典。

然後我嘗試改變"C:\Fraps\try"。它創建了一個名爲前沿與一些未知的文件夾,如je.lck,je.info.0 ...

在我的理解,crawler4j可以找到外部合作鏈接和內容解析。

是否意味着許多不同html包含網頁內容的文件應該出現在這個crawlStorageFolder

換句話說,我可以通過crawler4j下載html文件(文本里面)?或者,我應該通過crawler4j下載哪些內容?

回答

2

crawlStorageFolder是存儲中間爬網數據的文件夾。它是而不是一個文件夾來存儲任何類型的分析和下載的HTML內容。

檢查this的配置說明。

如果要下載和存儲提取的數據,則必須在自定義爬網程序實現中實現此行爲,該實現應該延伸到WebCrawler

檢查GitHub上的示例。