使用crawler4j在文件系統上的html文件

我想用edu.uci.ics.crawler4j lib從本地目錄中的html文件中抓取頁面。 C:/work/temp/test.html是它的路徑。使用crawler4j在文件系統上的html文件

我發現crawler4j正在建立Http連接。但是對於這種情況，不需要Http連接。我也前綴的文件路徑與file://像"file:///C:/work/temp/test.html" (which is accessible)

從PageFetcher類的代碼：

SchemeRegistry schemeRegistry = new SchemeRegistry(); 
    schemeRegistry.register(new Scheme("http", 80, PlainSocketFactory.getSocketFactory())); 

    if (config.isIncludeHttpsPages()) { 
     schemeRegistry.register(new Scheme("https", 443, SSLSocketFactory.getSocketFactory())); 
    }

有沒有辦法在crawler4j或 crawler4j的PageFetcher登記在SchemeRegistry file://協議始終用於承載的文件在服務器上？

來源

2012-12-26 shreyas

它應該是您的本地主機URL。例如，localhost：80 /應該是您的目錄的根目錄。該網址應該類似於http://localhost:80/.......

來源

2014-05-11 23:34:44 taymedee

使用crawler4j在文件系統上的html文件

回答

相關問題