2
我想用edu.uci.ics.crawler4j
lib從本地目錄中的html文件中抓取頁面。 C:/work/temp/test.html
是它的路徑。使用crawler4j在文件系統上的html文件
我發現crawler4j正在建立Http連接。但是對於這種情況,不需要Http連接。我也前綴的文件路徑與file://
像"file:///C:/work/temp/test.html" (which is accessible)
從PageFetcher類的代碼:
SchemeRegistry schemeRegistry = new SchemeRegistry();
schemeRegistry.register(new Scheme("http", 80, PlainSocketFactory.getSocketFactory()));
if (config.isIncludeHttpsPages()) {
schemeRegistry.register(new Scheme("https", 443, SSLSocketFactory.getSocketFactory()));
}
有沒有辦法在crawler4j或 crawler4j的PageFetcher登記在SchemeRegistry file://
協議始終用於承載的文件在服務器上?