2012-12-26 63 views
2

我想用edu.uci.ics.crawler4j lib從本地目錄中的html文件中抓取頁面。 C:/work/temp/test.html是它的路徑。使用crawler4j在文件系統上的html文件

我發現crawler4j正在建立Http連接。但是對於這種情況,不需要Http連接。我也前綴的文件路徑與file://"file:///C:/work/temp/test.html" (which is accessible)

從PageFetcher類的代碼:

SchemeRegistry schemeRegistry = new SchemeRegistry(); 
    schemeRegistry.register(new Scheme("http", 80, PlainSocketFactory.getSocketFactory())); 

    if (config.isIncludeHttpsPages()) { 
     schemeRegistry.register(new Scheme("https", 443, SSLSocketFactory.getSocketFactory())); 
    } 

有沒有辦法在crawler4j或 crawler4j的PageFetcher登記在SchemeRegistry file://協議始終用於承載的文件在服務器上?

回答

0

它應該是您的本地主機URL。例如,localhost:80 /應該是您的目錄的根目錄。該網址應該類似於http://localhost:80/.......