2013-03-27 105 views
0

我正在嘗試使用crawler4j來抓取網站。我能夠遵循crawler4j網站上的說明。完成後,它將創建一個包含兩個不同.lck文件,一個.jdb文件和一個.info.0文件的文件夾。什麼是.lck文件,爲什麼我無法用緩衝讀取器讀取它?

我試着用我在this答案中提供的代碼在文件中讀入文件,但是它仍然失敗。我以前使用過相同的函數來讀取文本文件,所以我知道代碼的作品。

我也found別人在幾個月前問同樣的問題。他們從來沒有得到答案。

爲什麼我不能使用我的代碼打開並將這些.lck文件讀取到內存中?

+0

「它一直失敗」是絕望的模糊。怎麼了? – 2013-03-27 13:36:33

回答

1

Crawler4j使用BerkeleyDB來存儲抓取信息。在源代碼中看到這裏。

從命令行中,您可以使用數據庫實用程序來訪問數據。已經在SO here中報道。

如果要訪問Java代碼中的數據,只需導入BerkeleyDB庫(Maven指令),然後按照tutorial on how to open the DB

+0

謝謝,我正在四處尋找crawler4j網站尋找如何處理這些文件,但我沒有找到任何東西。 – 2013-03-29 15:25:00

相關問題