2011-03-30 71 views
1

我想使用網絡爬蟲並抓取特定的網站。該網站是一個學習管理系統,許多學生上傳他們的作業,項目演示等。我的問題是,我可以使用網絡爬蟲並下載學習管理系統中上傳的文件。我下載它們後,我想創建一個索引,以查詢文檔集。用戶可以將我的應用程序用作搜索引擎。一個爬蟲能做到這一點嗎?我知道關於webeater(Crawler用Java編寫)使用網絡爬取器抓取網頁數據

+0

如果您可以手動查看分配,演示文稿等,那麼爬行器也可以。 – MeBigFatGuy 2011-03-30 06:15:10

+0

我可以查看他們作爲鏈接,當點擊下載.. – nikhil 2011-03-30 06:16:53

+0

然後是的,你可以。 – MeBigFatGuy 2011-03-30 06:26:31

回答

0
  1. 用Java SingleThread下載文件。
  2. 解析文件(你可以從nutch的解析插件中獲得想法)。
  3. 使用Lucene
+0

我不明白step1。什麼是Java中的SingleThread。我知道java中的線程。你能提供更多關於這方面的信息嗎? – nikhil 2011-03-30 07:58:36

+0

推薦將Lucene作爲一個小規模的任務,因爲這是我聽過的最荒謬的事情。使用SQLite,你將在一個小時內完成。 – 2011-05-02 08:18:28

0

創建索引如果你想使用一個真正的WebCrawler,用戶http://www.httrack.com/

它爲您提供了複製的網站或網頁上,包括Flash內容這麼多的選擇。它適用於Windows和Mac。

然後你可以按照上面的建議做第2步和第3步。