我想使用網絡爬蟲並抓取特定的網站。該網站是一個學習管理系統,許多學生上傳他們的作業,項目演示等。我的問題是,我可以使用網絡爬蟲並下載學習管理系統中上傳的文件。我下載它們後,我想創建一個索引,以查詢文檔集。用戶可以將我的應用程序用作搜索引擎。一個爬蟲能做到這一點嗎?我知道關於webeater(Crawler用Java編寫)使用網絡爬取器抓取網頁數據
1
A
回答
0
- 用Java SingleThread下載文件。
- 解析文件(你可以從nutch的解析插件中獲得想法)。
- 使用Lucene
+0
我不明白step1。什麼是Java中的SingleThread。我知道java中的線程。你能提供更多關於這方面的信息嗎? – nikhil 2011-03-30 07:58:36
+0
推薦將Lucene作爲一個小規模的任務,因爲這是我聽過的最荒謬的事情。使用SQLite,你將在一個小時內完成。 – 2011-05-02 08:18:28
0
創建索引如果你想使用一個真正的WebCrawler,用戶http://www.httrack.com/
它爲您提供了複製的網站或網頁上,包括Flash內容這麼多的選擇。它適用於Windows和Mac。
然後你可以按照上面的建議做第2步和第3步。
相關問題
- 1. 使用R網絡抓取數據
- 2. 使用C抓取網頁數據#
- 3. 使用Scrapy抓取網頁數據
- 4. 使用Java抓取網頁數據
- 5. 使用JSoup網頁抓取網頁
- 6. Node.js網絡抓取
- 7. 網絡抓取C#
- 8. 網絡抓取cnbc.com
- 9. Jsoup網絡抓取
- 10. R網絡抓取,從網絡應用程序下載數據
- 11. 使用vba抓取網頁
- 12. 網絡爬蟲提取
- 13. 網絡爬蟲 - 2000多個網頁中獲取數據(TED網站爲例)
- 14. 網絡抓取 - 網絡登錄問題
- 15. 網絡數據提取器
- 16. PHP網絡抓取HTMLDOM分頁
- 17. 使用Python/Pexpect的抓取網絡
- 18. Beautifulsoup網頁抓取
- 19. BeautifulSoup網頁抓取
- 20. PHP網頁抓取
- 21. Spyder - 網頁抓取
- 22. php爬蟲(抓取單個網站)
- 23. 使用BeautifulSoup進行網頁抓取:正在獲取fundsupermart數據
- 24. 使用python進行網頁抓取以提取數據
- 25. 網絡抓取:全部href
- 26. 智能網絡抓取c#
- 27. 網絡抓取錯誤
- 28. 網絡抓取計劃
- 29. RUBY - 網絡抓取 - (OpenURI :: HTTPError)
- 30. 網絡抓取評估?
如果您可以手動查看分配,演示文稿等,那麼爬行器也可以。 – MeBigFatGuy 2011-03-30 06:15:10
我可以查看他們作爲鏈接,當點擊下載.. – nikhil 2011-03-30 06:16:53
然後是的,你可以。 – MeBigFatGuy 2011-03-30 06:26:31