Q

使用網絡爬取器抓取網頁數據

2011-03-30 107 views 1 likes

1

我想使用網絡爬蟲並抓取特定的網站。該網站是一個學習管理系統，許多學生上傳他們的作業，項目演示等。我的問題是，我可以使用網絡爬蟲並下載學習管理系統中上傳的文件。我下載它們後，我想創建一個索引，以查詢文檔集。用戶可以將我的應用程序用作搜索引擎。一個爬蟲能做到這一點嗎？我知道關於webeater（Crawler用Java編寫）使用網絡爬取器抓取網頁數據

2011-03-30 nikhil

+0

如果您可以手動查看分配，演示文稿等，那麼爬行器也可以。 – MeBigFatGuy 2011-03-30 06:15:10

+0

我可以查看他們作爲鏈接，當點擊下載.. – nikhil 2011-03-30 06:16:53

+0

然後是的，你可以。 – MeBigFatGuy 2011-03-30 06:26:31

A

回答

0

用Java SingleThread下載文件。
解析文件（你可以從nutch的解析插件中獲得想法）。
使用Lucene

2011-03-30 07:48:20 store88

+0

我不明白step1。什麼是Java中的SingleThread。我知道java中的線程。你能提供更多關於這方面的信息嗎？ – nikhil 2011-03-30 07:58:36

+0

推薦將Lucene作爲一個小規模的任務，因爲這是我聽過的最荒謬的事情。使用SQLite，你將在一個小時內完成。 – 2011-05-02 08:18:28

0

創建索引如果你想使用一個真正的WebCrawler，用戶http://www.httrack.com/

它爲您提供了複製的網站或網頁上，包括Flash內容這麼多的選擇。它適用於Windows和Mac。

然後你可以按照上面的建議做第2步和第3步。

2011-03-30 08:25:59

相關問題

11. 使用vba抓取網頁
12. 網絡爬蟲提取
13. 網絡爬蟲 - 2000多個網頁中獲取數據（TED網站爲例）
14. 網絡抓取 - 網絡登錄問題
15. 網絡數據提取器
16. PHP網絡抓取HTMLDOM分頁
17. 使用Python/Pexpect的抓取網絡
18. Beautifulsoup網頁抓取
19. BeautifulSoup網頁抓取
20. PHP網頁抓取
21. Spyder - 網頁抓取
22. php爬蟲（抓取單個網站）
23. 使用BeautifulSoup進行網頁抓取：正在獲取fundsupermart數據
24. 使用python進行網頁抓取以提取數據
25. 網絡抓取：全部href
26. 智能網絡抓取c＃
27. 網絡抓取錯誤
28. 網絡抓取計劃
29. RUBY - 網絡抓取 - （OpenURI :: HTTPError）
30. 網絡抓取評估？