web-crawler

0熱度

4回答

我有一個聯繫表單，其中的電子郵件實際上可以在源代碼中訪問，因爲我使用的是cgi文件來處理它。我擔心的是郵件抓取工具，我想知道這是否是一種禁止行爲，我應該切換到另一種更安全的形式。或者，如果有一些技巧會讓爬蟲「混淆」？感謝您的想法。

0熱度

2回答

我正在將一堆網站移動到一臺新服務器上，並確保我不會錯過任何內容，希望能夠爲程序提供一個網站列表，併爲其下載每個網頁/圖像。有沒有可以做到這一點的軟件？我也可以用它來下載一些WordPress的網站的副本，所以我可以上傳靜態文件（我的一些WP網站永遠不會更新，所以很難設置新的數據庫等）

0熱度

1回答

PHP cURL獲取編碼數據

我已經通過使用cURL在一個字符串中下載了頁面頭和壓縮體，問題是我不知道如何將它們彼此分開以及如何解壓縮體？謝謝！

1熱度

3回答

Firefox或Chrome是否有.Net包裝器來抓取網頁？

是否有一個Firefox或Chrome的簡單.Net包裝，以便我可以實現一個網絡爬蟲和其他網絡的東西？我可能還需要post-form功能。

3熱度

1回答

RSS/Feed文件的平均大小，用於數據存儲和帶寬計算

做一次包絡計算以確定每隔20分鐘監視大約10,00,000個Feed需要的網絡帶寬和數據存儲。任何想法可能是一個rss文件的平均大小？我記得有人從technorati讀到rss文件的平均大小。 ANKUR古普塔

1熱度

2回答

多線程蜘蛛w /代理支持的Python包？

而不僅僅是使用urllib有人知道最快速的多線程下載可以通過HTTP代理操作的URL的最有效的包？我知道一些例如Twisted，Scrapy，libcurl等，但我不知道他們做出決定，或者即使他們可以使用代理。任何人都知道最適合我的目的嗎？謝謝！

2熱度

5回答

如何以編程方式抓取抓取的網頁快照（在Ruby中）？

以編程方式拍攝網頁快照的最佳解決方案是什麼？情況是這樣的：我想抓取一堆網頁，並定期對它們進行縮略圖快照，每隔幾個月說一次，而不必手動去每個網頁。我還希望能夠拍攝可能完全是Flash/Flex的網站的jpg/png快照，因此我必須等到它以某種方式加載才能拍攝快照。如果對我可以生成的縮略圖的數量沒有限制（在合理的範圍內，比如說每天1000次），那將會很好。任何想法如何在Ruby中做到這一點？看起

0熱度

2回答

你怎麼叫蜘蛛技術，其中蜘蛛訪問的第一級的所有鏈接，並在第二級

所有鏈接我忘了名字的情況下網絡蜘蛛會第一次訪問它看到的所有鏈接第一級。然後訪問它在第二級看到的所有鏈接。等等... 有此技術名稱....我忘了... ... 反正，這是非常詳盡的，顯然效率低下。有沒有更好的辦法？我記得夏天讀了一篇關於高效地抓取網頁（DSL或類似的東西，我不知道代表什麼）的論文......總之，它討論了「確定哪些URL可能包含相關信息以及哪些網址將被忽略像註冊，新帳戶鏈接

9熱度

5回答

如何使用robots.txt僅允許抓取工具訪問index.php？

如果我只想允許爬蟲訪問index.php，這個工作嗎？ User-agent: * Disallow:/ Allow: /index.php

0熱度

5回答

編寫的Googlebot是哪種編程語言（或任何其他高效的Web爬蟲）？

有誰知道Googlebot寫的是哪種編程語言？或者更一般地說，哪種語言是有效的網頁爬蟲？我在Java語言中見過很多，但在我看來，開發一個web爬蟲是最合適的語言，因爲它造成了太多的開銷（嘗試使用Heritrix web爬蟲，而且它非常沉重）。