web-crawler

    0熱度

    4回答

    我有一個聯繫表單,其中的電子郵件實際上可以在源代碼中訪問,因爲我使用的是cgi文件來處理它。我擔心的是郵件抓取工具,我想知道這是否是一種禁止行爲,我應該切換到另一種更安全的形式。或者,如果有一些技巧會讓爬蟲「混淆」?感謝您的想法。

    0熱度

    2回答

    我正在將一堆網站移動到一臺新服務器上,並確保我不會錯過任何內容,希望能夠爲程序提供一個網站列表,併爲其下載每個網頁/圖像。有沒有可以做到這一點的軟件?我也可以用它來下載一些WordPress的網站的副本,所以我可以上傳靜態文件(我的一些WP網站永遠不會更新,所以很難設置新的數據庫等)

    0熱度

    1回答

    我已經通過使用cURL在一個字符串中下載了頁面頭和壓縮體,問題是我不知道如何將它們彼此分開以及如何解壓縮體? 謝謝!

    1熱度

    3回答

    是否有一個Firefox或Chrome的簡單.Net包裝,以便我可以實現一個網絡爬蟲和其他網絡的東西? 我可能還需要post-form功能。

    3熱度

    1回答

    做一次包絡計算以確定每隔20分鐘監視大約10,00,000個Feed需要的網絡帶寬和數據存儲。 任何想法可能是一個rss文件的平均大小? 我記得有人從technorati讀到rss文件的平均大小。 ANKUR古普塔

    1熱度

    2回答

    而不僅僅是使用urllib有人知道最快速的多線程下載可以通過HTTP代理操作的URL的最有效的包?我知道一些例如Twisted,Scrapy,libcurl等,但我不知道他們做出決定,或者即使他們可以使用代理。任何人都知道最適合我的目的嗎?謝謝!

    2熱度

    5回答

    以編程方式拍攝網頁快照的最佳解決方案是什麼? 情況是這樣的:我想抓取一堆網頁,並定期對它們進行縮略圖快照,每隔幾個月說一次,而不必手動去每個網頁。我還希望能夠拍攝可能完全是Flash/Flex的網站的jpg/png快照,因此我必須等到它以某種方式加載才能拍攝快照。 如果對我可以生成的縮略圖的數量沒有限制(在合理的範圍內,比如說每天1000次),那將會很好。 任何想法如何在Ruby中做到這一點?看起

    0熱度

    2回答

    所有鏈接我忘了名字的情況下網絡蜘蛛會 第一次訪問它看到的所有鏈接第一級。 然後訪問它在第二級看到的所有鏈接。 等等... 有此技術名稱....我忘了... ... 反正,這是非常詳盡的,顯然效率低下。有沒有更好的辦法 ? 我記得夏天讀了一篇關於高效地抓取網頁(DSL或類似的東西,我不知道代表什麼)的論文......總之,它討論了「確定哪些URL可能包含相關信息以及哪些網址將被忽略像註冊,新帳戶鏈接

    9熱度

    5回答

    如果我只想允許爬蟲訪問index.php,這個工作嗎? User-agent: * Disallow:/ Allow: /index.php

    0熱度

    5回答

    有誰知道Googlebot寫的是哪種編程語言? 或者更一般地說,哪種語言是有效的網頁爬蟲? 我在Java語言中見過很多,但在我看來,開發一個web爬蟲是最合適的語言,因爲它造成了太多的開銷(嘗試使用Heritrix web爬蟲,而且它非常沉重)。