web-crawler

的Googlebot（Googlebot/2.1）出現抓取URL：■上依次對應於所述URL的長度的新添加的位點： .. GET /ivjwiej/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ .. .. GET /voeoovo/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebo

4熱度

5回答

如何生成大型網站的圖形站點地圖

我想爲我的網站生成一個圖形站點地圖。有兩個階段，據我可以告訴：抓取網站和分析鏈接關係來提取樹結構產生視覺上令人愉悅呈現樹的有誰有實現這一點的建議或經驗，或者知道我可以建立的現有工作（理想情況下用Python）？我碰到一些nice CSS渲染樹，但它只適用於3個級別。感謝

4熱度

5回答

兩次不抓取相同的內容

我正在構建一個小應用程序，它將抓取內容正在增長的站點（就像在stackoverflow上一樣），區別在於一旦創建的內容很少被修改。現在，我在第一遍中檢索網站中的所有頁面。但接下來，該網站的分頁內容 - 我不想重新抓取所有這些，只是最新的補充。因此，如果該網站有500頁，第二次通過，如果該網站有501頁，那麼我只會抓取第一頁和第二頁。這是處理這種情況的好方法嗎？最終，抓取的內容將以lucen

0熱度

3回答

抓取新聞文章

有誰知道是否有標準/ API來抓取來自大多數最大新聞來源的新聞文章。我正在使用rss爲它們編制索引，但我想用更多的數據對它們進行分類，而不僅僅是它們的標題。

3熱度

2回答

存儲爬蟲狀態的最優化方式？

我目前正在編寫一個web爬蟲（使用python框架scrapy）。最近我不得不實現一個暫停/恢復系統。我實施的解決方案是最簡單的方法，基本上，它們在計劃時存儲鏈接，並在它們實際存在時將其標記爲「已處理」。因此，當恢復蜘蛛時，我能夠獲取這些鏈接（顯然，存儲的內容比只包含URL，深度值，鏈接所屬的域等等要多一些），至今一切正常好。現在，我剛剛使用了一個mysql表來處理這些存儲操作，主要是爲了

13熱度

4回答

是否有已知的網絡爬蟲列表？

我正在嘗試爲Web服務器上的某些文件獲取準確的下載編號。我看用戶代理，有些很明顯是殭屍程序或網絡爬蟲，但很多人對於很多我不確定，他們可能或可能不是網絡爬蟲，他們造成許多下載，所以知道這一點很重要。是否有某處有知識的網絡爬蟲列表與用戶代理，IP，行爲等一些文檔？我對谷歌，雅虎或微軟等官方用戶不感興趣。這些人一般都很好，並且自我認定。