web-crawler

0熱度

3回答

HTML解析器...我最近的項目需要一個網絡蜘蛛

HTML解析器...我最近的項目需要一個網絡蜘蛛..它會自動獲取網頁內容，它會得到的鏈接遞歸.... 但它需要完全瞭解其內容。像標籤。它運行在Linux和Windows ..你知道一些開源關於這個需求.. thanx 或關於一些建議。

1熱度

2回答

有沒有辦法告訴當googlebot/bingbot/yahoobot在asp.net 2005 IIS6中抓取我的網站？

我想知道谷歌何時抓取網站，最好是發送自己的電子郵件。有沒有辦法做到這一點，不會對性能產生不利影響？

3熱度

3回答

什麼是一個好的網絡搜索和網頁爬行引擎的Java？

我正在研究一個需要集成搜索引擎的應用程序。這也應該爬行。請建議一個好的基於Java的搜索引擎。預先感謝您。

2熱度

4回答

我應該可以同時打開多少個Java HttpURLConnections？

我在寫一個多線程的Java Web爬蟲。根據我對網絡的理解，當用戶加載網頁時，瀏覽器請求第一個文檔（例如index.html），並且當它接收到HTML時，它將查找需要包含的其他資源（圖像，CSS，JS ）並同時要求這些資源。我的搜尋器只請求原始文檔。出於某種原因，我無法每5秒鐘刮掉2到5頁。我爲每個HttpURLConnection創建一個新線程。我似乎應該至少能夠每秒鐘掃描20-40頁。如果我

1熱度

1回答

如何在Sharepoint 2007中獲取文檔的上次爬網時間？

如何在Sharepoint 2007中獲取文檔的上次爬網時間？我想知道在哪個表中我會得到這些信息？

3熱度

4回答

自動登錄谷歌網頁爬蟲

我想自動檢測谷歌和其他爬蟲，並將它們登錄到我的ASP.NET網站。有沒有人找到一個可靠的方法來做到這一點？登錄部分很簡單，但要可靠地檢測它們是真正的問題。問候。

68熱度

5回答

如何查找網站上的所有鏈接/頁面

是否可以在任何指定網站上查找所有頁面和鏈接？我想輸入一個URL併產生一個來自該站點的所有鏈接的目錄樹？我已經看過HTTrack，但下載整個網站，我只需要目錄樹。

2熱度

2回答

。基於網絡的網絡爬蟲示例

我使用的是VSTS 2008 + C＃+ .Net 3.5。我想找到一個工具（開源），它可以抓取網站的所有網頁，也可以查找通過此網站鏈接的任何其他域網頁，我想跳過抓取它們（我只需要該網頁的特定域只要）。對於已爬網的網頁，我想將它們存儲到本地文件目錄中。任何樣品或準備使用開源工具？

2熱度

2回答

如何防止Googlebot抓取Ajaxified鏈接？

我收到了一堆Ajax化的鏈接，它們可以執行投票，投票，標記後期標準社區審覈等內容。問題是，googlebot抓取這些鏈接，並投票，下注和標記項目。將此添加到robots.txt會阻止Googlebot抓取這些鏈接嗎？或者還有什麼我需要做的？ User-agent: Googlebot Disallow: /item/*/flag/ Disallow: /item/*/vote/ 謝謝！

2熱度

3回答

可擴展/可定製的Web爬網引擎/框架/庫？

我有一個比較簡單的例子。我基本上想要存儲有關各個網站之間鏈接的數據，並且不想限制這些域。我知道我可以使用一些http客戶端庫編寫我自己的抓取工具，但是我覺得我會做一些不必要的工作 - 確保頁面不被檢查多次，計算出如何讀取和使用robots.txt文件，甚至可能試圖使其併發和分發，我相信還有很多其他的東西我還沒有想到。因此我想要一個抓取這些事情的網絡抓取框架，同時允許我指定如何處理這些響應（在我的情