web-crawler

    0熱度

    3回答

    HTML解析器...我最近的項目需要一個網絡蜘蛛..它會自動獲取網頁內容,它會得到的鏈接遞歸.... 但它需要完全瞭解其內容。像標籤。 它運行在Linux和Windows ..你知道一些開源關於這個需求.. thanx 或關於一些建議。

    1熱度

    2回答

    我想知道谷歌何時抓取網站,最好是發送自己的電子郵件。 有沒有辦法做到這一點,不會對性能產生不利影響?

    3熱度

    3回答

    我正在研究一個需要集成搜索引擎的應用程序。這也應該爬行。請建議一個好的基於Java的搜索引擎。 預先感謝您。

    2熱度

    4回答

    我在寫一個多線程的Java Web爬蟲。根據我對網絡的理解,當用戶加載網頁時,瀏覽器請求第一個文檔(例如index.html),並且當它接收到HTML時,它將查找需要包含的其他資源(圖像,CSS,JS )並同時要求這些資源。 我的搜尋器只請求原始文檔。出於某種原因,我無法每5秒鐘刮掉2到5頁。我爲每個HttpURLConnection創建一個新線程。我似乎應該至少能夠每秒鐘掃描20-40頁。如果我

    1熱度

    1回答

    如何在Sharepoint 2007中獲取文檔的上次爬網時間? 我想知道在哪個表中我會得到這些信息?

    3熱度

    4回答

    我想自動檢測谷歌和其他爬蟲,並將它們登錄到我的ASP.NET網站。有沒有人找到一個可靠的方法來做到這一點?登錄部分很簡單,但要可靠地檢測它們是真正的問題。 問候。

    68熱度

    5回答

    是否可以在任何指定網站上查找所有頁面和鏈接?我想輸入一個URL併產生一個來自該站點的所有鏈接的目錄樹? 我已經看過HTTrack,但下載整個網站,我只需要目錄樹。

    2熱度

    2回答

    我使用的是VSTS 2008 + C#+ .Net 3.5。我想找到一個工具(開源),它可以抓取網站的所有網頁,也可以查找通過此網站鏈接的任何其他域網頁,我想跳過抓取它們(我只需要該網頁的特定域只要)。對於已爬網的網頁,我想將它們存儲到本地文件目錄中。 任何樣品或準備使用開源工具?

    2熱度

    2回答

    我收到了一堆Ajax化的鏈接,它們可以執行投票,投票,標記後期標準社區審覈等內容。 問題是,googlebot抓取這些鏈接,並投票,下注和標記項目。 將此添加到robots.txt會阻止Googlebot抓取這些鏈接嗎?或者還有什麼我需要做的? User-agent: Googlebot Disallow: /item/*/flag/ Disallow: /item/*/vote/ 謝謝!

    2熱度

    3回答

    我有一個比較簡單的例子。我基本上想要存儲有關各個網站之間鏈接的數據,並且不想限制這些域。我知道我可以使用一些http客戶端庫編寫我自己的抓取工具,但是我覺得我會做一些不必要的工作 - 確保頁面不被檢查多次,計算出如何讀取和使用robots.txt文件,甚至可能試圖使其併發和分發,我相信還有很多其他的東西我還沒有想到。因此我想要一個抓取這些事情的網絡抓取框架,同時允許我指定如何處理這些響應(在我的情