web-crawler

0熱度

1回答

我正在使用基於Java的Nutch網絡搜索軟件。爲了防止在我的搜索查詢結果中返回重複（url）結果，我試圖在運行Nutch crawler索引我的Intranet時從要編入索引的URL中刪除（a.k.a. normalize）'jsessionid'的表達式。然而，我對$ NUTCH_HOME/conf/regex-normalize.xml的修改（在運行我的抓取之前）似乎沒有任何效果。如何確保

0熱度

1回答

爬行不起作用windows2008

我們在Windows 2008 SP2環境中安裝了一個新的MOSS 2007服務器場。我們也使用了SQL2008。配置是1個索引，1個FE和1個2008年的服務器，全部在ESX 4.0上。所有需要它的服務都使用專用用戶，因此搜索具有專用用戶。安裝進行順利，我們發現沒有問題。我們從ISO安裝了SP1 MOSS，並在將WSS和MOSS升級到SP2之後。我們也安裝了意大利語語言包，並將其修補到SP2。

2熱度

1回答

扭曲的錯誤

當我從Scrapy教程中我得到這些錯誤信息運行蜘蛛： File "C:\Python26\lib\site-packages\twisted\internet\base.py", line 374, in fireEvent DeferredList(beforeResults).addCallback(self._continueFiring) File "C:\Python26\lib\s

2熱度

4回答

抓取基於登錄的網站的最佳方式是什麼？

我必須從一個網站自動化文件下載活動（類似於，比方說，yahoomail.com）。要訪問包含此文件下載鏈接的頁面，我必須登錄，從一個頁面跳轉到另一個頁面以提供諸如日期等參數，最後點擊下載鏈接。我想到的三種方法：使用華廷和開發定期執行一些代碼華廷通過頁面來遍歷並下載該文件一個窗口服務。使用的AutoIt（沒有太多的想法）使用一個簡單的HTML解析技術（這裏還有幾個問題例如，如何做一個登錄後保

15熱度

8回答

Solr做網絡爬行嗎？

我有興趣做網頁抓取。我在看solr。請問solr做網絡抓取，或者有什麼步驟來做網絡抓取？

3熱度

2回答

在Python中設計一個多進程蜘蛛

我正在研究Python中的一個多進程蜘蛛。它應該開始抓取一個頁面的鏈接，並從那裏工作。具體而言，頂級頁面包含類別列表，這些類別中的第二級頁面事件以及事件中的最終第三級頁面參與者。我無法預測將會有多少類別，活動或參與者。對於如何最好地設計這樣一個蜘蛛，特別是如何知道它何時完成爬行（預計它將繼續前進直到它發現並檢索每個相關頁面），我有點不知所措，。理想情況下，第一次刮會是同步的，其他所有異步最大

22熱度

6回答

網絡爬蟲如何處理javascript

今天互聯網上的很多內容都是使用JavaScript（特別是後臺AJAX調用）生成的。我想知道像谷歌這樣的網絡爬蟲如何處理它們。他們知道JavaScript嗎？他們有內置的JavaScript引擎嗎？或者他們簡單地忽略頁面中所有JavaScript生成的內容（我想這不太可能）。人們是否使用特定的技術來獲取其索引的內容，否則這些技術將通過後臺AJAX請求提供給普通的Internet用戶？

0熱度

4回答

什麼是捕獲URL的最佳方法？

我試圖找到最好的方法來收集URL，我可以創建自己的小爬蟲，但它需要我的服務器幾十年來抓取所有的互聯網，所需的帶寬將是巨大的。另一個想法是使用谷歌的搜索API或雅虎的搜索API，但這不是一個很好的解決方案，因爲它需要在我得到結果之前執行搜索。其他想法包括詢問DNS服務器和請求URL列表，但DNS服務器可以限制/限制我的請求，甚至禁止我一起使用。我目前對DNS服務器的瞭解非常有限，所以我不知道這是否

2熱度

3回答

Ruby網絡蜘蛛和搜索引擎庫

我正在尋找一個Ruby庫或寶石（或一套寶石），它不僅會做蜘蛛抓取，還會將數據收集到數據庫中，並允許基本搜索數據（即典型的網絡搜索）。我發現了幾個蜘蛛庫，所以這部分看起來很好（我首先會嘗試使用銀蓮花），但是我找不到任何將採集蜘蛛數據並允許查詢它的東西。由於缺乏現有的一個，我會用銀蓮花自己寫一些東西。有什麼建議嗎？

0熱度

3回答

如何在JavaScript中提取指向Perl中的HTML頁面的鏈接？

我想提取頁面中的所有鏈接。我正在使用HTML:LinkExtor。如何提取僅指向HTML內容頁面的所有鏈接？我也不能提取這些類型的鏈接： javascript:openpopup('http://www.admissions.college.harvard.edu/financial_aid/index.html'), 編輯：HTML頁面 - text/html的。我不索引圖片等。