web-crawler

0熱度

3回答

我們的情況：我們的團隊需要從第三方網站檢索日誌信息（具體而言，此日誌信息是通話記錄 - 我們的客戶租用866號碼，當來電時，他們協助人，並且需要在我們的應用程序中做相應的記錄，這將與當前通話的相對應）。我們的客戶在第三方有一個網絡帳戶，允許他們查看當前的通話記錄（日期/時間，電話號碼，每次通話時間等）。我聯繫了他們網站的開發人員，並詢問了API或其他方法將我們的數據庫與他們不斷更新的數

2熱度

4回答

如果我多次請求，請<如何在此插入流行網站>限制我訪問他們的網站？

我問這個問題是因爲我正在創建一個蜘蛛來從blogger.com收集大學數據可視化項目的數據。蜘蛛會在博主的browse function上尋找約17,000個值，並且（匿名）保存某些符合正確標準的值。我一直在運行蜘蛛（用PHP編寫），它工作正常，但我不想讓我的IP列入黑名單或類似的東西。有沒有人有企業網站的任何知識和他們對這類事情的限制？此外，如果有適當的限制，我能做些什麼來規避它們？目前我

6熱度

2回答

如何從谷歌索引中排除部分網頁？

有一種從谷歌索引中排除完整頁面的方法。但是，有沒有一種方法可以從谷歌的抓取中明確排除網頁的某些部分？例如，排除通常包含無關內容的邊欄？

26熱度

5回答

如何根據友情信息抓取Facebook？

我是一個研究生，研究網絡複雜。我正在研究一個涉及分析Facebook用戶之間連接的項目。根據友情提供的信息，可以爲Facebook編寫爬蟲嗎？我環顧四周，但找不到任何有用的東西。看起來Facebook並不喜歡這樣的活動。我可以依靠Facebook API嗎？更新（Jan-08-2010）：非常感謝您的回覆。我想我可能需要直接聯繫Facebook。歡呼聲更新（Feb-16-2011）：一本新書

5熱度

4回答

是否有可能以編程方式登錄到使用C＃的網站？

是否可以編寫一個將加載網頁的C＃程序，傳遞Webform參數進行登錄，然後單擊鏈接並下載頁面信息？顯然，我會提供用戶名和密碼。在上下文中，假設我想檢查我的學校帳戶是否有新的新聞更新，我必須使用我的學校用戶名/密碼登錄。我可以提供我的程序所需的信息，並以某種方式讓它將這些參數傳遞到網絡表單並繼續沿着頁面？

2熱度

1回答

獲取SharePoint抓取歷史記錄

我有一個應用程序使用Microsoft.Office.Server.Search.Administration.CrawlHistory類每天讀取一次抓取歷史記錄信息，並將其保存到可以生成報告和統計信息的數據庫中。但是，由於某些原因，此類不會爲當前日期開始的抓取返回數據;它只會返回從早期數據開始的爬網數據。任何人都可以解釋如何讓這個類返回已經運行的所有爬網的數據？

4熱度

3回答

過於咄咄逼人的機器人？

我正在製作一個小機器人來抓取一些網站。現在，我只是測試它，現在，我嘗試2種設置：約10個請求每3秒 - 知識產權得到禁止，所以我說 - 好吧，這是太快了。每隔3秒發出2次請求 - IP在30分鐘後被禁止並且有1000個鏈接被抓取。這仍然是太快？我的意思是我們正在談論接近1,000,000條鏈接，我應該收到「我們只是不想被抓取？」的消息。還是那太快了？謝謝。編輯再次嘗試 - 2個請求每

7熱度

4回答

是否存在任何開放的，簡單的可擴展的網絡爬蟲？

我搜索一個可以成熟並可以簡單擴展的網絡爬蟲解決方案。我喜歡下面的功能...或可能延長履帶，以滿足他們：部分剛讀幾個網站的飼料放棄這些網站的內容如果網站有一個檔案我想抓取並索引它爬蟲應該能夠探索我的網絡的一部分，它應該能夠決定哪些網站符合給定的標準應該能夠通知我，如果事情可能符合我的興趣履帶不應受到太多的請求，攻擊它殺死服務器，它應該是聰明做的爬行履帶應當針對怪胎網站和服務器那些東西

2熱度

2回答

用C語言實現動態Web刮板的邏輯＃

我正在尋找開發C＃窗體形式的Web刮板。我正在嘗試完成如下：從用戶處獲取URL。在WINForms中的IE UI控件（嵌入式瀏覽器）中加載網頁。允許用戶選擇文本（連續，小（不超過50個字符））。來自加載的網頁。當用戶希望保留位置（HTML DOM位置）時，必須將其持久保存到數據庫中，以便用戶在隨後的訪問期間可以使用該位置獲取該位置的數據。假設加載的網站是一個價格較高的網站，並且報價率不斷

0熱度

4回答

映射博客之間的鏈接連接的最佳方式是什麼？

我希望對一羣博客進行社交網絡分析，繪製誰鏈接到誰（不僅僅是通過他們的博客鏈接，而且還包括他們的帖子）。哪些軟件可以執行這種爬行/數據收集/映射？謝謝！