web-crawler

    0熱度

    3回答

    我們的情況: 我們的團隊需要從第三方網站檢索日誌信息(具體而言,此日誌 信息是通話記錄 - 我們的客戶租用866號碼,當來電時,他們協助 人,並且需要在我們的應用程序中做相應的記錄,這將與當前通話的 相對應)。我們的客戶在第三方有一個網絡帳戶,允許他們查看當前的通話記錄(日期/時間,電話號碼,每次通話時間等) 。 我聯繫了他們網站的開發人員,並詢問了API或其他方法將我們的數據庫與他們不斷更新的數

    2熱度

    4回答

    我問這個問題是因爲我正在創建一個蜘蛛來從blogger.com收集大學數據可視化項目的數據。 蜘蛛會在博主的browse function上尋找約17,000個值,並且(匿名)保存某些符合正確標準的值。 我一直在運行蜘蛛(用PHP編寫),它工作正常,但我不想讓我的IP列入黑名單或類似的東西。有沒有人有企業網站的任何知識和他們對這類事情的限制? 此外,如果有適當的限制,我能做些什麼來規避它們?目前我

    6熱度

    2回答

    有一種從谷歌索引中排除完整頁面的方法。但是,有沒有一種方法可以從谷歌的抓取中明確排除網頁的某些部分?例如,排除通常包含無關內容的邊欄?

    26熱度

    5回答

    我是一個研究生,研究網絡複雜。我正在研究一個涉及分析Facebook用戶之間連接的項目。根據友情提供的信息,可以爲Facebook編寫爬蟲嗎? 我環顧四周,但找不到任何有用的東西。看起來Facebook並不喜歡這樣的活動。我可以依靠Facebook API嗎? 更新(Jan-08-2010):非常感謝您的回覆。我想我可能需要直接聯繫Facebook。歡呼聲 更新(Feb-16-2011):一本新書

    5熱度

    4回答

    是否可以編寫一個將加載網頁的C#程序,傳遞Webform參數進行登錄,然後單擊鏈接並下載頁面信息?顯然,我會提供用戶名和密碼。 在上下文中,假設我想檢查我的學校帳戶是否有新的新聞更新,我必須使用我的學校用戶名/密碼登錄。我可以提供我的程序所需的信息,並以某種方式讓它將這些參數傳遞到網絡表單並繼續沿着頁面?

    2熱度

    1回答

    我有一個應用程序使用Microsoft.Office.Server.Search.Administration.CrawlHistory類每天讀取一次抓取歷史記錄信息,並將其保存到可以生成報告和統計信息的數據庫中。但是,由於某些原因,此類不會爲當前日期開始的抓取返回數據;它只會返回從早期數據開始的爬網數據。任何人都可以解釋如何讓這個類返回已經運行的所有爬網的數據?

    4熱度

    3回答

    我正在製作一個小機器人來抓取一些網站。 現在,我只是測試它,現在,我嘗試2種設置: 約10個請求每3秒 - 知識產權得到禁止,所以我說 - 好吧,這是太快了。 每隔3秒發出2次請求 - IP在30分鐘後被禁止並且有1000個鏈接被抓取。 這仍然是太快?我的意思是我們正在談論接近1,000,000條鏈接,我應該收到「我們只是不想被抓取?」的消息。還是那太快了? 謝謝。 編輯 再次嘗試 - 2個請求每

    7熱度

    4回答

    我搜索一個可以成熟並可以簡單擴展的網絡爬蟲解決方案。我喜歡下面的功能...或可能延長履帶,以滿足他們: 部分剛讀幾個網站 的飼料放棄這些網站的內容 如果網站有一個檔案我想抓取並索引它 爬蟲應該能夠探索我的網絡的一部分,它應該能夠決定哪些網站符合給定的標準 應該能夠通知我,如果事情可能符合我的興趣 履帶不應受到太多的請求,攻擊它殺死服務器,它應該是聰明做的爬行 履帶應當針對怪胎網站和服務器 那些東西

    2熱度

    2回答

    我正在尋找開發C#窗體形式的Web刮板。我正在嘗試完成如下: 從用戶處獲取URL。 在WINForms中的IE UI控件(嵌入式瀏覽器)中加載網頁。 允許用戶選擇文本(連續,小(不超過50個字符))。來自加載的網頁。 當用戶希望保留位置(HTML DOM位置)時,必須將其持久保存到數據庫中,以便用戶在隨後的訪問期間可以使用該位置獲取該位置的數據。 假設加載的網站是一個價格較高的網站,並且報價率不斷

    0熱度

    4回答

    我希望對一羣博客進行社交網絡分析,繪製誰鏈接到誰(不僅僅是通過他們的博客鏈接,而且還包括他們的帖子)。哪些軟件可以執行這種爬行/數據收集/映射? 謝謝!