2011-01-08 41 views
1

我想實施某種服務,我的客戶可以使用 找到他們的公司。博客,論壇 b。 facebook,twitter c。評論網站如何實施社交媒體/網站監控服務?

a。博客,論壇 這隻能由爬蟲完成,對吧?在論壇/博客上尋找robots.txt的爬蟲,並且可以閱讀論壇/博客的內容(當然還有鏈接)。 但是從哪裏開始?我可以使用一組網站開始抓取嗎?我必須預先定義它們嗎?或者我可以先使用其他搜索引擎嗎?例如。在Google上搜索該公司,然後抓取SERP?法律?

b。 facebook,twitter 他們有API,所以帽子不應該是我想的問題。

c。評論網站 我看了一些評論網站的服務條款,他們寫道,使用自動化軟件抓取他們的網站是不允許​​的。另一方面,與我相關的網站在他們的robots.txt中不被禁止。這裏重要嗎?

歡迎任何其他提示。

在此先感謝:-)

回答

1

老實說,最簡單的方式做這將是啓動的搜索引擎。他們都有自動搜索的API,因此在您獲取客戶產品或品牌的鏈接/提及時,可能會給您帶來最高回報。

這不會處理認證背後的事情,只有公共的東西(當然)。但它會給你一個良好的基準開始。從那裏,你可以(如果你想)使用API​​或定製的機器人,這些機器人在網站上獲得授權,但老實說,我認爲在那一點上,你錯過了核心問題。

核心問題「我們在哪裏提到?」或者真的是核心問題......「哪些網站獲得流量來找我們?」在大多數情況下,後者是後者,在這種情況下,您可以忽略之前所說的全部內容,只需使用Google Analytics或客戶端站點上的類似軟件來確定流量來自哪裏。好吧,所以如果是我們提到過的地方,我仍然會按照規定啓動搜索引擎。 Google的api非常簡單,它有一個基於SOAP的應用程序,您可以根據需要將其作爲Web引用引入; example

回覆:評論網站。如果該網站的服務條款說你不能使用自動化機器人,那麼最好不要使用自動化機器人。 robots.txt沒有法律約束力(這是一種好鄰居),所以我不會使用沒有排除在外的許可。一些評論網站(更現代的網站)可能會禁止自動抓取他們的網站,但他們仍然可能發佈RSS提要或Atom提要,或者有其他一些可以掛鉤的API,這是值得檢查的。

+0

核心問題是「我們在哪裏提到過?」 – nogamawa 2011-01-08 16:16:11