我想實施某種服務,我的客戶可以使用 找到他們的公司。博客,論壇 b。 facebook,twitter c。評論網站如何實施社交媒體/網站監控服務?
a。博客,論壇 這隻能由爬蟲完成,對吧?在論壇/博客上尋找robots.txt的爬蟲,並且可以閱讀論壇/博客的內容(當然還有鏈接)。 但是從哪裏開始?我可以使用一組網站開始抓取嗎?我必須預先定義它們嗎?或者我可以先使用其他搜索引擎嗎?例如。在Google上搜索該公司,然後抓取SERP?法律?
b。 facebook,twitter 他們有API,所以帽子不應該是我想的問題。
c。評論網站 我看了一些評論網站的服務條款,他們寫道,使用自動化軟件抓取他們的網站是不允許的。另一方面,與我相關的網站在他們的robots.txt中不被禁止。這裏重要嗎?
歡迎任何其他提示。
在此先感謝:-)
核心問題是「我們在哪裏提到過?」 – nogamawa 2011-01-08 16:16:11