從網址收集關於公司的一系列描述性標籤的最佳方法是什麼？

我很無知在網站的html/javascript中出現的內容，因爲我大部分時間都花在了後端（措辭！）上。基本上，我想知道採用公司網址的最佳方式，例如PETA，並從該網址從他們的首頁html解析出有關該公司的描述性文字。通過這種方式，您可以只使用公司網址列表來啓動自動標記分類網站。從網址收集關於公司的一系列描述性標籤的最佳方法是什麼？

如果這是合理的，那麼對於找到/挖掘內容的工具/過程的任何建議都會受到很大的歡迎。

如果不是，或者你有更好的想法來獲得標籤，讓它被稱爲以及！

來源

2011-06-28 John Smith

邁克·斯威夫特太正確的 - 如果你正在尋找分類而已，那麼所有你需要做的是分析出DMOZ分類。亞馬遜服務使用DMOZ來獲取類別，而且它是免費的（與AWIS不同）。例如，解析出this鏈接以獲得PETA的類別。

如果你正在尋找解析工具，我很喜歡Nokogiri，但任何網絡解析工具，如BeautifulSoup工程。我會用類似的東西解析它：

Nokogiri::HTML(open('<site>')) 
doc.css('ol.dir li a').map {|item| [item.content]}

希望幫助！

來源

2011-06-29 16:31:55 dougvk

爲什麼不使用Alexa Webinfo API？它很容易使用，你可以得到關鍵字以及關於鏈接的很多有用的信息。（加上它的AWS的一部分，這意味着良好的速度和可靠性）

基本信息&註冊

http://aws.amazon.com/awis/

文檔：

http://docs.amazonwebservices.com/AlexaWebInfoService/latest/

個代碼示例：

http://aws.amazon.com/code?_encoding=UTF8&jiveRedirect=1

來源

2011-06-28 00:48:25 Swift

從網址收集關於公司的一系列描述性標籤的最佳方法是什麼？

回答

相關問題