2011-06-28 50 views
3

我很無知在網站的html/javascript中出現的內容,因爲我大部分時間都花在了後端(措辭!)上。基本上,我想知道採用公司網址的最佳方式,例如PETA,並從該網址從他們的首頁html解析出有關該公司的描述性文字。通過這種方式,您可以只使用公司網址列表來啓動自動標記分類網站。從網址收集關於公司的一系列描述性標籤的最佳方法是什麼?

如果這是合理的,那麼對於找到/挖掘內容的工具/過程的任何建議都會受到很大的歡迎。

如果不是,或者你有更好的想法來獲得標籤,讓它被稱爲以及!

回答

1

邁克·斯威夫特太正確的 - 如果你正在尋找分類而已,那麼所有你需要做的是分析出DMOZ分類。亞馬遜服務使用DMOZ來獲取類別,而且它是免費的(與AWIS不同)。例如,解析出this鏈接以獲得PETA的類別。

如果你正在尋找解析工具,我很喜歡Nokogiri,但任何網絡解析工具,如BeautifulSoup工程。我會用類似的東西解析它:

Nokogiri::HTML(open('<site>')) 
doc.css('ol.dir li a').map {|item| [item.content]} 

希望幫助!

相關問題