我很無知在網站的html/javascript中出現的內容,因爲我大部分時間都花在了後端(措辭!)上。基本上,我想知道採用公司網址的最佳方式,例如PETA,並從該網址從他們的首頁html解析出有關該公司的描述性文字。通過這種方式,您可以只使用公司網址列表來啓動自動標記分類網站。從網址收集關於公司的一系列描述性標籤的最佳方法是什麼?
如果這是合理的,那麼對於找到/挖掘內容的工具/過程的任何建議都會受到很大的歡迎。
如果不是,或者你有更好的想法來獲得標籤,讓它被稱爲以及!
我很無知在網站的html/javascript中出現的內容,因爲我大部分時間都花在了後端(措辭!)上。基本上,我想知道採用公司網址的最佳方式,例如PETA,並從該網址從他們的首頁html解析出有關該公司的描述性文字。通過這種方式,您可以只使用公司網址列表來啓動自動標記分類網站。從網址收集關於公司的一系列描述性標籤的最佳方法是什麼?
如果這是合理的,那麼對於找到/挖掘內容的工具/過程的任何建議都會受到很大的歡迎。
如果不是,或者你有更好的想法來獲得標籤,讓它被稱爲以及!
邁克·斯威夫特太正確的 - 如果你正在尋找分類而已,那麼所有你需要做的是分析出DMOZ分類。亞馬遜服務使用DMOZ來獲取類別,而且它是免費的(與AWIS不同)。例如,解析出this鏈接以獲得PETA的類別。
如果你正在尋找解析工具,我很喜歡Nokogiri,但任何網絡解析工具,如BeautifulSoup工程。我會用類似的東西解析它:
Nokogiri::HTML(open('<site>'))
doc.css('ol.dir li a').map {|item| [item.content]}
希望幫助!
爲什麼不使用Alexa Webinfo API?它很容易使用,你可以得到關鍵字以及關於鏈接的很多有用的信息。 (加上它的AWS的一部分,這意味着良好的速度和可靠性)
基本信息&註冊
文檔:
http://docs.amazonwebservices.com/AlexaWebInfoService/latest/
個代碼示例: