2012-11-04 26 views
1

我們正在考慮使用現有的內容分析服務API來返回文章中給定的詞條相關度分數。內容分析 - 給定的詞彙相關度分數

發現了一些非常好的內容分析的服務,如:

  1. 雅虎內容分析服務
  2. OpenCalais ...

但是,我們正在尋找一種方式來返回給定術語相關度分數

例如,

我們有一個詞彙 - 主題包含「成本」,「政府」

和頁面http://www.test.dev/article/1.html

然後我們要使用內容分析服務來檢查文章中的主題相關

,所以我們可以決定自動標記我們自己詞彙的文章。

感謝您的幫助。

回答

3

您提到的Yahoo Content Analysis service將用於識別相關鏈接和其他元數據。如果您專門查找詞彙術語,則可以嘗試Yahoo Term Extraction service。它接受源文本和查詢條件。

這裏是作爲YQL控制檯中顯示的演示查詢:

select * from search.termextract where context="Italian sculptors and painters of the renaissance favored the Virgin Mary for inspiration" and query="madonna"

和實例的結果:

"results": { 
"Result": [ 
    "Italian sculptors", 
    "the Virgin Mary", 
    "painters", 
    "the renaissance" 
] 
} 

一個大警告:雅虎曾表示單詞提取服務將被向下關閉在某一點。相反,他們推薦使用內容分析服務的新開發。 (Source

如果您想在相同的上下文中嘗試使用服務結果,還有OpenCalais的YQL表。