如果您有文本列表和對特定主題感興趣的人,那麼爲特定人選擇最相關文本的算法是什麼?根據內容優先考慮文本
我認爲,這是一個相當複雜的話題,作爲一個答案,我想到幾個方向來研究文本分析,文本統計學,人工智能等多種方法
謝謝
如果您有文本列表和對特定主題感興趣的人,那麼爲特定人選擇最相關文本的算法是什麼?根據內容優先考慮文本
我認爲,這是一個相當複雜的話題,作爲一個答案,我想到幾個方向來研究文本分析,文本統計學,人工智能等多種方法
謝謝
這個任務有很多算法。至少在這裏提到這些都太多了。首先一些出發點:
主題發現和推薦是兩個相當獨特的任務,雖然他們經常重疊。如果您擁有穩定的用戶羣,則可以在未發現任何主題的情況下提供非常好的建議。
發現主題併爲其分配名稱也是兩個不同的任務。這意味着,能夠說出文本A和文本B共享類似的主題通常會更容易,而不是明確地說出這個常見主題可能是什麼。爲人物提供名字最好由人來完成,例如讓他們給物品加標籤。
現在來看一些實際的例子。
TF-IDF通常是一個很好的起點,但它也有很多缺點。例如,它不能說兩個文本中的「汽車」和「卡車」意味着這兩個可能共享一個話題。
用於自動聚類數據的Kohonen映射。它學習主題,然後按主題組織文本。
http://de.wikipedia.org/wiki/Latent_Semantic_Analysis通過檢測不同單詞之間的語義相似性,可以提升TF-IDF。另請注意,這已獲得專利,因此您可能無法使用它。
一旦用戶或專家分配了一組主題,您還可以嘗試幾乎任何類型的機器學習方法(例如SVM)將TF-IDF數據映射到主題。
作爲搜索引擎engieneer我認爲這個問題是最好解決使用兩種技術相結合。
技術1,搜索(TF-IDF或其他算法)
使用搜索到你沒有用戶統計的內容創建基準模型。有很多技術,但我認爲Apache Lucene/Solr代碼基礎是最成熟和最穩定的。
技術2,基於用戶的推薦人(其他k-nearest neighborhood算法)
當你開始得到用戶的統計數據用這個來提高通過文本分析系統中使用的相關模型。解決這些問題的快速增長的代碼庫是Apache Mahout項目。
謝謝,看起來不錯。我需要一點時間來閱讀它。 – xralf