當前正在設計一個用於我的網站的CMS。我想知道是否有任何免費的庫可用於創建基於內容的標籤。什麼是建議內容關鍵字的有效庫?
例
我喜歡樹。樹是有葉子的植物。樹上的葉子可以是多色的 。
會產生標籤樹木和葉。
該庫應該是PHP或JS。
編輯1:
我發現了一個簡單的庫我的一半任務 - http://www.cafewebmaster.com/get-top-100-words-keywords-text-php
我已經編輯一下庫規格應爲(得益於@NullUserException指導) -
統計所有單詞(忽略大小寫和倒數),丟掉停用單詞並挑選最高頻率的單詞
編輯文本以製作更具體的類型(可能具有更低的頻率),具有更高的價值。例如,在示例中 - '多色'應該變得更高,因爲它對該主題更具體。但是它應該包含一個前綴,表明它與主題相關(它會變成葉子多色)。
編輯2:
算法應該刪除具有少於3個字符除非他們是在首都或格式化,否則
簡單的解決方案:統計所有單詞(忽略大小寫和拐點),拋出[停用詞](http://en.wikipedia.org/wiki/Stop_words)並挑選最高的單詞。 – NullUserException
這是我需要的一半,另一半是使用這些詞,並找到更具體的版本。即在我的例子中使用'多色'需要比植物具有更高的關鍵字相關性,因爲它更具體。我將如何做到這一點? – liamzebedee