2011-09-11 58 views
8

當前正在設計一個用於我的網站的CMS。我想知道是否有任何免費的庫可用於創建基於內容的標籤。什麼是建議內容關鍵字的有效庫?

我喜歡樹。樹是有葉子的植物。樹上的葉子可以是多色的 。

會產生標籤樹木

該庫應該是PHP或JS。

編輯1:

我發現了一個簡單的庫我的一半任務 - http://www.cafewebmaster.com/get-top-100-words-keywords-text-php

我已經編輯一下庫規格應爲(得益於@NullUserException指導) -

  • 統計所有單詞(忽略大小寫和倒數),丟掉停用單詞並挑選最高頻率的單詞

  • 編輯文本以製作更具體的類型(可能具有更低的頻率),具有更高的價值。例如,在示例中 - '多色'應該變得更高,因爲它對該主題更具體。但是它應該包含一個前綴,表明它與主題相關(它會變成葉子多色)。

編輯2:

算法應該刪除具有少於3個字符除非他們是在首都或格式化,否則

+2

簡單的解決方案:統計所有單詞(忽略大小寫和拐點),拋出[停用詞](http://en.wikipedia.org/wiki/Stop_words)並挑選最高的單詞。 – NullUserException

+0

這是我需要的一半,另一半是使用這些詞,並找到更具體的版本。即在我的例子中使用'多色'需要比植物具有更高的關鍵字相關性,因爲它更具體。我將如何做到這一點? – liamzebedee

回答

1

話是你的CMS上的標籤已經被定義?如果是的話,你可以在內存中索引你的文本,並使用所有已知標籤對文本進行搜索。選擇評分最高的標籤並呈現給用戶。

建立索引和搜索可以與http://lucene.apache.org/solr/

編輯來完成:請注意,我建議您的標籤/關鍵字定義,並從管理面板管理(例如像在WordPress)。否則,最終會有數千個從您的文章中生成的關鍵字,這永遠不會對最終用戶有所幫助。

相關問題