2012-09-11 16 views
0

我想如果用戶提交一條消息,他們點擊一個'建議標籤'按鈕,他們的消息將被分析,一個表單字段填充wIthaca從他們的帖子隨機單詞。是否可以自動從一長串文本中隨機抽取「標籤」?

是否可以在可擴展級別上執行此操作? JavaScript能夠處理它或更好地將Ajax回傳給Python嗎?

我在考慮某些常見單詞將被排除(a,the等),也許10個最長的單詞或只是隨機不常見的單詞將被添加到表單域,如「tag1,tag2,tag3」

+0

是的,它是可能的。 – Shmiddty

+0

你的意思是最長的單詞還是最常出現的單詞? –

+0

我不確定確定標籤的最佳方式。我想大多數人使用會優先選擇最長,然後最長,排除常見詞 – chrickso

回答

0

當然,這是可能的,你很可能描述的算法進行測試,它似乎並沒有包含任何明顯的非可計算的步驟:

  1. 拆分信息變成文字
  2. 濾除常見詞
  3. 按字排序長度
  4. 挑選十大之和作爲標籤

不知道你的「可擴展級別」的意思,這聽起來客戶端給我。除非這些信息很長,即沒有被人類輸入,否則我認爲這樣做不會有任何問題。

+0

以及他們長/人類的類型,所以它似乎真的要分開所有的話和處理它們。只是尋找關於如何以最有效的方式完成這些工作的想法。 – chrickso

0

同意@unwind,它取決於文本的內容長度和你的算法來獲取標籤(可擴展)

相關問題