2011-02-24 24 views
0

我正在嘗試創建類似於Google新聞的功能 - 根據它們的相似程度將標題分組在一起。將不同字符串分組在一起的SQL查詢,它們至少共享兩個相同的字

我以爲我會通過將標題分組在一起,標題共享同一單詞的最小數量來做到這一點。

是否有一個簡單的SQL查詢將查看字符串的文本,然後按照這種方式將它們組合在一起?

在我的查詢中,我會將文章標題分組在一起。

任何幫助將是驚人的。謝謝。

+0

不會有一個簡單的SQL查詢來做到這一點。您需要決定如何分析標題中的單詞,哪些單詞是停用詞,以及其他各種問題。一旦你有辦法做這種分析,那麼分組可能很簡單 - 但要達到恰當地組織這些詞的地步需要時間。 – 2011-02-24 04:00:05

回答

0

我會分開標題的每個單詞,並保存他們像「標籤」,並寫一個查詢顯示其他文章共享共同標籤。你們都解決了你的問題,並且有一個標籤系統。雙贏。

+0

可能想忽略常見或小詞,如和 – 2011-02-24 04:16:34

+0

嗯 - 好的想法。任何想法如何爆炸頭條新聞? – Mike 2011-02-24 04:29:16

+0

嗯,我不知道如何在SQL本身做到這一點,但這將用你的腳本語言完成。我會先修剪不需要的字符,如 - ,。 「等,然後開始爆炸。例如:PHP有一個很好的函數叫爆炸()http://php.net/explode。你可以爆炸他們,並使用in_array()http://php.net/in_array來檢查是否每個部分的爆炸字符都在你的$ unwanted_words數組中(用來做上面提到的Jason),然後插入到表格中,然後你可以很容易地將你的文章(或者其他任何東西)加入到你的標籤表中,並顯示類似頭條新聞。 – Arda 2011-02-24 04:47:07

相關問題