2010-04-26 28 views
0

簡短說明:在SQL Server文本列找到共同短語

我很好奇,看看我是否可以使用SQL分析服務或其他一些SQL Server服務來挖掘一些數據,我會告訴之間的共性數據集中的SQL TEXT字段。

長說明

我在看一個由大約10,000行TEXT斑點,它們被用作一個問題一個備註欄跟蹤(售票)軟件數據的子集。我想使用一些可以解析所有行並在「註釋」列中查找常用字節序列的東西(無需構建某些東西)。換句話說,我想找到常用的短語(2到3個單詞短語,所以TEXT blob的9-20個字符部分)。這將幫助我更好地確定員工的筆記是否包含我們可以在我們的故障排除流程中標準化的類似短語(故障排除技術)。

閉注

我真的不想因爲我的方法可能不是最有效的方式做到這一點建立一個應用程序來做到這一點。

或者,如果沒有人知道開箱即用的解決方案,您可以推薦任何算法,我可以在代碼中使用,我可以在其中對數組值進行字符串比較?

希望這一切都有道理。請在評論中告訴我是否需要澄清。

回答

1

您可以使用SQL Server Integration Services(Enterprise和Dev版本)中的文本挖掘轉換來執行術語查找和術語提取,然後使用Analysis Services中的關聯規則來構建術語關聯模型。有一個aging tutorial,應該仍然工作(需要免費登錄)

今年晚些時候我們會公佈一些相關的事情 - 如果您有興趣進行beta測試,您可以在我們的網站(predixionsoftware.com)留下反饋。

-Jamie麥克倫南 CTO Predixion軟件

+0

非常感謝您的答覆。你的文章正是我所需要的。我在你的網站上發佈了一些反饋。 – regex 2010-04-30 06:05:05