2011-02-01 65 views
0

我正在尋找術語提取算法/服務。這只是一個編輯的建議,所以提取的術語可能不完整。因此,我希望它將文本與可用條目列表進行比較,並且不會在此列表之外提供任何條款。術語提取與可用術語列表

任務似乎微不足道:每個術語,算上外觀文本的數量,過濾器頂部條款。但是在這裏我有這幾十萬條的列表,這個任務看起來是不可能的。你知道一個服務或算法嗎?

另一個細節是,當我用一個術語提取服務非常滿意(然後過濾這些術語根據我的名單上),這也是非英語語言,最字是複合詞,所以我不知道任何有用的服務。

謝謝。

編輯:爲例

坎週四海31/1/2011,愛立信町biết賈鄭氏迪恩莽HSPA(高速分組接入)VOI DJO TOC現在下載LENđến168兆位/giây, tốcđộtảilên24 Mbit /giây。 Buổi鄭氏演蘇糞MOT阮茂切BIngười小芹糞VA切BI莽商信邁,VOI蘇艾德里安杜CUA新加坡電信西奧意向書MOI CUA愛立信。

DJEđạtTOC DJO 168兆位/giây,愛立信DJA蘇糞MOT所以THUthuậtVO宣,寶GOM叢義安anten MIMO(多輸入多輸出)VA貴都代替QUAnhiềukênhcùngMOT LUC。 MIMO系統可以支持更多的天線接收和發射。

西奧愛立信,cũngSECóMOTbuổi鄭氏奠新和成VAYđược田禪師泰三烯林移動通信世界大會SAP布袋澳巴塞羅那(泰班芽)

並建議列表可能是:愛立信,鄭氏奠,HSPA,anten(其中包括)

+0

你能舉個例子嗎? – 2011-02-01 13:59:57

+0

因此,你基本上想從文本中獲取最常見的單詞。那是對的嗎? – 2011-02-01 14:33:20

回答

0

在第一輪,你可以提取所有單個的詞語,查找哪些是在列表中。通過二進制搜索,如果您的列表是有序的。

在第二輪中,你提取所有的詞對(HOM週四,週四海,愛立信町,町biết)等,並期待這些條款在列表中。

所有後面的步驟都沒有那麼多比第一個更復雜的:在第一步中,你將有因爲有不同的話在你的文字,在第二步儘可能多的查找您將查找的單詞組合的數量可能更接近文本中的單詞總數。但我仍然認爲複合詞確實不會使問題複雜化太多。基於第一步中的單詞提取結果,可能可以大大減少第二步列表的大小。

或者,我想這太簡單了?