假設我有一個杆,它是像Java快速字符串匹配(以文本到一個類別相關聯)
- 標題:「WEB:SEO在2011年」
- 描述:「一個會議談論SEO中的2011" 網絡
另外,我有相關的類別的關鍵字列表:
- 「IT」(貓) - >「網絡代徵」, 「搜索引擎優化」, 「發展」, 「網絡開發」(關鍵字)
我有多個類別(IT,藝術,體檢,文學,機械等)
我需要使用java自動升級我的帖子與這些類別和關鍵字(一種標籤),以改善未來的搜索。
上面的例子應該匹配「seo」和「web」,這樣main_category字段應該填充「IT」,並且subfield_category應該填充「seo」或「web」(或者兩者兼而有之,也不錯)
我的問題是,我能想出的唯一解決方案是waaaaay進入bruteforcing(測試所有的單詞,當一個匹配你有類別和與它關聯的關鍵字列表)它會減慢我的表演...
有沒有什麼辦法可以用更好的方式進行搜索?我也可以修改我的類別 - >關鍵字結構來做更好的事情(我仍然不知道如何...)
謝謝所有提前!
編輯:準確性不是那麼重要,因爲阿米特在評論中問道。我不需要100%的標記準確性,因爲我知道基於字符串的原始匹配我可以有一個正確的數量的正確性。
另外,我是thinkinking有關的邏輯是:看文章的標題/描述,搜索的關鍵字匹配,與類別,尋找更多的關鍵字這一類的標籤,節省3至5匹配關鍵字
你有學習樣本嗎? [即一組文件,你知道他們應該如何標記]? – amit
另外,你是否對標籤的準確性感興趣?或者你能否認爲標籤詞總是在主題/描述中? – amit
這是最大的問題:nope :(我只是有原始文檔,沒有任何示例上下文:(準確性不重要,這就是爲什麼我決定將2-3個二級關鍵字關聯到每個帖子 –