2009-07-17 31 views
0

好吧,即時建立一個搜索引擎。並且搜索模塊能夠提取相關單詞。現在我有一個單詞列表和它們在原始文本中的偏移量。使用levenshtein距離來計算查詢字符串和源文本部分之間的差異是一個壞主意(從給定單詞的偏移量開始,直到查詢字符串的長度)。問我以爲這會幫助我更快地生成摘錄。使用levenshtein距離生成摘錄

它不需要接近搜索等,只有普通的「ANY」和「ALL」模式。順便說一句,結果已經排序,所以即時只能看看現在的摘錄一代。謝謝。

回答

1

構建從文本到包含詞(及其數量)的一對多映射。這個「字袋」矢量可以用於很多不同的技術。

+0

這是我的計劃,但後來我也許這種技術可以更快地做更少的迭代,這就是爲什麼我問這裏。 – kar 2009-07-17 12:03:56