我想使用Lucene.NET來存儲和查詢術語向量。但是,我不希望從文檔創建術語向量。相反,我希望能夠直接編寫和更新術語向量,而不需要術語/標記的位置或偏移量。是否可以直接修改術語頻率/術語向量?
的解決方法是從術語向量
foo: 3; bar: 1
生成從術語載體,即文本生成文本
foo, foo, foo, bar
和讓Lucene索引該文本。如果我想更新吧期限頻率2
,我能得到存儲的文本(或從舊項向量生成它,如果我不保存它),將其更改爲
foo, foo, foo, bar, bar
並更新索引中的相關文檔。
這對於這樣一個簡單的任務來說相當昂貴。很明顯,這不是用例,Lucene是爲了用來構建的。儘管如此,我還是希望能夠使用Lucene的強大功能來查詢等。
有沒有辦法直接爲文檔編寫術語向量,或者您是否有其他好的想法?
嗨,我有同樣的問題。你有沒有找到解決方案? – eroy4u
@ eroy4u:不是,看看我的回答如下... – Marc
對於Elasticsearch同樣的問題 - 我認爲這個功能會非常有用。 –