我正在處理文檔比較引擎/搜索引擎。我目前使用它如下...Gensim的多維文檔
search_doc = ["test search"]
documents = ["doc 1 text", "doc 2 text", "doc 3 text", "..."]
然後比較結果。
我想怎麼做(在最簡單的術語可能)是具有多維文檔...爲例(具有多個層面,而不僅僅是「文件」的文檔)..
documents = {
{ "doc 1 title", "doc 1 body", "doc 1 tags" },
{ "doc 2 title", "doc 2 body", "doc 2 tags" },
{ "doc 3 title", "doc 3 body", "doc 3 tags" }
{ ... }
}
而且還能夠衡量結果(例如,標題爲0.6,正文爲0.4等)。
我的問題是...有沒有辦法在Gensim中做到這一點,還是我需要爲文檔的每個元項目創建一個單獨的文檔(例如,比較每個元項目(標題,正文,標籤)作爲一個單獨的文件,然後在使用文檔密鑰/ ID之後合併權重?
我不確定我在解釋這件事方面做得很好,但請讓我知道我是否可以改進我的問題。
謝謝。
謝謝!這通常是我的期望,我非常感謝這個話題的清晰度! –