我已經在Calculating Word Proximity in an inverted Index處提出了類似的問題。 但是我覺得這個問題太籠統了,還不夠完善。所以在這裏。計算用於計算鄰近度的點積
我有一個列表,其中包含文檔中的標記位置。對於每個令牌它會爲
public List<int> hitLocation;
比方說在該文件是
Java programming language has a name similar to java island in Indonesia however
local language in java bears no resemblance to the programming language called java.
和查詢
java island language
所以說我鎖定到Java結果列表,直接嘗試計算Java HisList,Island HitList和Language Hitlist之間的距離。
現在第一個問題是句子中有4個java令牌出現。我選擇哪一個。假設我選擇了第一個。
我進入島標記列表,並在比較後發現它與第二次出現的java相鄰。所以我改變我的選擇並鎖定到第二次出現的Java。
繼續使用第三種標記語言,我發現它位於距離我們的選擇很遠的地方,但是我發現它距離第一個Java事件很近。
所以你看到這裏的困境,如果現在再次恢復到原來的選擇,即Java的第一次出現的距離第二個令牌「島」增加,如果我留在我目前的選擇第二次出現的絕對距離令牌「語言」會使相關性破壞。
以前有點產品的建議,但我對如何繼續前進該選項的損失。
任何其他解決方案也將受到歡迎。
我明白這個問題很詳細。不過,我已經搜索了很長時間,並且沒有在這個主題上發現任何類似的問題。
我覺得如果這個問題得到解答,它將成爲社區的一個很好的補充,並且會讓任何設計任何與相關性相關的東西都相當開心。
謝謝。