2016-10-22 62 views
0

我正在爲2個字符串進行抄襲檢測,爲此我使用「Levenshtein距離算法」查找抄襲百分比和「tf idf」來查找關鍵字。但是現在我遇到了突出顯示文本類似文本的問題,我正在考慮使用關鍵字作爲種子來形成簇並突出顯示該簇,但似乎很多工作。任何人都可以指導我如何去做,或者任何其他方式。請幫助我完成我的大學項目。tf-idf的實現

+1

這甚至還沒有接近餘弦相似性和tf-idf。一次有一個問題。 – Paparazzi

+0

我知道那不是餘弦相似性和tf-idf,我目前正在使用這個來找到百分比,並且正在學習餘弦相似度來替換它。 –

回答

0

我使用LCS獲得公共子(我知道它並不完美),並使用@Mithgroth高亮這些子

1

假設你有你自己的方式找到文本類似的話,你可以添加你周圍要標記的字跨度標籤,給他們的屬性,以及CSS類設置爲背景 - 顏色:黃色;

我假設你有一個foreach評估來檢查文本中的每個單詞。

foreach (word in words) 
{ 
    if (*word is similar*) 
    { 
     word = "<span class='highlight'>" + word + "</span>"; 
    } 
} 

,並在你的HTML/CSS

.highlight 
{ 
    background-color: yellow; 
} 
+0

感謝您的幫助,它幫助我突出顯示文本的問題。 –