我正在爲2個字符串進行抄襲檢測,爲此我使用「Levenshtein距離算法」查找抄襲百分比和「tf idf」來查找關鍵字。但是現在我遇到了突出顯示文本類似文本的問題,我正在考慮使用關鍵字作爲種子來形成簇並突出顯示該簇,但似乎很多工作。任何人都可以指導我如何去做,或者任何其他方式。請幫助我完成我的大學項目。tf-idf的實現
0
A
回答
0
我使用LCS獲得公共子(我知道它並不完美),並使用@Mithgroth高亮這些子
1
假設你有你自己的方式找到文本類似的話,你可以添加你周圍要標記的字跨度標籤,給他們類的屬性,以及CSS類設置爲背景 - 顏色:黃色;
我假設你有一個foreach評估來檢查文本中的每個單詞。
foreach (word in words)
{
if (*word is similar*)
{
word = "<span class='highlight'>" + word + "</span>";
}
}
,並在你的HTML/CSS
.highlight
{
background-color: yellow;
}
+0
感謝您的幫助,它幫助我突出顯示文本的問題。 –
相關問題
- 1. python的tfidf算法
- 2. TFIDF在Python
- 3. 分類LDA與TFIDF
- 4. scikit-learn-Tfidf on HashingVectorizer
- 5. 繪製文檔tfidf 2D圖
- 6. Mahout TFIDF字典文件
- 7. Tfidf向量不工作
- 8. 什麼是理想的tfidf矩陣
- 9. 矩陣的維數減少TFIDF
- 10. Python ScikitLearn與TFIDF的GridSearchCV問題 - JobLibValueError?
- 11. TFIDF與以前預處理的數據
- 12. 使用TFIDF的餘弦相似度
- 13. numpy的矩陣尺寸-TFIDF矢量
- 14. 。bcrypt的實現,實現HashAlgorithm?
- 15. Python和tfidf算法,讓它更快?
- 16. scikit-learn SelectPercentile TFIDF數據特徵縮減
- 17. 結合Sklearn TFIDF與其他數據
- 18. 使用sсikit-learn TfIdf和gensim LDA
- 19. 使用Lucene計算TFIDF分數
- 20. 如何在單個文檔的tfidf矩陣中找到哪個單詞具有最大tfidf?
- 21. Fermat的小實現問題的實現
- 22. CPython內部實現的文檔實現
- 23. 有沒有實現HttpServletRequest的ServletRequest實現?
- 24. 用Java實現的Plaid API實現
- 25. PickerView在Titanium中實現的TableView實現
- 26. 在python中實現R表的實現
- 27. 實現polynimial類實現
- 28. Maven的實現
- 29. NSArray的實現
- 30. getUTF8Length的實現
這甚至還沒有接近餘弦相似性和tf-idf。一次有一個問題。 – Paparazzi
我知道那不是餘弦相似性和tf-idf,我目前正在使用這個來找到百分比,並且正在學習餘弦相似度來替換它。 –