2014-11-21 47 views
3

我有以下文字:如何知道Jsoup刪除哪些文本?

text<html/>text 

而且爲了清理從HTML內容文本使用Jsoup庫。即如下面的代碼:

Document clean = new Cleaner(none()).clean(myDirtyDoc); 

我要記錄錯誤的用戶,如:Malisious content was specified: "<html/>". 但我不知道如何正確地識別行Jsoup是乾淨的。

我試着使用StringUtils.difference(cleanedValue,值),但這種方法以另一種方式工作,即文檔說:

Compares two Strings, and returns the portion where they differ. 
(More precisely, return the remainder of the second String, 
starting from where it's different from the first.) 

至於導致其返回的字符串是這樣的:<html/>text

將很好地瞭解任何可以在java中用於比較字符串的diff工具。

回答

1

google-diff-match-patch

的DIFF匹配和修補程序庫提供強大的算法來進行同步純文本所需的操作。

差異: 比較兩個純文本塊並高效地返回差異列表。

符合條件: 給出一個搜索字符串,在純文本塊中找到它的最佳模糊匹配。加權的準確性和位置。

修補程序: 將修補程序列表應用於純文本。即使底層文本不匹配,也盡最大努力應用補丁。目前在Java,JavaScript,Dart,C++,C#,Objective C,Lua和Python中都有提供。不管語言如何,每個庫都具有相同的API和相同的功能。所有版本也有全面的測試線束。

有一個Line or word diffs wiki頁面,它描述瞭如何進行逐行比較。

相關問題