如何知道Jsoup刪除哪些文本？

我有以下文字：如何知道Jsoup刪除哪些文本？

text<html/>text

而且爲了清理從HTML內容文本使用Jsoup庫。即如下面的代碼：

Document clean = new Cleaner(none()).clean(myDirtyDoc);

我要記錄錯誤的用戶，如：Malisious content was specified: "<html/>". 但我不知道如何正確地識別行Jsoup是乾淨的。

我試着使用StringUtils.difference（cleanedValue，值），但這種方法以另一種方式工作，即文檔說：

Compares two Strings, and returns the portion where they differ. 
(More precisely, return the remainder of the second String, 
starting from where it's different from the first.)

至於導致其返回的字符串是這樣的：<html/>text。

將很好地瞭解任何可以在java中用於比較字符串的diff工具。

來源

2014-11-21 fashuser

google-diff-match-patch

的DIFF匹配和修補程序庫提供強大的算法來進行同步純文本所需的操作。

差異：比較兩個純文本塊並高效地返回差異列表。

符合條件：給出一個搜索字符串，在純文本塊中找到它的最佳模糊匹配。加權的準確性和位置。

修補程序：將修補程序列表應用於純文本。即使底層文本不匹配，也盡最大努力應用補丁。目前在Java，JavaScript，Dart，C++，C＃，Objective C，Lua和Python中都有提供。不管語言如何，每個庫都具有相同的API和相同的功能。所有版本也有全面的測試線束。

有一個Line or word diffs wiki頁面，它描述瞭如何進行逐行比較。

來源

2014-11-21 13:32:30 Tushar

如何知道Jsoup刪除哪些文本？

回答

相關問題