2011-12-28 69 views
0

我應該通過Java讀取文本文件,並將文本文件中的所有電子郵件ID和URL清空。這是爲了減少數據中的噪音。通過java處理文本

java中有沒有任何庫函數可以做同樣的事情?

+0

這功課嗎? – Kylar 2011-12-28 12:53:41

+0

不,我正在平滑數據以供給機器學習系統。 – Greenhorn 2011-12-28 12:54:48

+0

「空白」是什麼意思?你稱之爲「電子郵件ID」是什麼? – fge 2011-12-28 12:55:55

回答

2

您可以使用FileInputStream和/或BufferedReader讀取文件。您可以解析每一行,並使用正則表達式來查看是否有任何匹配的電子郵件或URL模式,並創建一個新的輸出字符串或流將其寫出。

向我們展示您嘗試過的以及您當前的代碼。

作爲附錄,我使用這些: http://www.regular-expressions.info/email.html http://daringfireball.net/2009/11/liberal_regex_for_matching_urls

有了不同程度的成功。

+0

謝謝!我做完! – Greenhorn 2012-02-17 09:57:11

0

通常在NLP系統中,文本將被標記化,並且處理URL或電子郵件地址只是將低頻標記減少到佔位符以減少數據稀疏的一種情況。假設標記化能夠將每個項目保存在一個標記中,則替換標記更容易 - 就像您可以用佔位符替換髮生率低於某個閾值的所有單詞一樣。

此外,您可能希望將Baum-Welch應用於整個業務。

0

String.replace()需要一個正則表達式和替換字符串(在你的情況「」)。使用正則表達式來處理電子郵件字段和URL以完成此任務。