0
A
回答
2
您可以使用FileInputStream和/或BufferedReader讀取文件。您可以解析每一行,並使用正則表達式來查看是否有任何匹配的電子郵件或URL模式,並創建一個新的輸出字符串或流將其寫出。
向我們展示您嘗試過的以及您當前的代碼。
作爲附錄,我使用這些: http://www.regular-expressions.info/email.html http://daringfireball.net/2009/11/liberal_regex_for_matching_urls
有了不同程度的成功。
+0
謝謝!我做完! – Greenhorn 2012-02-17 09:57:11
0
通常在NLP系統中,文本將被標記化,並且處理URL或電子郵件地址只是將低頻標記減少到佔位符以減少數據稀疏的一種情況。假設標記化能夠將每個項目保存在一個標記中,則替換標記更容易 - 就像您可以用佔位符替換髮生率低於某個閾值的所有單詞一樣。
此外,您可能希望將Baum-Welch應用於整個業務。
0
String.replace()需要一個正則表達式和替換字符串(在你的情況「」)。使用正則表達式來處理電子郵件字段和URL以完成此任務。
相關問題
- 1. 通過負值處理文本文件
- 2. 用java通過javascript處理excel文件
- 3. 通過Java處理WSDL
- 4. 通過批處理腳本
- 5. 的Java:處理文本行
- 6. Java中的文本處理
- 7. 批處理文件 - 關閉通過批處理文件過程
- 8. 通過Java處理c#對象
- 9. 通過java(gargoyle)在網頁上通過處理通告/確認
- 10. 通過批處理文件修剪文本文件
- 11. Selenium Webdriver處理java腳本文本框
- 12. utf-8通過scribe(java)處理facebook/twitter處理
- 13. Xcode 5 - 行爲 - 通過腳本處理選定的文本?
- 14. 如何通過java運行處理腳本
- 15. 通過批處理腳本執行java程序
- 16. 文本文件處理 - 使用java
- 17. Windows批處理文件循環通過目錄處理文件?
- 18. 通過Pig腳本處理Json
- 19. 無法通過批處理腳本
- 20. 通過sqlplus處理shell腳本
- 21. 如何通過腳本處理文件櫃中的文件夾?
- 22. 通過批處理在文本文件中輸出換行
- 23. 通過java程序運行批處理文件
- 24. 通過批處理文件給Java輸入
- 25. 如何通過批處理文件執行java
- 26. 無法處理.XLS文件通過Talend
- 27. 通過批處理文件連接Oracle
- 28. 通過文件循環批處理
- 29. 通過創建批處理文件
- 30. BroadcastReceiver通過ACTION_SEND處理文件?
這功課嗎? – Kylar 2011-12-28 12:53:41
不,我正在平滑數據以供給機器學習系統。 – Greenhorn 2011-12-28 12:54:48
「空白」是什麼意思?你稱之爲「電子郵件ID」是什麼? – fge 2011-12-28 12:55:55