我已經從網頁中提取html源碼,並想知道如何從該源文件中提取電子郵件地址等文本。使用jsoup像
從html源碼中提取電子郵件地址
public static String html2text(String html) {
return Jsoup.parse(html).text();
}
但是這會給我很多不需要的文本,以及即時通信思考。
我已經從網頁中提取html源碼,並想知道如何從該源文件中提取電子郵件地址等文本。使用jsoup像
從html源碼中提取電子郵件地址
public static String html2text(String html) {
return Jsoup.parse(html).text();
}
但是這會給我很多不需要的文本,以及即時通信思考。
您可以去除所有標籤(除非電子郵件位於標籤內)。然後,應用正則表達式或檢查每個單詞是否符合電子郵件模式。如果在單詞中包含@
,並且在後面找到.
,我通常會將其標記爲電子郵件。根據標準電子郵件格式,許多電子郵件將不匹配(例如,"hello [email protected]"
)。是的電子郵件支持@
之前的空格字符!
正如Shiplu所說,我認爲最好的解決方案是使用正則表達式,如果您使用的是Java,請查看Pattern和Matcher類。
你正在使用java我猜,但你沒有在問題中標記它。你也可以使用JavaScript/jQuery?這是非常簡單的使用正則表達式,但我沒有經驗的Java。 – elclanrs 2012-02-10 05:59:57
我正在使用java。忘了提到這一點。 – SoH 2012-02-10 07:38:30