2012-08-16 101 views

回答

0

那麼你可以在tika中提取網頁。爲此,您可以使用apache-tika'sHTMLParser。你會得到你需要的一切here

那麼你也可以使用AutoDetectParser這將autodetect content type and extract contentAutoDetectParser可以檢測任何種類的文件/ URL並將應用提取。

我可以知道如何使用Tika在網頁中以表格形式提取數字等信息嗎?

- > tika提取的內容就像是raw文本。我不認爲你會以表格的形式得到它。

+0

謝謝。我的問題是,我可以使用tika來提取來自youtube.com的評論,還是僅用於提取元數據? – user1586205 2012-08-16 17:53:14