這是可以提取從HTML SRC人類可讀的內容？

的HTML是一種標記語言，有很多東西混合。但是我想從網站中提取人類可讀的數據來做一些內容分析。但我所能看到的僅僅是html代碼。我可以逐個提取所有HTML標籤以提取文本並將其映射出去。（至少，我可以grep大部分數據，而不是JavaScript的插入的數據）而不是做這個的，我可以有一個更有效的方式來做到這一點？謝謝。這是可以提取從HTML SRC人類可讀的內容？

***用java作爲編程語言

來源

2012-02-29 DNB5brims

什麼（編程）語言？大多數語言都有一些*剝離* HTML標籤的軟件包。 – deceze 2012-02-29 01:33:34