的HTML是一種標記語言,有很多東西混合。但是我想從網站中提取人類可讀的數據來做一些內容分析。但我所能看到的僅僅是html代碼。我可以逐個提取所有HTML標籤以提取文本並將其映射出去。 (至少,我可以grep大部分數據,而不是JavaScript的插入的數據)而不是做這個的,我可以有一個更有效的方式來做到這一點?謝謝。這是可以提取從HTML SRC人類可讀的內容?
***用java作爲編程語言
的HTML是一種標記語言,有很多東西混合。但是我想從網站中提取人類可讀的數據來做一些內容分析。但我所能看到的僅僅是html代碼。我可以逐個提取所有HTML標籤以提取文本並將其映射出去。 (至少,我可以grep大部分數據,而不是JavaScript的插入的數據)而不是做這個的,我可以有一個更有效的方式來做到這一點?謝謝。這是可以提取從HTML SRC人類可讀的內容?
***用java作爲編程語言
我使用一般的網站拼搶最喜歡的事情是BeutifulSoup擴展。這裏是它的文檔的鏈接。第2.1節解析HTML代碼!
http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html
您可以嘗試使用一個終端模式的瀏覽器,如猞猁呈現網站爲純文本,然後做內容分析,它的輸出。
取決於如何複雜,結構良好的HTML是你也許可以創造一些XSLT http://www.w3schools.com/xsl/到HTML轉換成更具可讀性。
什麼(編程)語言?大多數語言都有一些*剝離* HTML標籤的軟件包。 – deceze 2012-02-29 01:33:34