我剛開始學習Ruby。非常酷的語言,喜歡它很多。Hpricot,從文檔中獲取所有文本
我使用非常方便的Hpricot HTML解析器。
我期望做的是抓取頁面中的所有文本,不包括HTML標籤。
例子:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
<title>Data Protection Checks</title>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
</head>
<body>
<div>
This is what I want to grab.
</div>
<p>
I also want to grab this text
</p>
</body>
</html>
我基本上是想抓住唯一的文字,讓我結束了,像這樣的字符串:
「這是我想抓住什麼,我也想抓住這段文字「
這樣做的最好方法是什麼?
乾杯
EEF
@Eef,您可能需要收集的文本數組'(DOC/「腳本」)之前刪除javascript代碼每個{| JS |。 js.inner_html = ''}'。 – Andrei 2010-12-14 16:07:22