我在所有持有SEO內容的電子商務網站的頁面上都有一個div。我想要統計該div中的單詞數量。它用於診斷大型爬網中的空白頁面。BASH - 選擇多行Div之間的所有代碼
的DIV總是從如下:
<div class="box fct-seo fct-text
那麼它包含<h1>
,<p>
和<a>
標籤。
它,然後,很明顯,與</div>
關閉我如何使用SED,AWK,WC等採取div的開始和閉幕DIV之間的所有代碼,並指望有多少字出現。如果準確率達到90%,我很高興。
你不知何故必須告訴它停止掃描,發現它的第一個結束</div>
。
下面是一個例子頁面一起工作:
http://www.zando.co.za/women/shoes/
大加讚賞。 -P
很好的回答。答案中的最後一行完美地完成了工作。還有一個問題,我試圖將你的代碼片段集成到BASH循環中。我有一個for循環,其中$ i是被掃描的URL。如何將該URL提供給PERL行? –
您需要一個下載網頁並在標準輸出中發送其內容的命令。你有'GET','wget'或'curl'可用嗎? – Smylers