我試圖從wepage中提取表格的內容。我只是需要的內容,但不是標籤<tr></tr>
。我甚至不需要「tr」或「td」只是內容。對於如:刪除sed或類似文件中的html標籤
<td> I want only this </td>
<tr> and also this </tr>
<TABLE> only texts/numbers in between tags and not the tags. </TABLE>
我也希望把第一列輸出這樣一個新的CSV文件 COLUMN1,INFO1,INFO2,INFO3 coumn2,INFO1,INFO2,INFO3
我試圖用sed刪除模式<tr>
<td>
但是當我獲取表格還有其他標籤,如<color>
<span>
等,所以我想要的是刪除所有的標籤;總之一切都與<和>。
內容有規律嗎?您可以使用['lynx'](http://lynx.browser.org/)來抓取頁面並將其轉換爲文本,然後解析純文本。很難說沒有更多的細節,屏幕抓取往往是各種醜陋的黑客之間的選擇。 –
好的,這解決了第一個問題** sed -e's/<.*> // g'input **。上面的評論我忘記了頁面,只刮掉了表格部分。所以文件只包含乾淨的表格標籤和數據。像考試時間表例程。 – user913492