2009-06-08 20 views
-5

使用SAS URL訪問方法讀取網頁時,刪除所有HTML標籤的最方便方法是什麼?如何從SAS URL訪問方法中刪除HTML?

+1

我試圖讓你的問題更清楚一點。 – 2009-06-08 21:15:16

+0

你失敗了。我不想從SAS URL訪問方法中刪除HTML Gobbeltygoodk 。我試圖從使用SAS URL訪問方法讀取網頁的結果中刪除HTML Gobbeltygook。我將不得不給你一個F +(失敗悲慘)。 – 2009-06-08 21:46:04

+0

我將不得不給你一個近距離投票,所以我們甚至稱它?下一次,你應該嘗試一點點。 – 2009-06-10 14:55:46

回答

4

這應該做你想做的。刪除<>包括<>之間的所有內容,並保留內容(又名innerHTML)。

Data HTMLData; 

filename INDEXIN URL "http://www.zug.com/"; 

input; 

textline = _INFILE_; 

/*-- Clear out the HTML text --*/ 
re1 = prxparse("s/<(.|\n)*?>//"); 
call prxchange(re1, -1, textline); 

run; 
0

我認爲這種方法不是從頁面中刪除HTML,而是爲要捕獲的數據確定標準模式。這是perl /正則表達式類型的方法。

一個例子可能是某些數據或表格在徽標圖像之後出現很多字符。你可以寫一個腳本來保存數據。

如果你想發佈一些html,也許我們可以幫助解碼它。