我有一個Yahoo管道從Google組採用Atom源,我想對消息的全文(運行各種正則表達式以提取數據)執行一些處理。我可以用一個url像這樣獲得來自谷歌的純文本郵件的文本:在Yahoo管道中獲取純文本
http://groups.google.com/group/(group_name)/msg/(message_id)?dmode=source&output=gplain
但是,我無法得到它的雅虎管道內部作爲一個字符串值。抓取頁面會拒絕非HTML頁面。使用HTML表格YQL似乎工作,幷包裝AP元素中的純文本,其文本我可以提取這樣的:
select * from html where url="..." and xpath="//p"
但是,如果消息文本包含HTML標記,YQL返回一個HTML子樹,而不是一個字符串。有什麼辦法可以將它平面化回到它的HTML源代碼中嗎?
您可以發佈鏈接到管? – Victor 2009-10-23 10:03:44