2016-08-15 43 views
0

我正在構建RSS提要服務,我正在處理具有這種獨特格式的文章,我只想獲取內容,而不是xml和特定樣式或設置,我嘗試刪除圖像base64和帶標籤和修剪多個空間,但仍然有很多奇怪的內容,我如何清理數據,所以我只是得到純文本這是段文字長內容,另一段文字長內容在php中修剪XML和奇怪的文本

<p align="justify"><!--[if gte mso 9]><xml> 
<w:WordDocument> 
    <w:View>Normal</w:View> 
    <w:Zoom>0</w:Zoom> 
    <w:TrackMoves></w:TrackMoves> 
    <w:TrackFormatting></w:TrackFormatting> 
    ... 
    </xml><![endif]--><!--[if gte mso 9]><xml> 
<w:LatentStyles DefLockedState="false" DefUnhideWhenUsed="true" 
    DefSemiHidden="true" DefQFormat="false" DefPriority="99" 
    LatentStyleCount="267"> 
    <w:LsdException Locked="false" Priority="0" SemiHidden="false" 
    UnhideWhenUsed="false" QFormat="true" Name="Normal"></w:LsdException> 
    <w:LsdException Locked="false" Priority="9" SemiHidden="false" 
    UnhideWhenUsed="false" QFormat="true" Name="heading 1"></w:LsdException> 
    <w:LsdException Locked="false" Priority="9" QFormat="true" Name="heading 2"></w:LsdException> 
</xml><![endif]--><!--[if gte mso 10]> 
<style> 
/* Style Definitions */ 
table.MsoNormalTable 
    {mso-style-name:"Table Normal"; 
    mso-tstyle-rowband-size:0; 
    mso-tstyle-colband-size:0; 
    mso-style-noshow:yes; 
mso-bidi-theme-font:minor-bidi;} 
</style> 
<![endif]--> 

<p class="MsoNormal" align="justify">**This is paragraph text long content**</p><p class="MsoNormal" align="justify"> </p><br> 

<p class="MsoNormal" align="justify">**Another paragraph text long content**</p> 
我的問題的
+0

嗯,我不這麼認爲,我想刪除這些XML和不必要的標籤,我不取從XML本身的數據,因爲數據是凌亂的,這是從生產的所見即所得然後文章我想從該文章的開頭修剪160個字符來獲得摘要。 –

+0

哦,我發現它,可以用來從中提取它的工具[你如何解析和處理PHP中的HTML/XML?](http://stackoverflow.com/questions/3577641/how-do-you-parse- and-process-html-xml-in-php) –

回答

0

部分得到的回答在How do you parse and process HTML/XML in PHP

提取米容易被格式化的HTML內容可以使用簡單的HTML DOM解析器或相關的腳本工具。

感謝

+0

如果內容太長簡單的HTML DOM解析器有時會返回null –