0
我正在構建RSS提要服務,我正在處理具有這種獨特格式的文章,我只想獲取內容,而不是xml和特定樣式或設置,我嘗試刪除圖像base64和帶標籤和修剪多個空間,但仍然有很多奇怪的內容,我如何清理數據,所以我只是得到純文本這是段文字長內容,另一段文字長內容在php中修剪XML和奇怪的文本
<p align="justify"><!--[if gte mso 9]><xml>
<w:WordDocument>
<w:View>Normal</w:View>
<w:Zoom>0</w:Zoom>
<w:TrackMoves></w:TrackMoves>
<w:TrackFormatting></w:TrackFormatting>
...
</xml><![endif]--><!--[if gte mso 9]><xml>
<w:LatentStyles DefLockedState="false" DefUnhideWhenUsed="true"
DefSemiHidden="true" DefQFormat="false" DefPriority="99"
LatentStyleCount="267">
<w:LsdException Locked="false" Priority="0" SemiHidden="false"
UnhideWhenUsed="false" QFormat="true" Name="Normal"></w:LsdException>
<w:LsdException Locked="false" Priority="9" SemiHidden="false"
UnhideWhenUsed="false" QFormat="true" Name="heading 1"></w:LsdException>
<w:LsdException Locked="false" Priority="9" QFormat="true" Name="heading 2"></w:LsdException>
</xml><![endif]--><!--[if gte mso 10]>
<style>
/* Style Definitions */
table.MsoNormalTable
{mso-style-name:"Table Normal";
mso-tstyle-rowband-size:0;
mso-tstyle-colband-size:0;
mso-style-noshow:yes;
mso-bidi-theme-font:minor-bidi;}
</style>
<![endif]-->
<p class="MsoNormal" align="justify">**This is paragraph text long content**</p><p class="MsoNormal" align="justify"> </p><br>
<p class="MsoNormal" align="justify">**Another paragraph text long content**</p>
我的問題的
嗯,我不這麼認爲,我想刪除這些XML和不必要的標籤,我不取從XML本身的數據,因爲數據是凌亂的,這是從生產的所見即所得然後文章我想從該文章的開頭修剪160個字符來獲得摘要。 –
哦,我發現它,可以用來從中提取它的工具[你如何解析和處理PHP中的HTML/XML?](http://stackoverflow.com/questions/3577641/how-do-you-parse- and-process-html-xml-in-php) –