我最近試圖從一箇舊博客(SharePoint)導入一堆博客文章到我當前的博客(WordPress)。當導入完成後,許多令人討厭的<div>
標籤和其他HTML使其成爲帖子的內容,這使我的網站呈現的方式變得糟糕。從數據庫文本字段中刪除文本
我能夠查看MySQL數據庫中的違規行,並想知道是否有辦法選擇性地刪除可能導致問題的HTML文本。我可能通過解析文本在C#中破解了這一點,但我想弄清楚如何才能做到這一點。
如果您希望看到全文樣本,說明這些文件在數據庫文本字段中存在的樣子, I uploaded a full sample file to my web site。
這裏的想我想做的事:
- 從每一個文件的開頭刪除
<![CDATA[<div><b>Body:</b>
刪除在每個文件末尾的元信息,這可能是這樣的:
<div><b>Category:</b> SharePoint</div> <div><b>Published:</b> 11/12/2007 11:26 AM</div> ]]>
刪除每個
<div>
並關閉</div>
標記,該標記可能具有類屬性,如:<div class=ExternalClass6BE1B643F13346DF8EFC6E53ECF9043A>
注:在ExternalClass結束的十六進制字符串
我以前沒有使用MySQL中的更新語句可以是不同的,我在爲在哪裏丟失開始有選擇地替換文本字段中的文本。我會使用SQL語句中的正則表達式來提供幫助嗎?我將如何對遠程數據庫執行語句?
我喜歡你的想法。您可以將SharePoint博客保存爲一個巨大的RSS XML文件。我想我會嘗試用LINQ-to-XML和C#解析,看看我是否不能在文章中沒有所有垃圾的情況下重新保存文件。 – 2010-01-07 00:49:33