HTML整潔，清理MS Word中標記

有10年存檔文章的數據，其中大部分是千瘡百孔的MS Word另存爲HTML的標記狀<p class="MsoNormal">HTML整潔，清理MS Word中標記

首先，是HTML收拾到的任務剝離MS Word生成的標記，還是我需要採取另一種方法？

其次，文章的前幾年按月份拼湊在一起，並作爲文本存儲類型存儲在數據庫中。我非常喜歡將這些內容分解爲單獨的文章，這樣我就可以更輕鬆地搜索網站（即搜索詞/短語匹配時不會顯示整個月的新聞）。我必須使用的唯一明確的模式來分離文章是文章標題（粗體，介於16-20px之間）和文章日期，一般爲10px;標題和日期都顯示在文章正文文本之前。有沒有辦法檢測到標記的<h1> -ness或<small>，當我沒有確切的標記來匹配？

這可能幾乎不可能回答，但只是在一般情況下，你會採取什麼方法來處理這個不值得羨慕的任務？ ;-)我在Scala中的JVM上，但也可以在LAMP堆棧上執行清理工作。

點子讚賞！

來源

2012-04-23 virtualeyes