2
有10年存檔文章的數據,其中大部分是千瘡百孔的MS Word另存爲HTML的標記狀<p class="MsoNormal">
HTML整潔,清理MS Word中標記
首先,是HTML收拾到的任務剝離MS Word生成的標記,還是我需要採取另一種方法?
其次,文章的前幾年按月份拼湊在一起,並作爲文本存儲類型存儲在數據庫中。我非常喜歡將這些內容分解爲單獨的文章,這樣我就可以更輕鬆地搜索網站(即搜索詞/短語匹配時不會顯示整個月的新聞)。我必須使用的唯一明確的模式來分離文章是文章標題(粗體,介於16-20px之間)和文章日期,一般爲10px;標題和日期都顯示在文章正文文本之前。有沒有辦法檢測到標記的<h1>
-ness或<small>
,當我沒有確切的標記來匹配?
這可能幾乎不可能回答,但只是在一般情況下,你會採取什麼方法來處理這個不值得羨慕的任務? ;-)我在Scala中的JVM上,但也可以在LAMP堆棧上執行清理工作。
點子讚賞!
謝謝,它是一個複雜而模糊的問題 – virtualeyes 2012-04-23 20:05:52