2012-09-15 31 views
0

首先,我正在使用的IDE是帶有.net框架的Visual C#。通過html文件進行排序的方法

好吧,所以我有大約20,000個HTML文件,需要提取信息並按日期排序。

上的文件的日期都存儲在該HTML標籤內

<td valign="top" class="createdate"> 
     Tuesday, 03 April 2012 20:39  
</td> 

注:所有日期都在每個HTML文件

我想提取的日期,那麼內的格式要自動通讀每個html文檔並測量短語或單詞的出現次數。

我不是要求別人爲我創建整個程序,但如果你可以提供儘可能多的細節我如何可以通過這些20000 HTML文件進行排序,並提取一個單詞或短語出現的日期和次數,然後導出該信息以word格式或excel我將非常感激。

哦,我使用的數據爲我的博士論文研究,我知道該怎麼做的很好字符串字符串操作和所有的字符串方法,如查找單詞的發生等

這個問題我我有如何獲得html數據或者只是內容,然後將它們分類爲可用格式。謝謝

+2

HTML Agility Pack非常適合解析HTML:http://htmlagilitypack.codeplex.com/ – greg84

+0

文檔是XHTML文檔嗎?如果是這樣,您可以將文件解釋爲XML文件並使用XQuery提取日期。然後它可以用來重命名文件以包含日期或其他內容。如果文檔格式不正確,則可以從文檔構建DOM並進行查詢。 – Jost

+0

嘗試在零件中解決問題,爲每個零件編寫一些代碼,然後在這裏再次詢問是否卡住,以及代碼示例以及您嘗試過的內容。您將通過這種方式獲得更好的答案,您的問題對於SO的格式太寬泛。您已經得到了一些解決方案的各個部分的答案。 – driis

回答

1

你確定所有的HTML文件都有確切的格式嗎?在這種情況下,包含日期的字符串可以通過簡單的字符串操作或通過RegEx提取(側面,注意,一般來說,正則表達式不是用於解析HTML的suited,但對於這種用例,保持簡單聽起來像是到這裏)。如果您需要進行較重的解析,請考慮HtmlAgilityPack

然後使用DateTime.TryParse來獲取從字符串轉換爲DateTime對象的日期。

相關問題