我試圖轉換大量(100,000)字DOC文件,這些都很舊。從1995年到2000年版本的Word,我認爲。從我在這裏看到的堆棧溢出和MS文檔中,我一直圍繞着循環。如何從使用C#的Word文件中提取文本?
我想要做的只是簡單地讀取文件,將文本粘貼到字符串中,解析字符串,取出結構的東西(該文件實際上是一個結構化的報告,看起來像Patient:Jon Doe)。那時,我知道我在做什麼。我可以解析字符串數據,將其粘貼到有用的變量中,然後將這些數據粘貼到數據庫中。但我不知道如何將文本實際放入字符串中。任何幫助?
PPS我發現this reference據說將DOC文件放入文本文件。這是一個開始,但我寧願避免做一堆文件操作。
你看過ifilters嗎?我在一段時間後做了一些研究,看起來他們可能很合適。這裏是一個鏈接 - http://www.codeproject.com/KB/cs/IFilter.aspx – dana 2011-06-09 02:28:30
我發現這似乎有幫助:http://stackoverflow.com/questions/1887133/easiest-way-to-process- ms-word-file-text- – Rob 2011-06-09 21:44:30