我想從Word文件(doc/docx)中提取所有單詞並將它們放入列表中。看起來像microsoft.Office.Interop只是如果我想提取段落並將它們添加到列表中。從doc/docx文件中提取單詞c#
List<string> data = new List<string>();
Microsoft.Office.Interop.Word.Application app = new
Microsoft.Office.Interop.Word.Application();
Document doc = app.Documents.Open(dlg.FileName);
foreach (Paragraph objParagraph in doc.Paragraphs)
data.Add(objParagraph.Range.Text.Trim());
((_Document)doc).Close();
((_Application)app).Quit();`
我也找到了逐字提取的方法,但由於生成異常的循環,它不適用於大文檔。
`Dictionary<int, string> motRap = new Dictionary<int, string>();
Microsoft.Office.Interop.Word.Application application = new Microsoft.Office.Interop.Word.Application();
Document document = application.Documents.Open("C:/Users/Titri/Desktop/test/test/bin/Debug/po.txt");
// Loop through all words in the document.
int count = document.Words.Count;
for (int i = 1; i <= count; i++)
{
string text = document.Words[i].Text;
motRap.Add(i, text);
}
// Close word.
application.Quit();`
所以我的問題是,如果有一種方法可以從大的單詞文件中提取單詞。我認爲Microsoft.Office.Interop不是從大文件中提取的好工具。 對不起,我的英語不好。
你對此做過任何研究嗎?這似乎是一個以前會問過的問題。 –
是的,我已經做了4天的研究。我找到了從txt文件中提取單詞的方式,我發現了一種從docx文件中提取的方式,但這種方式對於大文件不起作用。所以這就是我在這裏問的原因。 – titi2fois
我想你應該看看[問]。當你問一個以前可能被問過很多次的問題時,你需要顯示你的研究證據,即以鏈接等形式。具體解釋你的研究未能幫助你找到答案。 –