我正在尋找一個優雅的解決方案來查找文檔中的哪些頁面上存在某個詞,我已經存儲在python詞典/列表中。查找文檔頁面上的文字
我首先考慮.docx格式作爲輸入,並看看PythonDocx它有一個搜索功能,但顯然沒有真正的docx/xml格式的頁面屬性。 如果我解析文檔,我可以在xml樹中查找<w:br w:type="page"/>
,但不幸的是這些不會顯示非強制分頁符。
我甚至考慮過先將文件轉換爲PDF格式,然後使用類似PDFminer這樣的文件來解析頁面文檔。
有沒有簡單的解決方案,以搜索字符串的.docx文檔,並且返回頁面它發生在像
[('foo' ,[1, 4, 7 ]), ('bar', [2]), ('baz', [2, 5, 8, 9)]
我認爲這是你要找的東西: [link](http://stackoverflow.com/questions/12571905/finding-on-which-page-a-search-string-is-located-in -a-pdf-document-using-python) – Roxy
@birgit你還在尋找關於這個話題的解決方案嗎? – mabe02
@ mabe02我還沒有找到工作解決方案,但沒有:/但會有興趣 – birgit