如何使用腳本從pdf文檔獲取文本?我使用Windows和偶爾的Linux。使用腳本從pdf文檔獲取文本
回答
在大多數Linux發行版中,您應該有pdftohtml
。顧名思義,它可以將PDF轉換爲HTML。 HTML轉換爲純文本可以通過多種方式來實現,例如使用lynx -dump file.html
謝謝。但是,如果文檔禁用了文本的複製,該工具不能複製文本...我想要在語音閱讀器中閱讀的文檔非常長。 – user1141649 2012-02-25 15:38:11
謝謝。但是,如果文檔禁用了文本應對或者包含密碼,該工具就不能複製文本? – user1141649 2012-02-25 15:36:30
我不知道,我沒有用textcopy-disabled pdf來試用它。你試過了嗎? – uzsolt 2012-02-26 07:24:45
如果目標是使用鼠標從PDF中抓取文本,則應運行xpdf
。它似乎沒有注意到安全設置。至少,我在我的Mac上運行的版本沒有。
- 1. Google腳本獲取PDF文檔尺寸
- 2. 從PDF文檔中提取文本 - C#
- 3. Android-從PDF獲取文本
- 4. 使用BeautifulSoup從文本/ html文檔獲取乾淨的文本
- 5. 從PDF文件中獲取純文本
- 6. Google Apps腳本:用於轉換PDF文本文檔的代碼?
- 7. 從外部HTML文檔獲取文本
- 8. IText夏普從pdf提取文本與法文腳本MT
- 9. PHP - WordPress腳本從文本文件中獲取隨機文本
- 10. 使用iText從pdf文件獲取文本字體
- 11. iOS獲取pdf文本
- 12. 從NSString的pdf中獲取文本
- 13. 如何從PDF頁面獲取文本?
- 14. 如何使用Apache POI從MS Word文檔的文本框中獲取文本?
- 15. 使用HtmlAgilityPack通過XPath從html文檔中獲取文本
- 16. 如何使用win32com從word文檔獲取顏色文本?
- 17. 將PDF文檔(* .pdf)轉儲到文本?
- 18. 調用從shell腳本彈性搜索索引pdf文檔
- 19. 使用Google應用腳本將文本從PDF轉換爲文本
- 20. PHP to PDF - 使用XML文檔中的文本創建PDF?
- 21. 從iTextSharp獲取PDF文檔屬性
- 22. 從腐敗(?)中提取文本pdf文檔
- 23. 從iOS的pdf文檔中讀取文本和圖像
- 24. 如何從PDF文檔中提取文本?
- 25. 搜索和Android上提取文本從PDF文檔
- 26. 如何從PDF文檔中提取文本
- 27. 獲取PDF文檔大綱
- 28. Google文檔ImportXML從腳本中調用
- 29. Python:從XML文檔中獲取某些值的有效腳本?
- 30. Mule文檔pdf版本
這並沒有顯示使用谷歌搜索的很多努力,所以我只是把TIKA扔在這裏(http://tika.apache.org/) – mindandmedia 2012-02-25 11:02:53