我如何知道PDF是否被標記?我正在開發一個程序,它將複製PDF文件中的文本並將其顯示在我的應用程序中,所以我試圖測試PDF文件,我從PDF文件(普通複製+粘貼)中複製了一個表格並將其粘貼到MS字。結果是沒有表的正常文本。有一些問題,當你從PDF文件複製表格並將其粘貼到Word時,它會變成圖片。真的嗎?如何確定PDF是否被標記?
回答
如何確定PDF被標記或不?
根據您正在使用,以處理您的文件庫中,你可以嘗試檢索來自Catalog
辭典條目MarkInfo
。
從PDF規格:
表3.25條目目錄中的字典
KEY: MarkInfo
TYPE:字典
VALUE:(可選; PDF 1.4)標記信息字典,其中包含有關文檔對標記PDF 約定的使用情況的信息(請參閱第10.6節「邏輯結構」)。
然而,即使這個屬性的值設置爲TRUE,這並不意味着該標籤實際上是在那裏,如果是這樣,他們可能不會在所有的提取表是有用到您。您仍然可以使用僅使用標記標記段落和圖片的表格來查找PDF文件。
長話短說,除非你正在生成您的應用程序要消耗,這樣就可以知道哪個標籤來查找文件,它是不是一個好主意,依靠這些標籤爲「從PDF中提取表格「。
我發現了一個不同的問題的評論,似乎已經回答了這個問題。
How to read a Table in a PDF using iText java?
您可以提取從內容流中的文本,但對於普通的PDF文件,其結果將是純文本(沒有任何結構)。如果頁面上有表格,該表格將不會被識別。你會得到內容和一些空白空間,但這不是一個表格結構!只有你有一個帶標籤的PDF,你才能獲得一個XML文件。如果PDF中包含被識別爲表格標籤的標籤,這將在PDF中反映出來。
哦。所以即使使用PDF的正常提取來編程它也只會是文本格式。甚至顯示? –
只有在PDF被標記並可以轉換爲xml時,纔會以表格的形式顯示。 –
- 1. 如何判斷PDF是否被標記
- 2. 如何確定Rails對象是否被標記爲要破壞?
- 3. 如何確定PDF是否可搜索
- 4. 確定一個值是否被標記爲未知值
- 5. 如何確定F15是否被按下?
- 6. 如何確定文件是否已被複制到目標
- 7. 如何確定blob是否標記爲「公開分享」?
- 8. 如何確定是否類實現標記接口
- 9. 如何確定多個div是否有嵌套標記
- 10. 如何檢查PDF是否被修改
- 11. 如何檢查模型是否由特定標記標記
- 12. 如何確定NSData對象是否包含特定的HTML標記?
- 13. 如何確定數組中的第一個索引是否定的標記
- 14. 如何確定是否掃描.pdf文件的內容
- 15. 如何瀏覽PDF以確定元素是否爲文本?
- 16. 如何確定Android是否可以處理PDF
- 17. 如何確定當前的Windows會話是否被鎖定?
- 18. 如何確定註冊表項是否被WOW64重定向?
- 19. 如何確定一個頁面是否被重定向
- 20. 在IE6中,如何確定window.open是否被重新定義?
- 21. 如何確定Console.Out是否已被重定向到文件?
- 22. 如何判斷當前修訂版是否被標記
- 23. 如何檢查文件是否已被標記爲添加?
- 24. 我的標記技術是否正確?
- 25. 什麼是「標記PDF」?
- 26. 是否被鎖定了一條記錄?
- 27. 確定修改鍵是否被按下
- 28. 確定事件是否被.trigger()調用
- 29. 確定線程是否被阻塞
- 30. 確定窗體是否被阻擋
從PDF複製的文本是否可以作爲表格粘貼取決於您用來查看/複製PDF和要粘貼到的程序的程序。 PDF可能會將文本顯示爲表格,但當您從中複製時,查看器正在將其轉換爲純文本。或者,您粘貼的程序可能會在粘貼時將其轉換爲純文本。 –
啊所以這取決於它將如何被複制?即時通訊計劃使用API讀取PDF文件和即時通訊在Android上開發我的應用程序。 –