我嘗試通過Hibernate Search @TikaBridge索引pdf文件。根據文檔與TikaBridge註釋字段應該是任何如下因素類型: String - where the string value is interpreted as a file path
URI - where the URI is interpreted as a resource URI
byte[]
ja
我想從使用apache tika的大型pdf(不掃描/柵格化pdf)文件中提取文本。 但是,當我比較原始(從pdf)和提取的文本中提取文本後,我發現很多文本內容都丟失了。我曾嘗試使用setMaxStringLength(-1)和BodyContentHandler(-1)來最大化輸出。但仍然無法從pdf文件中提取全文內容。 下面是我試過的兩個樣本。 樣品:1 public class Extrac