當我嘗試從我的PDF文件中提取文本時,它似乎隨機地在單詞之間插入空格。PDFBox在單詞內添加空格
我在這個頁面的下載部分下面的示例文件中使用PDFBOX-APP-1.6.0.jar(最新版本): http://www.sheffield.gov.uk/roads/children/parents/6-11/pedestrian-training
我和其他幾個PDF文件嘗試,它似乎在幾頁上做同樣的事情。
我做到以下幾點:
Java的罐子PDFBOX-APP-1.6.0.jar ExtractText -force -console〜/桌面/ PED培訓pdf.pdf
上下載的文件,你會看到下面的控制檯上,結果錯誤地被插入空格: 「•如果CH ildren能夠步行到 schoo升放心,這可能減少 擁堵」
「•開發爲以後的生活好HAB它。」
「www.sheff ield.gov.uk」
「超前思考!WH ICH是基於」
等等等等
正如你可以看到幾個上面有字他們之間的空白無緣無故我可以理解。
我在ubuntu上運行Sun的JDK 1.6。
我已經嘗試了這幾個不同的PDF文件,並嘗試搜索論壇上的解決方案,也有類似的錯誤,但似乎都已解決。
任何幫助或如果任何人有同樣的問題,請評論。這對索引正確搜索內容造成了很大的問題。
感謝Jukka,有時只是理解爲什麼某些東西不能按預期工作,並且我沒有做任何導致問題的事情。 –
下面是如何使用Lucene構建這樣一個詞典的例子。 [如何在Lucene中提取文檔術語向量](http://stackoverflow.com/a/8901758/165085) –