2012-11-14 81 views
0

我處理已轉換爲文本的PDF文件。問題?有時,由於不規則的PDF格式和/或PDF到文本的轉換,會導致句子分裂。如何重組拆分句子?

所以我在尋找的工具,幫助那些得到分道揚鑣「重新組裝」的句子。頁眉或頁腳往往是罪魁禍首。其他元素,如數字和圖表也可以發揮作用,但它們現在不是我最關心的問題。

這個問題可以有幾種方法來解決:

  1. 刪除頁眉和頁腳做NLP句話檢測會有一定的幫助之前。我不知道這樣做的工具。你知道工具或方法嗎? (理論上刪除頁碼的一般想法在理論上是「容易的」:找出每頁發生一次的連續增加的數字。)

  2. 使用NLP分析器可以判斷句子在語法上是否正確的可能性會有所幫助。通過這種方式,我可以比較兩個句子在語法上的正確性,並與它們的合併的正確性進行比較。 (據我所知,斯坦福分析器不會評估語法正確性。)你知道哪些工具可以提供幫助嗎?

請讓我知道你是否有建議,答案或其他方式來解決問題。

+0

很難沒有一些例如輸入提供很多建議。中斷的句子是什麼樣的?如果它被頁眉或頁腳打破了,那麼有很多空間嗎?爲什麼一個句子在沒有頁眉或頁腳的情況下被分割? – polm23

+0

@ polm23下面是一些紅寶石你:S =「只要有任意句子開始插入一些新行和中間頁碼的地方。」 s.insert(29,「\ n \ n3 \ n \ n」); –

+0

謝謝。如果這是典型的,你可以找到不以標點符號結尾的行,然後刪除所有行,直到遇到帶有字母的行。像's \ \([!?。] \)\ n [^ A-z] */\ 1/g'。 – polm23

回答

1

使用Apache提卡從PDF提取數據。