如何重組拆分句子？

我處理已轉換爲文本的PDF文件。問題？有時，由於不規則的PDF格式和/或PDF到文本的轉換，會導致句子分裂。如何重組拆分句子？

所以我在尋找的工具，幫助那些得到分道揚鑣「重新組裝」的句子。頁眉或頁腳往往是罪魁禍首。其他元素，如數字和圖表也可以發揮作用，但它們現在不是我最關心的問題。

這個問題可以有幾種方法來解決：

刪除頁眉和頁腳做NLP句話檢測會有一定的幫助之前。我不知道這樣做的工具。你知道工具或方法嗎？（理論上刪除頁碼的一般想法在理論上是「容易的」：找出每頁發生一次的連續增加的數字。）
使用NLP分析器可以判斷句子在語法上是否正確的可能性會有所幫助。通過這種方式，我可以比較兩個句子在語法上的正確性，並與它們的合併的正確性進行比較。（據我所知，斯坦福分析器不會評估語法正確性。）你知道哪些工具可以提供幫助嗎？

請讓我知道你是否有建議，答案或其他方式來解決問題。

2012-11-14 David J.

很難沒有一些例如輸入提供很多建議。中斷的句子是什麼樣的？如果它被頁眉或頁腳打破了，那麼有很多空間嗎？爲什麼一個句子在沒有頁眉或頁腳的情況下被分割？ – polm23

@ polm23下面是一些紅寶石你：S =「只要有任意句子開始插入一些新行和中間頁碼的地方。」 s.insert（29，「\ n \ n3 \ n \ n」）; –

謝謝。如果這是典型的，你可以找到不以標點符號結尾的行，然後刪除所有行，直到遇到帶有字母的行。像's \ \（[！？。] \）\ n [^ A-z] */\ 1/g'。 – polm23

使用Apache提卡從PDF提取數據。

2016-05-23 14:10:46

回答