我已經使用tika爲某些pdf文件提取文本並將文本存儲在文本文件中。 現在我想解析這些文件使用opennlp塊解析器,但我無法解析文件行,因爲它包含一些特殊字符(一些方形類型的符號)之間沒有空間之間的空間,我的文本文件中的示例行(無法顯示這些方型符號,變音符號)刪除文件行中除白色空格以外的所有特殊字符
51.2.3 Troubleshooting DHCP Configuration ?
62 Module 3: Point-to-Point Protocol (PPP) ?
62.1 Configuring HDLC Encapsulation ?
所以我想以線條爲
Troubleshooting DHCP Configuratin
Module 3: Point-to-Point Protocol(PPP)
Configuring HDLC Encapsulation
請建議我如何做到這一點?
嗨,我的線都沒有在特定的格式,我不能寫一個正則表達式,還有沒有其他的解決方案 – user2609542
您仍然可以使用正則表達式,如果沒有特定的格式,但特定的字符。要刪除所有不可打印的字符,請使用'replaceAll('[^ \\ p {Print}]',「」)'。要替換特定字符,請使用上面的替換方法列出字符。你甚至可以用'replaceAll('[\\ W]',「」)'刪除不在A-Za-z0-9中的所有東西。 –