我希望將文本拆分成句子。誰能幫我?將文本拆分成句子
我還需要處理縮寫。但是我的計劃是在早期階段取代它們。先生 - >老總
import re
import unittest
class Sentences:
def __init__(self,text):
self.sentences = tuple(re.split("[.!?]\s", text))
class TestSentences(unittest.TestCase):
def testFullStop(self):
self.assertEquals(Sentences("X. X.").sentences, ("X.","X."))
def testQuestion(self):
self.assertEquals(Sentences("X? X?").sentences, ("X?","X?"))
def testExclaimation(self):
self.assertEquals(Sentences("X! X!").sentences, ("X!","X!"))
def testMixed(self):
self.assertEquals(Sentences("X! X? X! X.").sentences, ("X!", "X?", "X!", "X."))
感謝, 巴里
編輯:首先,我會很樂意滿足我上面包括了四個測試。這會幫助我更好地理解正則表達式的工作原理。現在我可以在我的測試中定義一個句子爲X.等。
也許你應該描述你認爲的一個句子。 – 2011-08-25 10:28:35
看看[pyparsing](http://pyparsing.wikispaces.com/) – MattH