我正在寫一小段代碼來提取包含文本文檔中特定單詞的句子。基於特定模式從文本中提取句子
這裏有一句資格條件:
句子必須包含搜索詞。
句子必須以大寫字母開頭。
句子必須以句點結尾
句子必須至少包含8個單詞。
經過一番研究,我發現最快的方法是使用preg_split()
但是我真的是regex
的新手,因此我在前兩種情況下遇到困難。最後一個可以使用str_word_count()
(我認爲)。
例子:
Der er en lang og bevæget forhistorie bag lov om varsling m.v. i forbindelse med afskedigelser af større omfang. Det er ikke en bureaukratisk lovtekst blandt så mange andre.
搜索詞句:
bureaukratisk
它將返回第二句Det er ikke en bureaukratisk lovtekst blandt så mange andre.
因爲 它包含了我們的搜索詞,滿足這三個條件,以及
任何幫助將高度讚賞
此致 艾哈邁爾
一個例子會更好。 – 2014-11-25 06:54:53
好的。添加示例 – 2014-11-25 06:55:55