2017-07-07 113 views
-1

我總共有900個「.txt」和「.htm」文檔。每個文件有4段。每份文件都有一個理由說明公司爲什麼從交易中除牌。我只需要從所有文件中找出原因。公司暫停的原因通常是在「因爲」和「爲」之類的詞之後。我如何從python的所有文檔中挖掘原因?我是python的新手,任何幫助將不勝感激使用Python進行文本挖掘

+0

首先測試你的假設。由於「* .txt |」運行類似'grep -v「的內容wc -l'來計算不包含「因爲」短語的文本文件的數量。依靠像「as」這樣的短語可能是一個壞主意。 – Jedi

回答

0

如果文檔https://www.crummy.com/software/BeautifulSoup/bs4/doc/

:是純粹的文本文件不包括HTML標記,如果你想解析HTML內容,這可能會圍繞提取的原因進行更有條理,看看BeautifulSoup那麼基本的正則表達式會做你的工作

正則表達式示例(?<=This is)(.*)(?=sentence)

試試您的正則表達式在線python在這裏:https://regex101.com/

+0

Hi @Fabien,他們是沒有html內容的普通文件。如果可能,你能提供一個示例代碼嗎? –

+0

是的,我更新了我的答案。 – Fabien

1

如果你知道暫停遵循特定的話,那麼這可以用正則表達式來完成。我在幾分鐘內爲你做了一些示例代碼。對於初學者,在下面的代碼中開始學習你不知道的內容。

from os import listdir 
import re 

for filename in listdir(directory): # directory = filepath to directory 
    with open(filename, "r") as file: # where your documents are located at 
     contents = file.read() 
    possibleSuspension = re.findall(r'(because of)[\w, ]*', contents)