使用Python進行文本挖掘

-1

我總共有900個「.txt」和「.htm」文檔。每個文件有4段。每份文件都有一個理由說明公司爲什麼從交易中除牌。我只需要從所有文件中找出原因。公司暫停的原因通常是在「因爲」和「爲」之類的詞之後。我如何從python的所有文檔中挖掘原因？我是python的新手，任何幫助將不勝感激使用Python進行文本挖掘

來源

2017-07-07 Rahul Pipalia

首先測試你的假設。由於「* .txt |」運行類似'grep -v「的內容wc -l'來計算不包含「因爲」短語的文本文件的數量。依靠像「as」這樣的短語可能是一個壞主意。 – Jedi

如果文檔https://www.crummy.com/software/BeautifulSoup/bs4/doc/

：是純粹的文本文件不包括HTML標記，如果你想解析HTML內容，這可能會圍繞提取的原因進行更有條理，看看BeautifulSoup那麼基本的正則表達式會做你的工作

。

正則表達式示例(?<=This is)(.*)(?=sentence)

試試您的正則表達式在線python在這裏：https://regex101.com/

來源

2017-07-07 02:11:42 Fabien

Hi @Fabien，他們是沒有html內容的普通文件。如果可能，你能提供一個示例代碼嗎？ –

是的，我更新了我的答案。 – Fabien

如果你知道暫停遵循特定的話，那麼這可以用正則表達式來完成。我在幾分鐘內爲你做了一些示例代碼。對於初學者，在下面的代碼中開始學習你不知道的內容。

from os import listdir 
import re 

for filename in listdir(directory): # directory = filepath to directory 
    with open(filename, "r") as file: # where your documents are located at 
     contents = file.read() 
    possibleSuspension = re.findall(r'(because of)[\w, ]*', contents)

來源

2017-07-07 02:35:28 Mothrakk

使用Python進行文本挖掘

回答

相關問題