我總共有900個「.txt」和「.htm」文檔。每個文件有4段。每份文件都有一個理由說明公司爲什麼從交易中除牌。我只需要從所有文件中找出原因。公司暫停的原因通常是在「因爲」和「爲」之類的詞之後。我如何從python的所有文檔中挖掘原因?我是python的新手,任何幫助將不勝感激使用Python進行文本挖掘
-1
A
回答
0
如果文檔https://www.crummy.com/software/BeautifulSoup/bs4/doc/
:是純粹的文本文件不包括HTML標記,如果你想解析HTML內容,這可能會圍繞提取的原因進行更有條理,看看BeautifulSoup那麼基本的正則表達式會做你的工作。
正則表達式示例(?<=This is)(.*)(?=sentence)
試試您的正則表達式在線python在這裏:https://regex101.com/
+0
Hi @Fabien,他們是沒有html內容的普通文件。如果可能,你能提供一個示例代碼嗎? –
+0
是的,我更新了我的答案。 – Fabien
1
如果你知道暫停遵循特定的話,那麼這可以用正則表達式來完成。我在幾分鐘內爲你做了一些示例代碼。對於初學者,在下面的代碼中開始學習你不知道的內容。
from os import listdir
import re
for filename in listdir(directory): # directory = filepath to directory
with open(filename, "r") as file: # where your documents are located at
contents = file.read()
possibleSuspension = re.findall(r'(because of)[\w, ]*', contents)
相關問題
- 1. 使用PHP進行文本挖掘
- 2. 使用Python進行數據挖掘
- 3. 文本挖掘:在Python
- 4. 使用rapidminer進行Web使用挖掘
- 5. 如何使用文本挖掘進行文檔分析?
- 6. 使用Sql Server進行數據挖掘
- 7. 使用requireJS進行挖掘映射
- 8. 使用Neo4j進行數據挖掘
- 9. 使用Solr和Hadoop進行文本挖掘
- 10. 使用tm-package進行文本挖掘 - 詞語詞幹
- 11. 使用scikit進行文本挖掘的SVM
- 12. Python,文本挖掘,docx到表(CSV)
- 13. 使用R將PDF文件轉換爲文本文件進行文本挖掘
- 14. 中文文本挖掘
- 15. 文本挖掘與R:使用子
- 16. python數據挖掘
- 17. [R文本挖掘問題
- 18. stemDocument [R文本挖掘
- 19. 文本挖掘中的R
- 20. 挖掘維基百科映射文本挖掘關係
- 21. 的Oracle SQL導航數據挖掘文本挖掘
- 22. 文本挖掘單個文本文檔
- 23. Twitter挖掘使用流式API,python
- 24. 在vba/excel中進行文本挖掘的有效方法
- 25. R採用量化的文本挖掘
- 26. 將R用於文本挖掘Reuters-21578
- 27. 如何在TermDocumentMatrix中使用正則表達式進行文本挖掘?
- 28. 將兩列文本文檔轉換爲單行文本挖掘
- 29. 我想挖掘使用TouchAction
- 30. 是否可以通過Python進行HTML抓取,數據挖掘?
首先測試你的假設。由於「* .txt |」運行類似'grep -v「的內容wc -l'來計算不包含「因爲」短語的文本文件的數量。依靠像「as」這樣的短語可能是一個壞主意。 – Jedi