我有一個程序,它從網頁中獲取URLS並將網頁保存爲一個文件夾中的.html文件到我的桌面上。現在我需要使用這些相同的.html文件,並將它們設置爲我的下一個程序的輸入。我的問題是,如何獲得所有這些大約400+的文件作爲輸入到將執行剩餘工作的功能的輸入?我目前也在使用python 2.7,但如果我需要使用它,我可以使用最新的python。Python:使用許多文件作爲輸入
回答
你的第二個功能可以採取的文件名列表,像這樣:
def process(files):
for f in files:
# do stuff
而且你可以通過做
import os
files = os.listdir('/path/to/files')
如果我的文件是html,我還可以使用嗎?我將不得不打開並閱讀它們,所以我仍然需要一個urlopen(文件)? –
Python不會在乎你的文件的內容是什麼。問題是這些html文件存儲在本地機器上嗎?如果是這樣,'urlopen'是不必要的,因爲你可以使用'open'來讀取它們。 – thaavik
是的,我有文件存儲在一個文件夾,所以即時做文件=打開(路徑)現在我當前的問題是即時通訊只試圖得到parapraphs文本並標記它。即時通訊使用ntlk標記,但首先我只需要從段落標記正確的文本。我正在嘗試美麗的soup.find_all('p') –
獲得的文件列表,您可以使用glob.glob()
返回所有文件路徑名匹配模式,然後遍歷所有文件並逐個處理它們
html_files = glob.glob("/path/to/*html")
for html_file in html_files:
with open(html_file) as inputs:
for line in inputs:
# do your work on the line
這應該解決售後服務您的問題
import os
for root, dirs, files in os.walk(yourpath, topdown=False):#topdown traversing
for name in files:
print(os.path.join(root, name))
stuff
for name in dirs:
print(os.path.join(root, name))
stuff
- 1. 文件作爲python輸入netaddr
- 2. 處理許多輸入文件並通過awk分隔許多輸出文件
- 3. g ++:使用ZIP文件作爲輸入
- 4. 如何使用python將多個輸入寫入文本文件?
- 5. 如何使用文件(許多文件的完整路徑)作爲MapReduce作業的輸入
- 6. 使用Python操作目錄中的許多文本文件
- 7. Python使用標準輸出和文件輸入寫入文件
- 8. 程序多次請求輸入時使用文件作爲程序輸入
- 9. 將多個輸入文件轉換爲一個Excel文件,使用Python
- 10. Python中的多項式作爲輸入
- 11. XML文件作爲輸入
- 12. 如何使用SPARC求解器的輸出作爲python文件的輸入?
- 13. Python - 使用多種類型作爲輸入定義函數
- 14. 使用多個列表作爲函數的輸入參數(Python)
- 15. 使用raw_input()輸入許多數字
- 16. 在使用GStreamer的Python中,如何使用文件對象作爲輸入源?
- 17. 併發使用python快速排序。需要使用XML文件作爲輸入
- 18. 使用文件輸入作爲標準輸入shell腳本不起作用
- 19. 使用txt文件作爲輸入創建RDF文件
- 20. 使用csv文件作爲輸入創建RDF文件
- 21. 使用python在許多其他文件中分割文件
- 22. 使用python從主csv文件創建許多csv文件
- 23. Python輸入/輸出,文件
- 24. 使用C++或Python從多個輸入文件創建矩陣
- 25. r用輸入的文件名作爲輸出文件名
- 26. 使用多個文件輸入的值
- 27. 使用向量作爲matlab中多輸入函數的輸入
- 28. 導入許多csv文件
- 29. 嵌入在許多文件
- 30. 使用用戶輸入作爲路徑來保存Python 3中的文件?
'進口OS yourpath = '// //到文件路徑'; os.listdir()'? – 9000
使用'glob.glob(「/ path/to/*。html」)'列出所有文件 – haifzhan