我想使用python2.7從EDGAR申報文件中刪除任何不是文件的文本(這些文件可作爲.txt文件在線提供)。的文件是什麼樣子的一個例子是在這裏:解析EDGAR申報
EDGAR提供的文檔類型定義開始這個文件的第48頁:
我的計劃的第一部分,得到將EDGAR在線數據庫中的.txt文件轉換爲我命名爲「parseme.txt」的本地文件。我想知道的是如何使用DTD來解析.txt文件。我會使用像BeautifulSoup這樣的固定解析模塊來完成這項工作,但是EDGAR的格式看起來很獨特,我希望避免使用大量的正則表達式來完成這項工作。
import os
filename = 'parseme.txt'
with open(filename) as f:
lines = f.readlines()
我的問題是在Parse SGML with Open Arbitrary Tags in Python 3和Use lxml to parse text file with bad header in Python相關的問題,但我相信不同的是,我的問題涉及到python2.7,我不關心頭 - 我只是關心的文本文件。
我不認爲Python的版本在這裏很重要。您是否嘗試了鏈接問題答案中提供的任何想法?你究竟在哪裏卡住? – mzjn