我有文本文件中的數據,我需要將其存儲在數據庫中,現在我有點困惑如何更容易地做到這一點。如何用python優雅地抓取數據?
這裏是我的數據的例子:
a: text1
b: text2
c: text3
blah blah not necessary text
a: text4
b: text5
c: text6
etc
所以,你能幫我解析這個數據。 我已經做下一個代碼
import urllib2 as ur
def getPageData(url):
return ur.urlopen(url).readlines()
checkList = ['a', 'b', 'c']
if __name__ == '__main__':
textList = getPageData(url)
res = []
for i in textList:
for y in checkList:
if y in i:
print i
我在基地像
id | a varchar | b varchar | c varchar |
創建一個表,我希望下一個結果
id | a varchar | b varchar | c varchar |
1 | text1 | text2 | text3 |
2 | text4 | text5 | text6 |
n | text | text | text |
如果按行讀取文本文件行如何把這個文本分成邏輯塊,例如我得到a,b,c用這個數據創建字典,接下來當這個塊結束時,我將字典添加到列表中,之後我有列表字典來存儲它以基礎。但我有點困惑如何創建這個列表與這本詞典我需要檢查,以及如何避免不必要的數據呢?有沒有更優雅的方式來做到這一點?
您是否事先知道標識符的名稱('a,b,c')? –
是的,我知道它。他們沒有改變,但重複所有文字。 –
如何確定「id」行的值,以及如何將「a」,「b」和「c」值分組爲一行? –