我下載了一些TSV格式數據的網頁。在TSV數據周圍是我不想要的HTML。如何使用熊貓解析已經從其他地方加載的CSV?
我下載了網頁的html,並使用美麗的圖標剔除了我想要的數據。 但是,我現在已經在內存中獲得了TSV數據。
如何在熊貓記憶中使用TSV數據?我可以找到的每種方法似乎都希望從文件或URI讀取,而不是從我已經掃入的數據中讀取。我不想下載文本,將其寫入文件,然後重新保存。
#!/usr/bin/env python2
from pandas import pandas as p
from BeautifulSoup import BeautifulSoup
import urllib2
def main():
url = "URL"
html = urllib2.urlopen(url)
soup = BeautifulSoup(html)
# pre is the tag that the data is within
tab_sepd_vals = soup.pre.string
data = p.LOAD_CSV(tab_sepd_vals)
process(data)
你可以用'pandas.read_html'直接讀嗎? http://pandas.pydata.org/pandas-docs/dev/io.html#html – joris
不,因爲pandas.read_html取決於bs4,而我正在使用python2 – Squidly