3
我想抓http://emojipedia.org/emoji/,但我不知道什麼是最有效的方式來做到這一點。我想在表格class =「emoji_list」中找到我想要抓取的內容。我想將每個「td」內的內容保存在不同的列中。輸出會像下面每一行代表一個表情符號:刮在Python中的表類
Col1_Link Col2_emoji Col3_Comment Col4_UTF
"/emoji/%F0%9F%98%80/" Grinning Face U+1F600
到目前爲止我寫了下面的代碼,但我不知道什麼是做到這一點的最好辦法。
import requests
from bs4 import BeautifulSoup
import urllib
import re
url = "http://emojipedia.org/emoji/"
html = urllib.urlopen(url)
soup = BeautifulSoup(html)
soup.findAll('tr', limit=2)
非常感謝您的幫助。
非常感謝! 「table = soup.select_one(」table.emoji-list「)」對我不起作用,但我使用了「table = soup.find('table',{'class':'emoji-list'}) 「 – morfara
@morfara,有趣的是,您是否使用請求獲取源代碼? –
我是新來的刮,我不得不承認,它是如此令人困惑哪些圖書館是最好的使用。你知道有什麼好的資源可以解釋爲什麼request比urllib更好嗎? P.s. 1是的,我用它,但它給了我「TypeError:'NoneType'對象不可調用」 P. 2對於td1.text,我得到「u'\ U0001f600 Grinning Face'」作爲輸出。有沒有簡單的方法只保留英文並放棄Unicode? 再次感謝! – morfara