我如何使用NLTK在Python中提取網頁(工作在我的情況下提供)NLTK在Python從網頁
我使用此代碼提取文本的一部分信息中提取信息,
import nltk
import time
import urllib2
from urllib2 import urlopen
from cookielib import CookieJar
import datetime
website = "http://tanitjobs.com/search-results-jobs/"
topSplit = "<div class=\"offre\">"
ButtomSplit = "<div class=\"offre-emploi \">"
cj = CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
opener.addheaders = [('Uer-agent', 'Mozilla/5.0')]
def main():
try:
ss =opener.open(website).read()
sourceCodeSplit = ss.split(topSplit)[1].split(ButtomSplit)[0]
texte = nltk.clean_html(sourceCodeSplit)
print texte
except Exception,e:
print 'fail in the main loop'
print str(e)
main()
,但我不知道該怎麼做,如果我想提取特定款(工作機會)從網頁一般
歡迎不幸的是,在那裏是沒有辦法抓取網頁和提取特定的部分。有樂趣爬行/清潔 – alvas
謝謝「阿爾瓦」。你能給我一些例子來開始嗎? – Athari