2009-10-24 126 views
0

我是新來的python。我想從CNN網站中提取一些文本。
我想使用python win32com模塊。
編輯:關於[爲什麼win32com]
由於在網站中的JavaScript ...我想用win32com;我已經尋找其他解決方案,但在我的要求方面沒有成功。事實上,我想使用機械化或類似的解決方案,但這並不適合[對我]。與python的win32com和解析html問題

是否有可能使用beautifulsoupLXMLwin32com
任何人都知道如何從cnn webiste中提取一些文本,請幫助我! 具體來說,我想從'贊助鏈接

import win32com.client 
from time import sleep 
from win32com.client import Dispatch 
import urllib,urllib2 
from BeautifulSoup import BeautifulSoup 

ie = Dispatch("InternetExplorer.Application") 
ie.Visible = 1 
ie.Navigate("http://www.cnn.com") 
sleep(15) 
ie.Quit() 

回答

1

你試圖解析在CNN的網站一些文字在CNN網站上提取文本?

您可以

import urllib 
f = urllib.urlopen('http://www.cnn.com') 
page = f.read() 
f.close() 

獲取頁面然後可以使用BeautifulSoup找到什麼是你正在尋找的頁面上。

爲什麼選擇win32com,dispatch等?

+0

嗨,因爲在網站中的JavaScript ...我想使用win32com。我被尋找其他解決方案,但沒有太多的成功與我的要求。如果可能的話,其實我想用機械化或類似的解決方案,但不能成功 – paul 2009-10-25 03:30:05

+0

也許這篇文章中的信息將有所幫助:http://stackoverflow.com/questions/1546089/web-scraping-a-problem-site否則,請張貼您想要做的更多細節。你想要關注右側的贊助商鏈接和頂部的金錢鏈接嗎? – foosion 2009-10-25 10:55:42

+0

你好, 其實即時通訊網刮板。 和刮是沒有問題的JavaScript。 做了刮板後,我會添加一些其他功能,那時候我會遇到很多javascript, 爲什麼我嘗試使用PAMIE或IE http://elca.pastebin.com/m52e7d8e0 我附上了當前刮板腳本源代碼。 尤其是我想將'thepage = urllib.urlopen(theurl).read()'改爲PAMIE方法。如果可能的話,你可以檢查它並糾正我嗎? 在此先感謝.. – paul 2009-10-26 02:09:54