與python的win32com和解析html問題

我是新來的python。我想從CNN網站中提取一些文本。
我想使用python win32com模塊。
編輯：關於[爲什麼win32com]
由於在網站中的JavaScript ...我想用win32com;我已經尋找其他解決方案，但在我的要求方面沒有成功。事實上，我想使用機械化或類似的解決方案，但這並不適合[對我]。與python的win32com和解析html問題

是否有可能使用beautifulsoup或LXML與win32com？
任何人都知道如何從cnn webiste中提取一些文本，請幫助我！具體來說，我想從'贊助鏈接「錢」

import win32com.client 
from time import sleep 
from win32com.client import Dispatch 
import urllib,urllib2 
from BeautifulSoup import BeautifulSoup 

ie = Dispatch("InternetExplorer.Application") 
ie.Visible = 1 
ie.Navigate("http://www.cnn.com") 
sleep(15) 
ie.Quit()

來源

2009-10-24 paul

你試圖解析在CNN的網站一些文字在CNN網站上提取文本？

您可以

import urllib 
f = urllib.urlopen('http://www.cnn.com') 
page = f.read() 
f.close()

獲取頁面然後可以使用BeautifulSoup找到什麼是你正在尋找的頁面上。

爲什麼選擇win32com，dispatch等？

來源

2009-10-24 23:43:44 foosion

嗨，因爲在網站中的JavaScript ...我想使用win32com。我被尋找其他解決方案，但沒有太多的成功與我的要求。如果可能的話，其實我想用機械化或類似的解決方案，但不能成功 – paul 2009-10-25 03:30:05

也許這篇文章中的信息將有所幫助：http://stackoverflow.com/questions/1546089/web-scraping-a-problem-site否則，請張貼您想要做的更多細節。你想要關注右側的贊助商鏈接和頂部的金錢鏈接嗎？ – foosion 2009-10-25 10:55:42

你好，其實即時通訊網刮板。和刮是沒有問題的JavaScript。做了刮板後，我會添加一些其他功能，那時候我會遇到很多javascript，爲什麼我嘗試使用PAMIE或IE http://elca.pastebin.com/m52e7d8e0 我附上了當前刮板腳本源代碼。尤其是我想將'thepage = urllib.urlopen（theurl）.read（）'改爲PAMIE方法。如果可能的話，你可以檢查它並糾正我嗎？在此先感謝.. – paul 2009-10-26 02:09:54

與python的win32com和解析html問題

回答

相關問題