我想解析這個「<a href="javascript:8==99999?popDuelloDialog(2754288):popTeam(2386)">Gnistan</a>
」並提取文本。如何解析錨標籤中的文本?
我試圖提取很多,但我無法成功。
我不知道如何建立一個這種格式的方法「javascript comes」:(numbers)
「這是不重複的,所以我需要這樣一種方法,將只使用重複的部分,並將提取文本在主體中
我的代碼是在這裏:
import sys
from PyQt4.QtGui import QApplication
from PyQt4.QtCore import QUrl
from PyQt4.QtWebKit import QWebPage
import bs4 as bs
import urllib.request
import re
from bs4 import BeautifulSoup
class Client(QWebPage):
def __init__(self, url):
self.app = QApplication(sys.argv)
QWebPage.__init__(self)
self.loadFinished.connect(self.on_page_load)
self.mainFrame().load(QUrl(url))
self.app.exec_()
def on_page_load(self):
self.app.quit()
url = 'http://www.mackolik.com/Genis-Iddaa-Programi'
client_response = Client(url)
source = client_response.mainFrame().toHtml()
soup = bs.BeautifulSoup(source, 'html.parser')
#pattern=re.compile(r"javascript:;")
#js_test = soup.find_all('a', href='javascript')
hreff=soup.find_all("a","javascript:;")
#js_test=soup.select('a[href^="javascript:\('(.*?)'\);"]')
#print(js_test.text)
#type(href)
for i in hreff:
print(hreff[i])
你只是想分析「Gnistan」? –
是的。首先我想解析「Gnistan」,在同一頁面上有很多我想分析的文本,那麼當然我會爲其他人應用相同的方法。 –
@TylerH,你改變並推廣了主題名稱,它不容易達到並找到這樣的問題。我相信有很多人在搜索相同的東西,但從廣義的術語中不能理解,比如錨標籤。在您的字符串中搜索谷歌「