pyquery

0熱度

1回答

以此爲出發點.. http://docs.python-guide.org/en/latest/scenarios/scrape/ from lxml import html import requests page = requests.get('http://econpy.pythonanywhere.com/ex/001.html') tree = html.fromstring(pa

1熱度

1回答

從文章中提取作者

正如標題所說，我一直在努力抓取文章，剩下的只是作者。下面是我的代碼，使用pyquery編譯段落和作者，只有筆者返回目標的空白網站：http://business.transworld.net/153984/news/surfrider-foundation-names-chad-nelsen-new-ceo/ def extract_text_pyquery(html): p = p

0熱度

1回答

Pyquery刮在它的類名具有空間類

我的問題是，我要湊一個網站，該網站有： <div class="xyz tab"> blah blah </div> 中，且具有相同的網站，該網站是如下另一個DIV： <div class="xyz">blah blah</div> 刮網站沒有的空間，我可以用這個 pyquery('.xyz').text() 但對於空間我應該怎麼辦???

0熱度

1回答

搞亂我的文章爬行的廣告

嘗試抓取文章時我需要做些什麼，但是一個排序的廣告不斷出現？具體來說，那些會在屏幕中間彈出，請求登錄/註冊，並且您必須在閱讀之前手動關閉它。因此，我的抓取無法提取任何東西。有關如何使用pyquery在「抓取前關閉廣告」中編寫代碼的任何建議？編輯：現在和Selenium一起嘗試去除彈出窗口。任何意見將不勝感激。 import mechanize import time import urlli

1熱度

2回答

如何使用pyquery解析HTML表格？

如何使用pyquery解析HTML表格？ [參見http://pastie.org/pastes/8556919 結果的源代碼的HTML表： { 「category_1」：{ 「cat1_el1_label」：「cat1_el1_value」，}，「category_2」：{ 「cat2_el1_label」：「cat2_el1_value 」}，「category_3」：{ 「cat3_e

-1熱度

1回答

pyquery打開文件時返回[None]

如果我用pyquery打開一個html文件base_result.htm，它會返回[None]，並在我搜索時引發錯誤。如果我使用同一個文件作爲字符串，一切運作良好。 >>> d = PyQuery(filename = 'base_result.html') >>> d [None] >>> f = open('base_result.html') >>> d = PyQuery(f.re

1熱度

2回答

如何訪問PyQuery查詢中的第一項（或第x項）？

我有一個查詢返回2個結果的測試。使用 query = html("ul ol ul") 如何選擇第一或第二無序列表具體發現了一個輪廓的第三級？ query[0] 衰減到HTML元素 list(query.items())[0] 或 query.items().next() #(in case of the first element) 有沒有更好的辦法，我不能看？注： quer

1熱度

1回答

PyQuery Python不能用於循環

我正在嘗試編寫一個程序，它從.txt文件的每一行中拉出urls並執行一個PyQuery來從LyricsWiki刮掉歌詞數據，並且一切看起來都很好，直到我真的例如，當我這樣做：例如，當我這樣做： full_lyrics = "" #open up the input file links = open('links.txt') for line in links: full_l

0熱度

1回答

PyQuery找到子元素節點文本

下面是代碼： from pyquery import PyQuery content = '''<td field="exceptions"><div style="white-space:normal;height:auto;" \ class="datagrid-cell datagrid-cell-c2-exceptions">Traceback (most recent call l

2熱度

1回答

如何使用python與scrapy？

我的目標是使用scrapy的pyquery，顯然來自scrapy.selector的import PyQuerySelector返回ImportError：當我抓取蜘蛛時，無法導入名稱PyQuerySelector。我遵循這個具體要求https://gist.github.com/joehillen/795180來實現pyquery。任何建議或教程，可以幫助我完成這項工作？