我見過的「How to get the raw HTML source code for a page by using Ruby or Nokogiri?」,它採用這樣的:有沒有從Nokogiri獲取原始HTML的方法?
file = open("index.html")
puts file.read
page = Nokogiri::HTML(file)
但它似乎讀取點移動到文件的末尾,以便引入nokogiri無法讀取該文件了。如果我換read
和Nokogiri電話:
file = open("index.html")
puts file.read
page = Nokogiri::HTML(file)
該文件不再輸出。我希望能夠查詢Nokogiri最初使用的HTML,以便我可以對原始源進行自己的額外解析。理想情況下,我想是這樣
注:我也試過page.to_html
,但似乎稍微改變格式。
完美地工作。我沒有意識到你可以給它一個HTML字符串。謝謝。 –
@neval:是的,'string_or_io'是它在文檔中被引用的方式。 Python通常對潛在的大輸入做同樣的事情(如果你發送一個類似文件的對象,並且算法允許它,它將被塊讀取)。 – tokland
明白了。我仍然只是從Ruby和Nokogiri開始,並且不知道什麼。謝謝您的幫助。 –