我在使用Ruby與Nokogiri拼寫一個網站。將HTML格式化爲CSV
此腳本創建本地文本文件,打開URL並在滿足表達式tr td
時寫入文件。它工作正常。
require 'rubygems'
require 'nokogiri'
require 'open-uri'
DOC_URL_FILE = "doc.csv"
url = "http://www.SuperSecretWebSite.com"
data = Nokogiri::HTML(open(url))
all_data = data.xpath('//tr/td').text
File.open(DOC_URL_FILE, 'w'){|file| file.write all_data}
每行有五個字段,我想水平運行,然後在五個單元格填充後轉到下一行。數據全部存在但不可用。
我希望學習或有人知道如何創建一個CSV格式的代碼,獲取代碼:
- 當腳本讀取代碼,傾倒每一個新的TD/TD X5到自己的細胞水平。
- 轉到下一行等
的HTML的佈局是:
<tr>
<td>John Smith</td>
<td>I live here 123</td>
<td>phone ###</td>
<td>Birthday</td>
<td>Other Data</td>
</tr>
最終產品應該是什麼樣子。
http://picpaste.com/pics/Screenshot-KRnqRGrP.1361813552.png
電流輸出
john Smith I live here 123 phone ### Birthday Other Data,
你是什麼意思的「不可用」?你能分享你目前的輸出是什麼樣子嗎?此外,將您的目標顯示爲文本文件會有所幫助(它在Excel中的外觀沒有多大幫助)。另外,如果網站不屬於您的網站,請注意這類工作,根據您的法律,這可能是被禁止的(至少用於商業用途)。 – Martin 2013-02-25 17:36:40
本網站提供的信息向公衆開放。這五個字段是任意的,與我所放下的內容沒有任何關係。例如,我使用數字/文本的領域的目的和動態。 – Duck1337 2013-02-25 17:44:35