2010-07-27 45 views
1

我即將開始編寫一個程序,該程序將嘗試從Google Code site中提取數據,以便將其導入到另一個項目管理站點。具體而言,我需要從網站中提取完整的問題詳細信息(描述,評論等)。我該如何編寫一個程序來從Google Code中提取數據?

不幸的是,谷歌不提供這個API,也沒有導出功能,所以對我來說,唯一的選擇是從實際的HTML(惡作劇)中提取數據。有沒有人試圖從HTML解析數據時對「最佳實踐」有什麼建議?我知道這不太理想,但我認爲我沒有太多選擇。任何人都可以想出更好的方法,或者其他人已經做到了這一點?

此外,我知道問題頁面上的CSV導出功能,但這並不能提供有關問題的完整數據(但可能是一個有用的起點)。

+1

您應該編輯您的問題並準確指定您嘗試從Google代碼中提取哪些數據。問題?維基?等等。答案會有所不同...... – James 2010-07-27 10:21:01

+0

啊,你是對的。問題,特別是,因爲它是您無法輕易從手中提取的唯一數據。 – 2010-07-27 10:21:46

+0

'這是一個已知的限制:http://code.google.com/p/support/wiki/FAQ#How_do_I_get_a_copy_of_my_data%3f這給了谷歌強烈的興趣,不鎖定你到他們的服務,如果它來得早,我不會感到驚訝而不是晚些時候。 – msw 2010-07-27 10:29:04

回答

0

我剛剛完成了一個名爲google-code-export(託管在Github上)的程序。這可以讓你的谷歌代碼項目導出到一個XML文件,例如:

>main.py -p synergy-plus -s 1 -c 1 
parse: http://code.google.com/p/synergy-plus/issues/detail?id=1 
wrote: synergy-plus_google-code-export.xml 

...將創建一個名爲synergy-plus_google-code-export.xml文件。

相關問題