2014-06-08 56 views
-3

我想編寫一個程序,將我的pdf和音樂文件編入我的硬盤驅動器(非服務器)。我打算通過perl或python,或兩者兼而有之。我基本上會爲我的桌面寫一個爬蟲。用戶界面將使用JavaFx,我認爲它非常流暢。我已經在JavaFx中完成了幾個項目。我沒有在perl/python中做過任何事情。然而,我在教他自己的語法的同時,在他們中完成了幾行代碼。如何爲桌面編寫爬蟲程序

問題是我着手編寫爬蟲程序時應開始研究哪些主題。我在網上看到了很多關於抓取工具的教程,但都是做網頁索引的。另外我應該看看哪些模塊?

+0

歡迎來到Stackoverflow!你能用一句話解釋一下:你問的是什麼問題?一般疑惑和擔憂在問答格式中很難回答。 – jsalonen

回答

0

在python中查找可以使用的文件os.walk - 幫助中的示例非常有用。

假設您要做的不僅僅是找到文件並獲取他們的名字,還需要了解有關內容的更多信息,還有可從PDF文件(例如PDFMiner)獲取文本的Python庫和pdfquery。

同樣有很多python工具可以讓你獲得更多關於音樂文件的信息。

這一切都取決於你如何計劃索引它們。