2017-02-11 47 views
0

我想要獲取指定URL中存在的文件和目錄列表。我正在使用的網址是在線詞典:www.shabdkosh.com/kn/browse/。我的代碼如下:python - 使用os.walk無法檢測到其他語言的鏈接

html_files = [] 

for root, dirs, files in os.walk("www.shabdkosh.com/kn/browse"): 
    for file in files: 
     #Files in shabdkosh have a digit as name to represent page number 
     if file.isdigit(): 
      html_files.append(os.path.join(root, file)) 

當我打印文件的內容,我得到:

www.shabdkosh.com/kn/browse/3/1 
www.shabdkosh.com/kn/browse/a/1 
www.shabdkosh.com/kn/browse/a/10 
www.shabdkosh.com/kn/browse/a/2 
... 

這是很酷的。但其他網址也應該被檢索。即使它們存在,也不會顯示包含卡納達字母的網址(卡納達語是印度語)。

例如,

www.shabdkosh.com/kn/browse/ಅ/ 

像這樣即使它們位於路徑「www.shabdkosh.com/kn/browse」指定爲os.walk參數不顯示。那麼,我如何獲得os.walk以獲得帶有Kannada字母的URL列表?

我甚至嘗試,包括在我的Python文件的頂部以下代碼:

#!/usr/bin/env python 
# -*- coding: ascii -*- 

,但沒有運氣。任何幫助表示讚賞。

P.S對不起,如果它困擾你,我使用舊的python 2.7。

+0

西羅的評論是不正是你想要的'如果file.isdigit(file'?刪除的條件,你會得到更多。 – Gang

+0

沒有運氣。我甚至印有「文件」的條件外,我只得到純粹的英語URls –

回答