0
我想要獲取指定URL中存在的文件和目錄列表。我正在使用的網址是在線詞典:www.shabdkosh.com/kn/browse/。我的代碼如下:python - 使用os.walk無法檢測到其他語言的鏈接
html_files = []
for root, dirs, files in os.walk("www.shabdkosh.com/kn/browse"):
for file in files:
#Files in shabdkosh have a digit as name to represent page number
if file.isdigit():
html_files.append(os.path.join(root, file))
當我打印文件的內容,我得到:
www.shabdkosh.com/kn/browse/3/1
www.shabdkosh.com/kn/browse/a/1
www.shabdkosh.com/kn/browse/a/10
www.shabdkosh.com/kn/browse/a/2
...
這是很酷的。但其他網址也應該被檢索。即使它們存在,也不會顯示包含卡納達字母的網址(卡納達語是印度語)。
例如,
www.shabdkosh.com/kn/browse/ಅ/
像這樣即使它們位於路徑「www.shabdkosh.com/kn/browse」指定爲os.walk
參數不顯示。那麼,我如何獲得os.walk
以獲得帶有Kannada字母的URL列表?
我甚至嘗試,包括在我的Python文件的頂部以下代碼:
#!/usr/bin/env python
# -*- coding: ascii -*-
,但沒有運氣。任何幫助表示讚賞。
P.S對不起,如果它困擾你,我使用舊的python 2.7。
西羅的評論是不正是你想要的'如果file.isdigit(file'?刪除的條件,你會得到更多。 – Gang
沒有運氣。我甚至印有「文件」的條件外,我只得到純粹的英語URls –