我是新的蟒蛇,我非常抱歉,如果我的問題是非常基本的。在我的程序中,我需要分析一個html網頁並提取其中的所有鏈接。假設我的網頁內容,如下面:帕爾斯和HTML網頁內容中提取網址,而無需使用BeautifulSoup或urlib庫
<html><head><title>Fakebook</title><style TYPE="text/css"><!--
#pagelist li { display: inline; padding-right: 10px; }
--></style></head><body><h1>testwebapp</h1><p><a href="/testwebapp/">Home</a></p><hr/><h1>Welcome to testwebapp</h1><p>Random URLs!</p><ul><li><a href="/testwebapp/847945358/">Rennie Tach</a></li><li><a href="/testwebapp/848854776/">Pid Ko</a></li><li><a href="/testwebapp/850558104/">Ler She</a></li><li><a href="/testwebapp/851635068/">iti Sar</a></li><li><a </ul>
<p>Page 1 of 2
<ul id="pagelist"><li>
1
</li><li><a href="/testwebapp/570508160/fri/2/">2</a></li><li><a href="/testwebapp/570508160/fri/2/">next</a></li><li><a href="/testwebapp/570508160/fri/2/">last</a></li></ul></p>
</body></html>
現在,我需要這個標準桿網頁內容,並提取所有內部的鏈接。換句話說,我需要下面的內容從網頁提取:
/testwebapp/847945358/
/testwebapp/848854776/
/testwebapp/850558104/
/testwebapp/851635068/
/testwebapp/570508160/fri/2/
/testwebapp/570508160/fri/2/
/testwebapp/570508160/fri/2/
我搜索了很多關於解析使用python如this,this或this網頁,但其中許多人都使用的庫如urlib或urlib2或BeautifulSoup並請求我不能在我的程序中使用這些庫。因爲我的應用程序將在未安裝這些庫的機器上運行。所以我需要手動解析我的網頁內容。我的想法是,我將我的網頁內容保存在一個字符串中,然後將字符串((用空格分隔))轉換爲字符串數組,然後檢查我的數組中的每個項目,如果它有/testwebapp/
或fri
關鍵字,則保存在一個數組中。但是,當我使用以下命令將字符串包含我的網頁內容到一個數組,我得到這個錯誤:
arrayofwords_fromwebpage = (webcontent_saved_in_a_string).split(" ")
和錯誤是:
TypeError: a bytes-like object is required, not 'str'
有沒有快速和高效如何在不使用任何庫(如urlib,urlib2或BeautifulSoup)的情況下解析和提取html網頁內的鏈接?
這是完美@ AndMar.tnx –