0
我想解析www.amazon.com
源HTML如下使用XML minidom。XML minidom解析錯誤
def start_parser(self, analysis_id, url):
dom = None
path = self.create_analysis_folder(analysis_id)
self.get_generated_html(url)
for root, dirs, files in os.walk(path):
for file in files:
if file.endswith('.html'):
dom = parseString(open(path + '/' +file).read())
shutil.rmtree(os.getcwd())
break
return dom
的方法做了一些基本的文件夾操作,然後調用parseString
給它的HTML源代碼。執行時出現以下錯誤。
xml.parsers.expat.ExpatError: not well-formed (invalid token): line 20, column 20
能有人請解釋這意味着什麼,以及如何擺脫它。