我有IP:PORT列表在HTML中,當我使用findall搜索所有IP我得到所有IP becouse IP列表是唯一的,一些端口是相同的,我通過例子列出了100個IP,只有87個端口。如何找到重複的所有端口?re.findall如何返回重複的匹配
proxies = re.findall("[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}",html)
ports = re.findall("[0-9]{1,3}\,[0-9]{1,3}\,[0-9]{1,3}\,[0-9]{1,3}",html)
#ports are coded to looks like this 47,46,47,46
print len(proxies)
print len(ports)
你能證明你正在使用找到比賽和修整非唯一結果的代碼? – unholysampler 2011-06-09 19:57:32
你能提供一些樣本數據嗎?完全有可能你可以一次拿到兩套,但看到輸入會使這個決定容易得多。 – 2011-06-09 20:08:16
但是爲什麼不找組合IP:Port的所有字符串,然後簡單地按照需要分割結果? – 2011-06-09 20:13:26