如果我使用一個分隔符上的字符串:理解的東西在正則表達式
Scanner scanString = new Scanner(line).useDelimiter("<.*>");
我想知道爲什麼在
<a href="https://post.craigslist.org/c/snj?lang=en">post to classifieds</a>
這將不保留文本,但它會在一條線上只有
<option value="ccc">community
雖然
Scanner scanString = new Scanner(line).useDelimiter("<.*?>");
將適用於兩者。
據我所知,"<.*>"
應排除以「<」開頭的字符串,後跟任意字符0次或更多次,直到達到「>」。所以它不應該開始排除,直到它達到另一個「<」?
使用類似Expresso的工具:http://www.ultrapico.com/Expresso.htm – 2012-02-11 04:45:31
您也可以閱讀http://stackoverflow.com/questions/1732348/regex-match-open-tags-except -xhtml-self-contained-tags和http://stackoverflow.com/questions/590747/using-regular-expressions-to-parse-html-why-not – 2012-02-11 05:59:55