1
我想知道這將是一個很好的方法來標記一個字符串,如:爪哇 - 符號化基礎上的報價和資本情況的字符串
"'The president' of the United States is Barack Obama"
因此,它返回:
{The president, of, the, United States, is, Barack Obama}
我想知道這將是一個很好的方法來標記一個字符串,如:爪哇 - 符號化基礎上的報價和資本情況的字符串
"'The president' of the United States is Barack Obama"
因此,它返回:
{The president, of, the, United States, is, Barack Obama}
後一些環顧四周我設法得到以下正則表達式:
([A-Z][a-zA-Z0-9-]*)([\s][A-Z][a-zA-Z0-9-]*)+|'([^']*?)'|[^\s{.,:;」’()?!}]+
這似乎爲我的目的工作。
來源: https://stackoverflow.com/a/4113082/6601606 https://stackoverflow.com/a/16746437/6601606
我認爲你需要一個解析器一般處理這個問題。 –
你想讓你的代碼做什麼_「美國總統是Martin van Buren」_?怎麼樣_「科特迪瓦總統是阿拉薩內瓦塔拉」_?這個問題的一般解決方案不能僅僅基於大寫。 –