2015-09-14 30 views
0

我目前正在對中文微博文本進行分類,其中一個步驟是提取文本中包含的地理位置。我遵循斯坦福大學NLP網站中描述的步驟,即首先使用中文分詞器分割中文文本,然後將中文NER模型應用於分段文本。中文NER不識別微博文本中的某些位置

但是,我發現許多文章確實包含地理位置但NER軟件無法識別它們的錯誤否定。下面列出了一些示例(斜體是手動標記爲地理位置)。

【開展防汛排查】6月29日,紫陽縣紅椿鎮強降雨引發了山體滑坡和泥石流,爲避免發生不安全事故,紅椿派出所與交警中隊民警冒雨開展重點路段巡查,疏導交通,排查險情。目前,共排查險情3處,救助因山體落石被砸的傷員1名。@安康警務

【開展/ O防汛/ O排查/ O】6月/ MISC 29日/ MISC,/ O紫陽/ O縣/ O紅椿鎮/ O強/ O降雨/ O引發/ O 了/ O山/ O滑坡/ O和/ O泥石流/ O,/ O爲/ O避免/ O發生/ O不安全/ O事故/ O,/ O紅椿/ O派所有/ O交警/ O交警/ O,/ O排查/ O 與/ O交警/ O中隊/ O民警/ O冒雨/ O開展/ O重點/ O路段/ O巡查/ O/O目前/ O,/ O共/ O排查/ O險情/ O 3/O處/ O,/ O救助/ O因/ O山體/ O落石/ O被/ O砸/ O 的/ O傷員/ O 1/O名/ O ./O @/O安康/ O警務/ O

雲南預警發佈中心】滄源縣氣象臺2015年7月16日14時00分發布暴雨藍色預警信號:預計未來12小時,我縣西部,南部的部分地區降雨量將達50毫米以上,請注意防範局地洪災,滑坡和泥石流等災害。【雲南/ ORG預警/ ORG發佈/ ORG中心/ ORG】滄州/ ORG縣/ ORG氣象臺/ ORG 2015年/ MISC 7月/ MISC 16日/ MISC 14時00/MISC分/ MISC發佈/ O暴雨/ O藍色/ O預警/ O信號/ O:/ O預計/ O 未來/ O 12/MISC小時/ MISC,/ O我/ O縣/ O西部/ O,/ O南部/ O的/ O部分/ O地區/ O降雨量/ O將/ O 達/ O 50/O毫米/ O以上/ O,/ O請/ O注意/ O防範/ O局地/ O洪澇/ O,/ O滑坡/ O和/ O泥石流/ O等/ O 災害/ O ./O

張掖肅南縣遭受山洪泥石流災害暫無人員傷亡報告】

【張掖肅/ PERSON南縣/ O遭/ O山洪/ O泥石流/ O災害/ O暫/ O無/ O人員/ O傷亡/ O報告/ O】

馬爾康縣馬江街紅苕溝泥石流!

馬爾康縣/ O馬江/ O街/ O紅苕/ O溝/ O泥石流/ O!/ O

走G214時候已經見過了陡坡,急彎,泥石流,滑坡,臨水臨崖,積雪泥濘等各種路況,今天出左貢縣這段幾十公里簡直想罵娘,這種爛泥搓板路簡直專治腎結石,哪兒結石都給你顛出來......

走/ O G214/O時候/ O已經/ O見/ O過/ O了/ O陡坡/ O,/ O急彎/ O,/ O泥石流/ O,/ O滑坡/ O,/ O臨/ O水/ O臨崖/ O,/ O積雪/ O泥濘/ O等/ O各/ O種/ O路況/ O,/ O今天/ MISC出/ O左貢縣/ O這/ O段/ O幾十/ MISC公里/ MISC簡直/ O想/ O罵娘/ O,/ O這/ O種/ O爛泥/ O搓板/ O路/ O簡直/ O專治/ O腎/ O結石/ O,/ O哪兒/ O結石/ O都/ O給/ O你顛/ O出來/ O .../O .../O

最後例如,一個奇怪的是,在線演示可以正確分類只是「左貢縣」一詞本身就是GPE,而當我在電腦上運行時,它會打印出「左貢縣/ O」。

我不知道我是否正確使用該軟件,並且我不知道如果我正確使用該軟件,我該如何處理這些問題。我能做些什麼來糾正這些問題?像訓練我自己的模型一樣?

我真的很感謝任何幫助。

回答

0

中文字符是否嵌入到您的軟件中?缺少嵌入字體可能是問題。

+0

是的。我不認爲這是造成問題的原因。謝謝。 – SpectreWithin