我想從包含使用python的給定子字符串的字符串中獲取句子。查找字符串中char/word的句子
我有權訪問字符串(學術摘要)和帶有開始和結束索引的高亮列表。例如:
{
abstract: "...long abstract here..."
highlights: [
{
concept: 'a word',
start: 1,
end: 10
}
{
concept: 'cancer',
start: 123,
end: 135
}
]
}
我遍歷每個亮點,定位它在抽象的開始指數(結束並不重要,因爲我只需要得到一個句子中的位置),然後以某種方式需要確定索引發生的句子。
我能夠使用nltk.tonenize.sent_tokenize
將摘要標記爲句子,但這樣做會導致索引位置無用。
我應該如何解決這個問題?我認爲正則表達式是一種選擇,但nltk標記器似乎是一種很好的方式,它不會使用它是一種恥辱。或者通過查找自上一句句號/感嘆號/問號?
這看起來像JSON。 – squiguy 2013-03-20 17:20:02
是的,我正在操作來自API端點的數據。 – Elise 2013-03-20 17:21:16
它可能很昂貴,但你可以通過句子,並重新計算長度的句子索引,然後搜索該索引 – user1937198 2013-03-20 17:38:39