有沒有辦法找到一個仍然有意義且至少包含一個主語,動詞和謂語/賓語的句子的所有子句?從句子中找到有意義的子句
例如,如果我們有一句話,例如「我將在下個月在奧斯汀的SXSW上進行關於NLP的研討會」。我們可以從這句話中提取以下有意義的子句:「我要去做一個研討會」,「我要去做一個關於NLP的研討會」,「我要在SXSW上做一個關於NLP的研討會」,「我打算在SXSW做一個研討會「,」我要在奧斯汀做一個研討會「,」我將在下個月做一個關於NLP的研討會「等。
請注意,沒有推論(例如「下個月將在SXSW舉辦NLP研討會」,雖然這是事實,但我們不需要這個問題作爲這個問題的一部分)。所有生成的句子都是給定句子的一部分。
我們該如何解決這個問題?我正在考慮爲訓練數據集中的每個句子創建帶有一組合法子句的帶註釋的訓練數據。然後編寫一些監督式學習算法來生成一個模型。
我對NLP和機器學習很陌生,所以如果你們可以提出一些解決這個問題的方法,那將是非常好的。
在你的榜樣,你是否也想瑣碎subsentences像「我要」和「我」? 「我下個月要去奧斯汀」怎麼樣? –
@阿德里安麥卡錫:「我下個月要去奧斯汀」會落在問題描述的「推斷句子」中。這些在這裏是不希望的,因爲它們意味着對輸入句子的語義處理,據我所知,這個想法僅僅是包括/排除原始文本中的合格介詞短語的各種組合。 – mjv
@Adrian McCarthy:你提出了一個很好的觀點。 「我要去奧斯汀」的子句有些落在推斷句和「嚴格」分句之間的邊界上。但由於要求僅列出句子中嚴格存在的子句,因此我們將跳過此句。 –