0
在從文本本體學習的情況下,假設我有兩個概念,我很感興趣,它們之間的關係:關係三元組提取中的R - TM,stringr,Perl的正則表達式
class <- c(animal.class, dog.class)
individual <- "Snoopy"
animal.class <- c("animal", "animals")
dog.class <- c("dog", "dogs")
sentence1 <- "Snoopy is an animal."
sentence2 <- "Snoopy is a dog."
如何提取與R的語言上下文和語義關係,以便我可以收集數據幀,而不必具有之前定義的上下文/關係(「是(n)」)。
data.frame(CLASS1="animal",CLASS2="Snoopy",context="CLASS2 is an CLASS1")
data.frame(CLASS1="dog",CLASS2="Snoopy",context="CLASS2 is a CLASS1")
可以很容易地提取這種與像有限狀態轉換器等工具的事情,但我想留在R和我沒有R.
發現這樣的事情的時刻我想象一下使用perl正則表達式的一些解決方案以及包tm
和stringr
......它們足夠嗎?
目前還不清楚會是什麼是可用的數據,預期的結果是什麼。你想扣除給定的一些句子的課程,或生成給定類的句子?要麼...? – 2015-04-06 05:39:25
Tyler Rinker的qdap包可能有所幫助。 – lawyeR 2015-04-06 11:04:04
@DominicComtois:可用的數據是句子或語料庫。 NLTK(Python)有一個特定的功能:http://www.nltk.org/_modules/nltk/sem/relextract.html – 2015-04-06 12:33:06