2017-02-07 112 views
0

我正在尋找我正在實施的兩個功能的新想法。分割和搭配

1)文字分割特徵:搭配

Ex: 
        User Query:     Resolved Query: 
        -----------     --------------- 
      It has lotsofwordstogether It has lots of words together 

    I am using normal recursion or DP solution using unigrams probability. 

2)種類:

Ex: 
     User Query:      Resolved Query: 
     ----------      --------------- 
    I like t shirts in Wal mart  I like t-shirts in Walmart 

不知道該怎麼辦了這一點。我現在唯一的想法是將這個句子標記出來,並將非有意義的記號與先前的記號或下一個記號結合起來形成可以對照單詞進行檢查的單詞。

這些解決方案對我的要求很慢(特別是第一個)。 我想一起使用這些功能。尋找更好的想法。

回答

0

我猜標準方法涉及字母n-gram。

因此'沃爾瑪特'將成爲'沃爾''阿爾姆''lma''mar''藝術'。

+0

我是這個領域的新手。你可以在這裏指出一些書籍或在線來源。如何使用字母n-gram解決t恤問題? – starkk92

0

對於問題1),找到字邊界,可以使用現有算法來標記東亞語言。它們通常涉及應用隱馬爾可夫模型:

http://dev.datasift.com/blog/using-japanese-tokenization-generate-more-accurate-insight

https://nlp.stanford.edu/IR-book/html/htmledition/tokenization-1.html

我也可以認爲應用CKY算法(用於解析上下文無關文法),特別是如果你能找到它提供了字典音節分割和音節庫存。

問題2)我認爲這只是拼寫糾正的一個例子。就像對待任何其他角色一樣對待空間。

我會發布更多的鏈接,但我沒有足夠的聲譽。

這些都不是容易的問題,祝你好運!