我正在做一個約會書的計劃,我的主要想法是用「ngram」來完成。 我在這裏輸入了http://books.google.com/ngrams,我發現了具有最明確圖表的ngrams(多年來未知值)。然後我在python中編寫了一個代碼,用於「讀取」書本 - 它將本書,一些ngrams,然後計算文本中ngram的frequanty。例如,文中「用爆炸性宏偉擊殺所有人」中的ngram「ex」將爲0.05263157894736842,因爲本文中有2個「ex」,並且有38個可能的2字母組合,所以我認爲ngram會是2/38。Ngram的計算是什麼?
因此,我在1gram(ABC)的很多書上做了這個計算,並且我對所有的書都得到了或多或少的相同數字。然後我回到谷歌的ngram,顯然我得到的數字和他們得到的數字完全不同。例如,1克的「a」大約是0.078,b是0.0135,所以一個,但Google的ngram是[a = 1.54]和[b = 0.0066] ...
我得出了我得到的結論這個計算全錯了。現在,我在問你怎樣計算ngram的REAL。我真的需要了解這一點,所以請,如果你知道這件事情如何工作,請讓我知道。
非常感謝:)
編輯回答後:我真的得到了比谷歌更高的價值,因爲我valuse的概率(0比1),所以如果我想轉換此值%的我不得不乘以100,這是有道理的,因爲在英語中有更多的「a」(8%)作爲一個字母而不是「a」作爲一個單詞。
您正在計算字符正例數統計。 Google使用單詞n-gram。 –