2012-05-22 18 views
0

所以我想提出一個「冰箱貼」互動,我試圖找出一個有效的數據集的話,以具有爲用戶拖動。數據集的常用詞,構建基本的句子

我使用的這組數據..但它是不是很大

http://en.wikipedia.org/wiki/Most_common_words_in_English

和想法在哪裏可以找到一個更有效的組詞,你可以做到這一點

+0

[google知道更常見的英文單詞](https://www.google.com/webhp?sourceid=chrome-instant&ie=UTF-8&ion=1#hl=zh-CN&sclient=psy-ab&q=common%20english%20word% 20list&OQ =&水溶液=&AQI =&AQL =&gs_l =&PBX = 1&FP = 3ea52b9c0e6750ee&離子= 1&BAV = on.2,or.r_gc.r_pw.r_cp.r_qf。,cf.osb&BIW = 1538&波黑= 761)。 – Xeoncross

回答

2

一種方式是自己下載一個文本語料庫,然後運行一個腳本來計算出現的每個單詞的數量。然後選擇一些值N並將每個計數除以N(向下舍入)。對於每個單詞,爲每個劃分的計數製作一個磁體。根據您最終想要的磁體數量,您應該選擇N

這具有磁體的分佈的優點相匹配的字的分佈。例如,如果「該」顯示1000倍,「人」 320次,「行走」 150次,「跳過」的2倍,並且你選擇Ñ爲100,那麼你將最終使10「的」磁鐵,3「人」,1「走」和0「跳」。

您也可能想計數的對數,試圖減少歪斜。由於單詞分佈是Zipfian,因此每個「散步」最終可能會有數千個「磁鐵」)。

最後,對這種做法的好處是,你可以在一個特定的域運行它使一個字磁鐵爲該域設置。例如,如果您想製作聽起來像新聞故事的單詞磁片,然後在新聞故事的語料庫上運行它。如果你想製作聽起來像童話故事的單詞磁體,然後運行它的童話故事的語料庫。

如果你確實想要花點心思,你可以使用類似TF-IDF這樣的詞來挑選出最具代表性的詞,然後將它們與普通的功能詞混合使用。