2012-07-16 65 views
2

我一直在尋找名詞,動詞和形容詞的單詞列表,我可以導入並使用到我正在使用的密碼構建工具中。我沒有抓住英語中的每一個單詞,而是一直試圖找到更簡單的單詞,這些單詞可以連接成合理的密碼短語。尋找密碼建設的詞列表

有沒有人知道這樣的資源?我嘗試了谷歌搜索和Binging以及hippity和hoppity,但我似乎無法找到任何相關的東西。

回答

1

您可以使用(幾乎)所有unix發行版附帶的詞彙表。它可以在/usr/share/dict/words找到。

Here is the list, if you don't have a unix box

+0

不是一個簡單的列表 - 有多少人知道單詞瑣羅亞斯德?對不起,沒有賞金這個答案:-D – 2013-04-09 22:51:18

+1

我做到了!弗雷迪水星是一個瑣羅亞斯德教......;) – 2013-04-19 16:05:52

0

請檢查這些: http://ogden.basic-english.org/words.html https://simple.wikipedia.org/wiki/Wikipedia:List_of_1000_basic_words https://simple.wikipedia.org/wiki/Wikipedia:Basic_English_alphabetical_wordlist

通過使用簡單的網頁抓取你可以獲取的所有單詞列表,然後使它們獨特的。

另外在那裏引用了一些其他的鏈接,也檢查這些鏈接。

+0

關閉保羅(雖然不是一個簡單的搶/支付清單),但沒有足夠的詞之間我所需要的。謝謝回答。 – 2013-04-15 19:24:49

+0

老實說,我不知道你會在哪裏找到一個只包含簡單單詞的列表,特別是在一個容易抓取的表單中。 – Paul 2013-04-15 19:52:50

+0

是的,可能不是保羅,雖然我很驚訝這裏沒有薪水選項。 – 2013-04-16 00:08:49

0

我完全推薦這個: http://packetstormsecurity.com/Crackers/wordlists/

只是開個玩笑!你有沒有試過WordNet?它有各種語言,平臺等的接口,它非常強大。

+0

是的我看過WordNet從另一個答案在這裏,再次不是一個簡單的列表,將不得不手動編輯。 – 2013-04-16 00:07:27

0

我會採取一些措施,但你可能不喜歡答案。我能想到的最簡單的方法是通過使用搜索詞「名詞」或「動詞」以及fyletype:csv在Google上查找CSV列表。一旦你找到符合你的標準的文件。我在GITHub上發現了很多,你可以做一些github調用,或者如果不在GIT上,你可以使用你選擇的服務器端語言對文件執行CURL或HTTP調用......生成逗號分隔列表或數組(某種結構),然後創建一個隨機化函數,並對列表進行調整(抓取一個或兩個頂部單詞並使用randrange或類似的東西拼接rand數)。然後你可以連接一串字和數字。如果您可以製作簡單的兩個或三個所有單詞的字段表(剪切並粘貼它們)或從原始文件導入...並執行相同操作的查詢,則更容易。選擇一個或三個隨機單詞並連接它們,並使用記錄的行號進行唯一性設置。

但有兩件事是確定的,你需要一個消耗性的過程,你需要字符串連接功能。

+0

是的,我們已經有一個過程需要2個單詞和1個數字來形成良好的強度短語,但是我們的單詞列表(像所有的例子一樣)要麼太長(太可怕的話),要麼太短。 謝謝大家回答! – 2013-04-16 00:08:22

1

當您說「通過電話輕鬆溝通」時,您的意思是說,當各種發言人發音時,通常很難與其他詞混淆?也許「斗篷」聽起來很獨特,但「十五」聽起來太像「五十」了?如果是這樣,你的任務就很艱鉅。

你可以通過分析谷歌NGRAM集「共同」的話:http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

您可以確定使用同音/音位分析「聲音獨特性」。

  1. 獲取最常見的1克某(最近)年:

    如果我上我會服用這一點。

  2. 計算/存儲每個單詞的double metaphone
  3. 通過metaphone進行分組,看看有多少人可以獲得metaphone只有1個與之相關的常用詞。

所以,這不是一個簡單的列表,但你要求的也不是簡單的,對不起!

+0

你在正確的軌道ers81239,但不完全是,它更多的是關於常用單詞,即任何普通英語發音者可以在句子中放置以便在必要時提供背景的每一天單詞。 許多單詞列表中都有「瑣羅亞斯德教」一詞 - 除非你是一個宗教學者,這是毫無意義的,甚至有人甚至不能把它放在句子中。 十五和五十是好的,因爲你可以區分使用一個五和五哦。 希望這有助於 - 這是迄今爲止最接近的答案,謝謝! – 2013-04-16 04:18:29

+1

是的,如果您閱讀Google Ngram數據庫的鏈接,它會給您一個按年份排名Google掃描的書籍中最常見的詞彙的排名。所以雖然這些單詞可能比會話式英語略微更具學術性,但我認爲會話式英語具有重要意義。因爲它們是有序的,所以你會得到'最受歡迎的單詞'。不只是已知單詞的列表。 – 2013-04-16 04:25:05

+0

很酷,我正在尋找更多的選擇和運行解決方案(即使它是支付),我已經設法從Ngram分貝下載其中一個文件(許多由於它們的大尺寸而失敗 - 是否有ftp選項???)我實際上無法打開文件,因爲它的大小爲7GB,完全可以工作。 – 2013-04-17 02:21:43