我正在研究用於估計sentence difficulty的算法,但我發現的方法似乎太舊以至於無法利用現代計算機可以執行的操作。最新的句子可讀性算法
今天使用的算法大都是在40到60年前開發的。 Flesch-Kincaid是最受歡迎的,仍然被國防部和許多州和企業用作文件的標準。我看過Flesch-Kincaid年級,Gunning霧指數,SMOG指數,Fry可讀性公式和Coleman-Liau指數。
我已經決定使用自動可讀性索引:基於語料庫
ARI = 4.71 * (characters/words) + .5 * (words/sentences) - 21.43;
在我看來,它不會是困難的值分配給基於每個字詞頻列表,然後將工作這些值轉換爲舊的可讀性公式。
這可以爲前1000到5000個最常用單詞完成。 另外,爲某些不同類型的單詞和詞類製作單獨的列表可能會很有效。連詞的存在肯定會成爲句子複雜性的標誌。
有沒有這樣做的公式?
我不認爲這個問題的actionscript標籤會幫助你得到最好的答案。嘗試發佈在編程論壇/堆棧交換 – Ryan
感謝您指出我在正確的方向。 – oppositefrog
幾年前,我做了一個包含ARI的演示:http://lt3.hogent.be/en/demos/readability/。輸入一個文本,你會得到所有的分數。點擊結果中的鏈接以獲取有關我們實施的文檔。 – pvoosten