2013-06-24 65 views
-1

我的一個網絡應用程序收到大量的文章提交,其中一些寫得不是很好。如果僅僅通過提供好的和壞的文章的語料庫來創建一個識別「好」與「壞」寫作的工具,它有多大可能?教學好壞寫法(Python)的算法

請注意,這些文章(至少已經處理過的文章)已經過審查和分級,所以理論上我可以使用這些數字來確認輸出。

我沒有創建「學習」算法的背景,因此即使只是一個關於該主題的基礎書籍的指針也會有所幫助,特別是爲Python語言編寫的指針。

+3

自然語言*非常非常複雜。我懷疑沒有大型NLP庫的任何工具都是非常好的。是否有太多的腳本提交閱讀? –

+0

如果有這樣的工具可以識別出好的文字,那麼軟件可能會寫出一本流行書。 – suspectus

+0

我們確實有人工審覈人員,但只篩選出值得審覈人員時間的人員會很高興。此外,我們還有一個大約50k +文章的數字圖書館,其中有些圖書因爲來自不同來源而被排除在外。如果有人正在試圖找到與某個特定主題相關的論文,那麼首先提供最好的論文將是有用的。 –

回答

1

我認爲這將是一個難以進行的學習算法。但是,如果您確實想要了解該主題或想了解該主題,Coursera提供了許多值得一試的免費在線課程。

本課程目前沒有運行的任務等等,但你可以在預覽模式下觀看了演講,從我所看到的,這是非常適合初學者: https://class.coursera.org/machlearning-001/lecture/preview

如果您想進行一些練習,然後我會強烈建議看看Kaggle(http://www.kaggle.com/),它開放數據科學/機器學習問題的競爭。一些比賽甚至有示例代碼讓你開始,泰坦尼克號比賽在Python中有一些示例代碼,儘管正在處理的問題比你提出的問題簡單得多。

+0

您是否考慮過將此問題提交給Kaggle公開競爭?顯然,要做到這一點,你需要做好準備,公佈數據。 – ChrisProsser