我很快就要開始一個新項目,在那裏我要做大量的文本處理任務,如搜索,分類/分類,聚類,等等。用於文本處理(文本挖掘,信息檢索,自然語言處理)的Python或Java
將會有大量需要處理的文檔;可能是數百萬的文件。在初始處理之後,它也必須能夠每天更新多個新文檔。
我可以使用Python來做到這一點,或者Python太慢了嗎?是否最好使用Java?
如果可能的話,我寧願Python,因爲這是我最近使用的。另外,我會更快地完成編碼部分。但這一切都取決於Python的速度。我只用幾千個文檔就使用Python進行一些小規模的文本處理任務,但我不確定它是如何擴展的。
我從來沒有使用的Jython。我讀過它比Python慢。但是我想通過將代碼的關鍵部分轉換爲java可能會比Python更快?那是對的嗎? – kga 2011-05-17 12:57:52
@ user757256:是的,Jython是稍微慢一點,是更多的內存大戶。破解一些原型,與CPython和Jython進行基準測試,然後查看您可以優化的內容。再次,只有在評估了可以使用的庫之後,才能做出選擇。 – 2011-05-17 13:28:20