2012-12-15 55 views
0

我即將創建一個翻譯站點(以PHP爲單位),用戶可以在其中指定翻譯員翻譯他們的文檔。從網站上,人們可以上傳文件,然後將其連接到網站的翻譯員/成員。問題是我如何製作一個計算文檔價格的應用程序。獲取文檔中的字數

評價翻譯價格最常用的方法是每個單詞。所以我需要知道客戶上傳的文檔中有多少字。我認爲必須有可能從文本文件(如word文檔)中統計單詞。但是,我找不到任何方法來獲取ms word 2003文檔(.doc)的確切數量。我找到了一種計算.docx的方法,但不是.doc。並且會有更多文件,例如PDF或rtf。

我見過另一種只計算文件大小的方法,但我不認爲它會給出不同的文檔格式相同的結果。或者它是? 我能想到的簡單方法是讓訪問者在textarea上覆制/粘貼文本,但我認爲這不是最好的方法。

有人會給我一個建議,我該如何解決這個問題?

+0

如果你想做得很好,你將需要例程來打開每個文件的擴展名。在php中有api可用,應該能夠從每種情況下提取文檔中的文本,但是如果您希望「從每種類型的文檔功能中獲取文本」,則不會有這種情況。 – gview

回答

0

如果您是在* nix的服務器上運行您的網站,你可能想嘗試以下操作:

$word_count = system("wc -w " . $filename); 

而且,是的,我已經導致相信它與.doc和.docx文件。 PDF的是一個完整的故事。我必須研究那個。