我需要創建PDF的內容。創建PDF的內容
Q
創建PDF的內容
-2
A
回答
0
您可以使用collections.Counter
跟蹤字數。我將使用正則表達式來捕獲頁面上的所有單詞,將每個單詞添加到計數器,然後轉到下一頁。您可以爲每個單詞同時保留查找索引,然後過濾常用單詞(counter[word] > threshold
),或者可以再次運行文檔,僅構建常用單詞的索引。
a)這將會有點慢 b)你必須處理像'a','','和'等單詞,以確保這些不被計數。
1
如果你所有的文本都是Python中的字符串(我假設你是因爲你的相關文章而做的),那麼你可以使用Python的Natural Language Toolkit。你可以下載它from here。
實施例:
import nltk, re, pprint
from nltk import FreqDist
tokens = nltk.word_tokenize(pdf_text)
text = nltk.Text(tokens)
fdist = FreqDist(text)
vocabulary = fdist.keys()
print vocabulary[:50] # Print the 50 most common words
1
使用
pdftotext
(隨xpdf
)轉儲PDF文件到一個文本文件。您可以使用subprocess.call
通過Python腳本來調用它。使用
collections.Counter.most_common
或ntlk
找到最常用的詞:import collections keywords = collections.Counter(open(<...>).read()).most_common(20)
相關問題
- 1. 的iOS創建動態內容PDF
- 2. iOS從UIWebview內容創建pdf
- 3. iOS - 從HTML內容創建多頁PDF
- 4. Joomla 3.0+從HTML內容創建PDF
- 5. 從RecyclerView完整內容創建PDF?
- 6. PDF內容不足以重建PDF?
- 7. 限制PDF的內容使用droidtext創建的單頁
- 8. 如何創建鈦的webview內容的PDF文件
- 9. 使用jsPDF創建的pdf中的重複內容
- 10. 使用iTextSharp在創建的PDF中不顯示任何內容?
- 11. 通過iText創建帶有0kb和無內容的.pdf文件
- 12. 使用xmlworker創建PDF時在新頁面中的內容
- 13. 從Excel的內容創建Word/PDF文件
- 14. itext基於現有的已改變內容創建pdf
- 15. 用數據庫中的內容創建PDF文件
- 16. 輸出PDF文件的內容,而無需創建文件
- 17. 防止用dompdf創建的pdf中複製內容
- 18. 創建內容塊?
- 19. 創建輸出的內容
- 20. 的JavaScript創建內容
- 21. Base64 PDF內容爲PDF
- 22. 發送Html內容到服務器創建PDF Angular 2
- 23. 如何從PDF創建可重排內容?
- 24. 如何在android中創建PDF並添加內容usnig iText庫...?
- 25. 使用TCPDF和特定div創建PDF作爲內容
- 26. 如何使用eclipse在pdf中創建波斯語內容
- 27. 通過將HTML內容傳遞給方法來創建PDF
- 28. iText5:創建PDF時,標題內容將出現兩次
- 29. 創建PDF應用程式內的iPad
- 30. JavaFX - IText - 創建PDF時創建PDF
對我來說,這仍然看起來像http://stackoverflow.com/questions/6822884/how-do-i-index-pdf-files-and-search-for-keywords的副本。它有什麼不同? – katrielalex