尋求引用解析器

我需要一個解析器，它將掃描學術文本，提取引文，並將這些引文解析爲其組成部分（作者，標題，出版日期等）。尋求引用解析器

我已經嘗試過Paracite，但它非常慢，並且不會產生高質量的結果。

任何語言都可以，但首選Java。

2011-09-16 Mike Sokolov

http://stackoverflow.com/q/27843568/2446942 –

搜索庫在ParsCit看看：

這是ParsCit項目，該項目執行兩個任務的主頁：1）引用字符串解析，有時也稱爲引用解析或引用提取，以及2）邏輯結構解析爲科學文檔。它被構建爲一個監督機器學習過程，使用條件隨機場作爲其學習機制。您可以下載下面的代碼，在線解析字符串，或者將批處理作業發送到我們的Web服務。該代碼包含培訓數據，功能生成器和shell腳本，用於將系統連接到Web服務（用於此Web站點）。

來源

2011-09-16 11:53:20 NPE

謝謝，該鏈接還會導致同一個域中的其他一些有趣的項目。我會檢查出來的！ –

你可以嘗試尋找到一個索引/像Lucene

來源

2011-09-16 11:38:55 mcfinnigan

謝謝我熟悉Lucene，但它並沒有真正解決這個問題。 –

的項目清單是在這裏： https://forums.zotero.org/discussion/1211/

Cb2bib使用正則表達式http://www.molspaces.com/cb2bib/

Citeseer採用作者姓名和頭銜的大名單。你可以看看自己的發佈列表

這裏是一個項目，但在python： https://code.google.com/p/pdfssa4met/

也看到這些計算器的問題： * Extracting information from PDFs of research papers

來源

2013-10-05 15:48:09 Max

謝謝，最大。我們最終編寫了我們自己的基於HMM的統計識別器。我認爲正則表達式方法太脆弱了。現在的困難是獲得好的標記訓練數據。我懷疑Citeseer的名單可能會有所幫助。 –

最近，我們遇到了類似的問題，最後寫我們自己的解析器基於ParsCit，但使用Wapiti而不是CRF ++作爲條件隨機場模型。就像Mike在上面提到的那樣，基於ML的解析器的問題是獲得良好的標記訓練數據;爲此，我們編寫了一個可視化編輯器，讓您可以標記結果（並將它們保存爲訓練數據）。這種方法在解析參考書目方面效果很好。

如果有人有興趣，我們已經在這裏提供解析器和編輯器在這裏anystyle.io。

來源

2014-05-20 10:12:41 inukshuk

與任何風格的好工作！ – Yauza

你也可以試試這個小工具，用於分析的學術引用到字段：

http://citationparser.com

Citationparser.com仍然是測試階段，但2017年的版本是工作很好，特別是期刊文章的同時也爲專着和書籍章節。

名單並不一定是一種風格，但也可以是不同的官方或非官方的風格

你可以通過引用行走，檢查全文，也可以作爲尾註文件導出（的混合物。 ENL）。我開發的這個工具只適用於數百種標題的較小列表。如果您粘貼超過1000個標題的列表，它將運行得更慢。

來源

2017-01-16 12:43:07 Erik

尋求引用解析器

回答

相關問題