2011-09-16 60 views
4

我需要一個解析器,它將掃描學術文本,提取引文,並將這些引文解析爲其組成部分(作者,標題,出版日期等)。尋求引用解析器

我已經嘗試過Paracite,但它非常慢,並且不會產生高質量的結果。

任何語言都可以,但首選Java。

+0

http://stackoverflow.com/q/27843568/2446942 –

回答

3

搜索庫在ParsCit看看:

這是ParsCit項目,該項目執行兩個 任務的主頁:1)引用字符串解析,有時也稱爲引用 解析或引用提取,以及2)邏輯結構解析爲 科學文檔。它被構建爲一個監督機器 學習過程,使用條件隨機場作爲其學習 機制。您可以下載下面的代碼,在線解析字符串,或者將批處理作業發送到我們的Web服務。該代碼包含 培訓數據,功能生成器和shell腳本,用於將 系統連接到Web服務(用於此Web站點)。

+0

謝謝,該鏈接還會導致同一個域中的其他一些有趣的項目。我會檢查出來的! –

0

你可以嘗試尋找到一個索引/像Lucene

+1

謝謝我熟悉Lucene,但它並沒有真正解決這個問題。 –

1

的項目清單是在這裏: https://forums.zotero.org/discussion/1211/

Cb2bib使用正則表達式http://www.molspaces.com/cb2bib/

Citeseer採用作者姓名和頭銜的大名單。你可以看看自己的發佈列表

這裏是一個項目,但在python: https://code.google.com/p/pdfssa4met/

也看到這些計算器的問題: * Extracting information from PDFs of research papers

+1

謝謝,最大。我們最終編寫了我們自己的基於HMM的統計識別器。我認爲正則表達式方法太脆弱了。現在的困難是獲得好的標記訓練數據。我懷疑Citeseer的名單可能會有所幫助。 –

2

最近,我們遇到了類似的問題,最後寫我們自己的解析器基於ParsCit,但使用Wapiti而不是CRF ++作爲條件隨機場模型。就像Mike在上面提到的那樣,基於ML的解析器的問題是獲得良好的標記訓練數據;爲此,我們編寫了一個可視化編輯器,讓您可以標記結果(並將它們保存爲訓練數據)。這種方法在解析參考書目方面效果很好。

如果有人有興趣,我們已經在這裏提供解析器和編輯器在這裏anystyle.io

+0

與任何風格的好工作! – Yauza

1

你也可以試試這個小工具,用於分析的學術引用到字段:

http://citationparser.com

Citationparser.com仍然是測試階段,但2017年的版本是工作很好,特別是期刊文章的同時也爲專着和書籍章節。

名單並不一定是一種風格,但也可以是不同的官方或非官方的風格

你可以通過引用行走,檢查全文,也可以作爲尾註文件導出(的混合物。 ENL)。我開發的這個工具只適用於數百種標題的較小列表。如果您粘貼超過1000個標題的列表,它將運行得更慢。