0
我有數據幀的有40802個基因名稱的列表,我有14000條信息的數據幀。文章信息包含文章,摘要,日,月,年。計數頻率和創建情節
我已經改變了日期爲正常格式,抽象的人物。
我想有X在時間上的情節,基因名字的頻率出現在抽象的。 EG
| Date | Gene Name | Frequency |
|------------|-----------|-----------|
| 2017-03-20 | GAPDH | 5 |
| 2017-03-21 | AKT | 6 |
基本上,我想知道最經常刊登在過去100天內的基因名稱,並有一個時間表,看看說genenames的演變。像趨勢一樣。
library(RISmed)
##Research the query - can be anything relevant to protein expression.
##Multiple research not tested yet
search_topic <- 'protein expression'
##Evaluate the query with reldate = days before today, retmax = maximun number of returned results
search_query <- EUtilsSummary(search_topic, retmax=15000, reldate = 100)
##explore the outcome
summary(search_query)
##get the ids for tall the queries to get the articles
QueryId(search_query)
##get all the records associated with the ID - THIS TAKES LOOONG TIME
records<- EUtilsGet(search_query)
##Analyze the structure
str(records)
summary(records)
##Create a data frame with article/abstract/date
pubmed_data <- data.frame('Title'=ArticleTitle(records),'Abstract'=AbstractText(records),
"Day"=DayPubmed(records), "Month" = MonthPubmed(records), "Year"=YearPubmed(records))
##explore the data
head(pubmed_data,1)
##gene names
genename <- read.csv("genename.csv", header = T, stringsAsFactors = F)
##remove any NA tittles
pubmed <-pubmed_data[-which(is.na(pubmed_data$Title)), ]
##Coerce the date to YYYY-MM-DD
pubmed$Date <- as.Date(paste(pubmed$Day , pubmed$Month , sep = ".") , format = "%d.%m")
我讀了很多,無法弄清楚如何找到genemane [1,1]內pubmed$Abstract
, 和時間計數就出現的時間。 製作的情節,其中X是過去100天,行PROT將是genenames, 的頻率和傳說將是genename。所以可以觀察到一種趨勢。
我會很感激的任何想法如何可以做到這一點。
我試過tm
,並嘗試了很多不同的東西,但仍然碰壁。我的觀念錯了嗎?