CRAN上R包的十年增长史
当前位置:以往代写 > 其他教程 >CRAN上R包的十年增长史
2019-06-14

CRAN上R包的十年增长史

CRAN上R包的十年增长史

CRAN上R包的十年增长史在上周,由IBPAD举行的题为“寻找大数据与社会的接洽”研讨会在巴西利亚大学召开。Daniel Marcelino受邀出席,并先容了R包—SciencesPo。在研讨会上,Daniel Marcelino先容了R的生态系统,并叙述了CRAN上R包的汗青增长环境。在本文,我们不单可以相识到R包的一个增长汗青,并且通过给出的R代码我们可以进修到网页数据抓取、数据整理和数据可视化的一些常识。
在本文,作者通过抓取CRAN上R包的宣布日志数据,绘制了如下的图形。从图一来看,CRAN上的R包最早宣布在2005年,2005年至2012年期间增长很是迟钝,2012之后开始了快速增长,尤其是在2013之后增长很是迅速。从这里也可以看出,在2012年大数据开始发作之后,R作为数据阐明利器开始风行起来。图二和图三是颠末对数调动处理惩罚之后获得的图形。图三的小图展示了自2013年1月1日之后宣布在CRAN上的R包数量。红线代表的是预估增长率为5.6%/月的R包增长曲线。CRAN上R包的十年增长史图一CRAN上R包的十年增长史图二CRAN上R包的十年增长史图三
下面给出如上三幅图形的R代码:需要用到的R包library(ggplot2)library(grid)library(rvest)library(dplyr)library(zoo)library(SciencesPo)数据处理惩罚url <- “https://cran.r-project.org/web/packages/available_packages_by_date.html”
page <- read_html(url)page %>%html_node(“table”) %>%html_table() %>%mutate(count = rev(1:nrow(.))) %>%mutate(Date = as.Date(Date)) %>%mutate(Month = format(Date, format = “%Y-%m”)) %>%group_by(Month) %>%summarise(published = min(count)) %>%mutate(Date = as.Date(as.yearmon(Month))) -> pkgs
图一和图二gg <- ggplot(pkgs, aes(x = Date, y = published))gg <- gg + geom_line(size = 1.5)gg  #图一
gg <- gg + scale_y_log10( breaks = c(0, 10, 100, 1000, 10000),labels = c(“1”, “10”, “100”, “1.000”, “10.000”))gg <- gg + labs(x = “”, y = “# Packages (log)”, title = “Packages published on CRAN ever since”)gg <- gg + theme_538(base_size = 14, base_family = “Tahoma”)gg <- gg + theme(panel.grid.major.x = element_blank())gg <- gg + geom_hline(yintercept = 0,size = 1, colour = “#535353”)gg  #图二图三pkgs %>%  filter(Date > as.Date(“2012-12-31”)) %>%  mutate(publishedGrowth = c(tail(.$published,-1), NA) / published) %>%  mutate(counter = 1:nrow(.)) -> new_pkgs
gg2 <- ggplot(new_pkgs, aes(x = Date, y = published))gg2 <- gg2 + geom_line(size = 1)gg2 <- gg2 + geom_line(data = new_pkgs, aes(y = (min(published) * 1.056 ^ counter)),color = ‘red’,size = .7, linetype = 1)gg2 <- gg2 + annotate(“segment”, x = as.Date(“2014-08-01”), xend = as.Date(“2014-11-01”), y = 500, yend = 500, colour = “red”, size = 1)gg2 <- gg2 + annotate(“text”, x = as.Date(“2015-10-01”), y = 500, label = “5.6% growth estimation”, size = 3.5)gg2 <- gg2 + scale_y_continuous()gg2 <- gg2 + labs(y = “# Packages”, x = “”, title = “Packages published on CRAN since 2013”)gg2 <- gg2 + theme_538(legend = “top”, base_size = 11, base_family = “Tahoma”, colors = c(“gray97”,  “#D2D2D2”,  “#2b2b2b”, “#2b2b2b”))gg2 <- gg2 + theme(panel.grid.major.x = element_blank())gg2 <- gg2 + geom_hline(yintercept = 0, size = .6, colour = “#535353”)gg2
ggprint(gg2, vp=viewport(.775, .31, .43, .43))
接待插手本站果真乐趣群贸易智能与数据阐明群乐趣范畴包罗各类让数据发生代价的步伐,实际应用案例分享与接头,阐明东西,ETL东西,数据客栈,数据挖掘东西,报表系统等全方位常识QQ群:81035754

    关键字:

在线提交作业