R语言教程之九个步骤教你轻松成Master
当前位置:以往代写 > R语言教程 >R语言教程之九个步骤教你轻松成Master
2019-06-13

R语言教程之九个步骤教你轻松成Master

R语言教程之九个步骤教你轻松成Master

人们学习R语言时普遍存在缺乏系统学习方法的问题。学习者不知道从哪开始,如何进行,选择什么学习资源。虽然网络上有许多不错的免费学习资源,然而它们多过了头,反而会让人挑花了眼。


为了构建R语言学习方法,我们在Vidhya和DataCamp中选一组综合资源,帮您从头学习R语言。这套学习方法对于数据科学或R语言的初学者会很有用;如果读者是R语言的老用户,则会由本文了解这门语言的部分最新成果。


R语言学习方法会帮助您快速、高效学习R语言。


前言


在开始学习之前,第一个要回答的问题是:为什么要用R语言?或者R语言为何如此有用?


R语言是一门快速发展的开源软件,是SAS、STATA和SPSS这类商业软件的竞争对手。就业市场对R语言的需求正在迅速上升,微软等公司也同时承诺将致力让R语言成为数据科学通用语言。


看看由Revolution Analytics制作的90秒视频(https://www.youtube.com/watch?v=VlJnNSeO1uQ),您就知道R语言的用处。顺便说下,微软刚刚收购了Revolution Analytics。


步骤一:配置计算机环境


建立R语言学习环境最简单方法是通过综合R语言归档网络(CRAN)下载(https://cran.r-project.org/)到您的本地计算机上。可以选择Linux、Mac和Windows对应二进制文件下载。


您可能会考虑使用R语言自带的控制台,但我们建议您安装R语言集成开发环境(IDE)。RStudio(https://www.rstudio.com/)是最有名的IDE,它能让R语言编码更容易、更快,还能让您输入多行代码、处理图形、安装和维护程序,有效引导您的编程环境。RStudio此外可以选用基于eclipse的Architect(http://www.openanalytics.eu/architect)。如果需要安装图形用户界面GUI,请选择R-commander(http://www.rcommander.com/)或Deducer(http://www.deducer.org/pmwiki/index.php?n=Main.WindowsInstallation)


课后作业


  • 安装R和RStudio。

  • 安装Rcmdr、rattle和Deducer程序包。以及推荐或依赖的程序包,包括GUI。

  • 使用库命令加载安装程序,并打开GUI。


步骤二:R语言基础学习


您应该首先了解语言、库和数据结构基础知识。


如果您更倾向于在线交流方式学习R语法,DataCamp(https://www.datacamp.com/courses/free-introduction-to-r)提供的免费在线R教程是很好的资源。还可以选择后续课程:中级R编程(https://www.datacamp.com/courses/intermediate-r)。另一种学习方法是在线版本swirl(https://www.datacamp.com/swirl-r-tutorial),它能让您在类似RStudio环境中学习R语言。


在互动学习环境中,您可以选择参加Coursera(https://www.coursera.org/specializations/jhu-data-science)或Edx(https://www.edx.org/course/introduction-r-programming-microsoft-dat204x-0)上mooc课程。


除了上述在线资源,您还可以考虑以下优秀资源:


  • CRAN免费教学R语言(https://cran.r-project.org/doc/manuals/R-intro.pdf)

  • Jared Lander’s R for Everyone(http://www.jaredlander.com/r-for-everyone/)

  • Quick-R(http://statmethods.net/)

专门学习:阅读、数据帧、表、概述、描述、加载和安装包、使用绘图命令可视化数据。


课后作业


  • 使用DataCamp免费在线R教程,熟悉基本的R语法。


  • 创建Github(http://github.com/)账号。


  • 通过google帮助,解决安装过程中出现的问题。


  • 安装swirl包并学习R编程(见上文)


步骤三:了解R社

强大社区的存在是R语言发展迅速、大获成功的主要原因。社区中核心的是R语言的“包”生态系统。R语言程序包可以在CRAN、bioconductor、github和bitbucket中下载。在Rdocumentation(http://www.rdocumentation.org/)中,您可以轻松搜索来自CRAN、github和bioconductor中能满足您当前工作需要的程序包。与在R语言程序包生态系统同样重要的是,您可以在R endeavours上轻松获得帮助与反馈。首先,R内置帮助系统,您可以通过命令来访问。同时,在Analytics Vidhya Discussions,Stack OverflowR语言是增长最快语言。R-bloggers(http://www.r-bloggers.com/)汇集许多R语言爱好者写的博文。


课后作业:


  • 访问CranTask Views了解R语言生态系统。

  • http://r-bloggers.com上注册并订阅每日新闻。


步骤四:数据导入和操作


导入和操作数据是数据科学工作流程中重要步骤。R语言允许使用特定包导入不同数据格式,从而使您工作更轻松,如下:


  • readr:导入平面文件。

  • Readxl package:将excel文件转化为R语言。

  • haven package包:让您将SAS、STATA和SPSS数据文件导入R语言。

  • Databases:连接通过像RMySQL和RpostgreSQL包,使用DBI访问和操作。

  • rvest: 网页数据抓取。


一旦数据在工作环境中可用,您就可以使用下面程序包操作:


  • 整理数据的tidyr程序包。

  • stringr包处理字符串操作。

  • 对象数据帧,可以学习dplyr包输入和输出(https://www.datacamp.com/courses/dplyr-data-manipulation)

    • 关键字:

在线提交作业