为什么要使用R进行统计计算和图形?
-
R是开源的,免费的!
R可以免费下载,因为它是根据GNU通用公共许可条款获得许可的。您可以查看源代码以了解底层发生了什么。还有更多的R包可以在相同的许可下使用,因此即使在商业应用中也可以使用它们,而无需致电您的律师。 -
R很受欢迎 – 并且越来越受欢迎
IEEE每年都会发布最受欢迎的编程语言列表。R在2016年排名第5,高于2015年的第6位。对像R这样的领域特定语言而言,它比C#等通用语言更受欢迎,这是一个大问题。这不仅表明R作为一种编程语言,还包括数据科学和机器学习领域,其中R是常用的。 -
R在所有平台上运行
您可以在所有流行平台(Windows,Linux和Mac)上找到R的发行版。您在一个平台上编写的R代码可以轻松移植到另一个平台上,而不会出现任何问题。跨平台互操作性是当今计算领域的一个重要特性 – 即使微软意识到在所有系统上运行的技术的优势,它也可以在所有平台上使用它的co .NET .NET平台。
-
学习R将增加你找工作的机会
根据O'Reilly Media在2014年进行的数据科学薪酬调查,数据科学家在全球获得的中位数为98,000美元。这个数字在美国更高 – 约为144,000美元。当然,知道如何编写R程序并不会马上让你找到工作,数据科学家必须花费大量工具才能完成工作。即使您正在申请软件开发人员职位,R编程经验也可以让您脱颖而出。 -
R被最大的科技巨头使用技术巨头的
收购始终是编程语言潜力的标志。今天的公司不会随心所欲做出决定。每一个重大决策都必须得到具体的数据分析的支持。
使用R
R的公司是简单和权力的完美结合,世界各地的公司都使用它来做出计划决策。以下是行业中的一些人使用R并为R生态系统做出贡献的方式。
公司 | 应用/贡献 |
---|---|
推特 | 监控用户体验 |
涉 | 分析社交媒体以支持他们汽车的设计决策 |
纽约时报 | 信息图表,数据新闻 |
微软 | 在2015年收购Revolution Analytics后发布了Microsoft R Open,一个增强的R发行版和Microsoft R服务器 |
人权数据分析小组 | 衡量战争的影响 |
谷歌 | 为Google内部的R用户社区创建R风格指南 |
在使用R的时候,你可以放心,你站在巨人的肩膀上。
R编程是一种简单易学的语言吗?
这是一个难以回答的问题。许多研究人员将R作为第一语言来解决他们的数据分析需求。
这是R编程的强大功能,它足够简单,随时随地学习。所有你需要的是数据和明确的意图,根据对这些数据的分析得出结论。
事实上,R建立在S语言编程的基础之上,最初的目的是作为一种编程语言,帮助学生在学习编程时使用数据。
然而,来自Python,PHP或Java背景的程序员起初可能会觉得R古怪而令人困惑。R使用的语法与其他常用编程语言有点不同。
尽管R具有编程语言的所有功能,但如果在R语言中编写代码时遇到条件或循环,则不会发现自己写了很多东西。还有其他编程结构,如向量,列表,框架,数据表,矩阵等,它们允许您对批量数据执行转换。
R编程在现实世界中的应用
-
数据科学
哈佛商业评论指定数据科学家为“21世纪最性感的工作”。Glassdoor将其命名为2016年度“年度最佳工作”。随着物联网设备的出现创建了可用于做出更好决策的TB级和TB级数据,数据科学是一个没有其他方式可行的领域。简单地说,数据科学家是一名统计学家,拥有额外的资源:计算机编程技能。像R这样的编程语言为数据科学家提供了超级大国,使他们能够实时收集数据,执行统计和预测分析,创建可视化并向利益相关方传达可操作的结果。大多数数据科学课程在其课程中都包含R,因为它是数据科学家最喜欢的工具。
-
统计计算
R是统计学家中最流行的编程语言。事实上,它最初是由统计人员为统计人员编制的。它有一个丰富的软件包仓库,包含超过9100个软件包,并具有您可以想象的每项统计功能.R的表达式语法允许研究人员(甚至来自非计算机科学背景的人员)快速导入,清理和分析来自各种数据源的数据。
R还具有制图功能,这意味着您可以绘制数据并根据任何数据集创建有趣的可视化效果。 -
机器学习
R在预测分析和机器学习中发现了很多用途。它具有多种常见ML任务,如线性和非线性回归,决策树,线性和非线性分类等等。每个机器学习爱好者和研究人员都使用R来实现机器学习算法,如金融,遗传学研究,零售,市场营销和医疗保健。
R编程的替代方案
R不是您可用于统计计算和图形的唯一语言。R编程的一些流行替代方法是:
Python – 流行的通用语言
Python是一种非常强大的高级面向对象编程语言,它具有简单易用的语法。
Python在数据科学家和研究人员中非常流行。R中的大部分软件包在Python中也有相同的库。
虽然R是统计学家和数学家的首选,但专业程序员更喜欢使用他们已知的编程语言来实现新算法。
R与Python之间的选择也取决于你用代码完成的任务。如果您试图分析数据集并在研究论文中提供研究结果,那么R可能是更好的选择。但是,如果您正在编写一个在分布式系统中运行的数据分析程序,并与许多其他组件进行交互,那么最好使用Python。
SAS(统计分析系统)
SAS是一款功能强大的软件,长期以来一直是私营企业分析需求的首选。它的图形用户界面和全面的文档,加上可靠的技术支持,使它成为公司非常好的工具。
虽然R是学术界和研究界无可争议的冠军,但SAS在商业分析领域非常受欢迎。但是R和Python在企业领域正在获得发展势头,并且公司也在试图转向开源技术。时间会告诉SAS是否会继续其统治地位,否则R / Python将接管。
SPSS – 用于统计分析的软件包
SPSS是另一种流行的统计工具。它最常用于社会科学,被认为是企业统计工具中最容易学习的。
SPSS被非统计学家所喜爱,因为它与Excel相似,所以那些已经熟悉它的人会发现SPSS非常易于使用。
SPSS与SAS有相同的缺点 – 价格昂贵。SPSS于2009年被IBM收购,报价为12亿美元。
在计算机上运行R编程
您将在本节中找到在您的系统(Windows,Mac OS X或Linux)上运行R编程的最简单方法。
在Mac中运行R编程
-
去R编程的官方网站
-
点击左侧边栏上的CRAN链接
-
选择一个镜像
-
点击“下载R(Mac)OS X”
-
下载最新的pkg二进制文件
-
运行该文件并按照说明中的步骤安装R.
在Linux中运行R编程
在Ubuntu上
Ubuntu附带的高级打包工具(APT)使用一个名为sources.list的文件来决定在哪里搜索软件包。
在我们安装R之前,我们需要告诉Ubuntu查看CRAN R存储库,并添加一个用于安全下载的公钥。
-
在文本编辑器中打开sources.list文件(通常位于/etc/apt/sources.list),并在末尾添加以下行
deb https:// <my.favorite.cran.mirror> / bin / linux / ubuntu <distribution> /
例如,如果你正在运行Ubuntu trusty并且想要使用RStudio CRAN镜像,那么该行应该是
deb https://cran.rstudio.com/bin/linux/ubuntu trusty /
如果您像所有优秀的程序员一样懒惰,您可以直接从终端执行此操作,而无需打开文本编辑器
sudo sh -c'echo'deb http://cran.rstudio.com/bin/linux/ubuntu trusty /“>> /etc/apt/sources.list'
-
在CRAN上验证Ubuntu软件包
存储在CRAN镜像上的Ubuntu软件包均使用ID为E084DAB9的密钥进行签名
我们使用此ID从Ubuntu密钥服务器下载公钥并使用命令将其添加到我们的系统中sudo apt-key adv --keyserver keyserver.ubuntu.com --recv-keys E084DAB9
-
更新可用软件包的列表
由于我们修改了sources.list,因此我们需要告诉APT通过运行该命令来下载CRAN服务器中可用的软件包。sudo apt-get update
-
下载并安装R
几乎完成。只需通过运行以下命令下载并安装R软件包:sudo apt-get -y安装r-base
-
打开R控制台并发出以下命令。
$ R
如果在安装过程中没有问题。R控制台应该成功打开有关R安装的信息。
基于RedHat的分发
这个过程与CentOS等基于Redhat的Linux发行版相似。您可以使用以下命令直接添加EPEL(Enterprise Linux附加软件包)的存储库,而不修改像sources.list这样的文件。
su -c'rpm -Uvh http://download.fedoraproject.org/pub/epel/6/i386/epel-release-6-8.noarch.rpm'
你可以找到你的系统的正确RPM文件的URL 在这里。
现在只需更新可用软件包列表并安装R.
sudo yum更新 sudo yum install R
Fedora的
在Fedora上安装R是一块蛋糕。Fedora存储库安装了最新版本的R二进制文件。
只需运行以下命令:
sudo yum更新 sudo yum install R
在Windows中运行R编程
-
去R编程的官方网站
-
点击左侧边栏上的CRAN链接
-
选择一个镜像
-
点击“下载R for Windows”
-
点击下载基础发行版的链接
-
运行该文件并按照说明中的步骤安装R.
我应该安装32位版本还是64位版本?
大多数人不需要担心这一点。显然,R的64位版本无法在32位机器上运行,但R的32位和64位版本都可以在64位Windows上无缝运行。
如果你的生产环境是32位的,你可能需要考虑安装32位版本的R,因为有些软件包可能有兼容性问题,并可能导致“但它在我的机器上运行”失败。
安装RStudio
RStudio是用于运行R程序的最流行IDE,并且拥有免费许可证。
安装过程非常简单。下载RStudio(Windows,Linux和Mac OS X),运行该文件并按照说明进行安装。
注意:在运行RStudio之前,应将R安装在系统上。
安装RStudio并首次打开它后,它会要求您选择要使用的R版本。
如果RStudio检测到系统中尚未安装R,则会显示警告。
如果已安装R,您将看到R Studio界面。在开始时,您只能看到R控制台,您可以在R中编写一行语句并执行它们。
但是,即使对于微不足道的工作,您也需要执行一系列步骤,最好创建一个R脚本。
转到文件>新建文件> R脚本,如下面的截图所示,以创建一个新的R脚本。
您现在可以看到R脚本编辑器,您可以在其中键入和保存跨越多行的R程序。RStudio不仅仅是一个文本编辑器,而是一个可以帮助您轻松运行和调试R脚本的IDE。
R Studio GUI分为4个主要部分,如下面的屏幕截图所示: