R的内存打点和垃圾清理

写R措施的人，相信城市碰着过“cannot allocate vector of size”可能“无法分派巨细为…的矢量”这样的错误。原因很简朴，根基都是发生一个大矩阵等工具时产生的，最爽性的办理步伐有两种，第一种是加大内存换64位系统，第二种是改变算法制止如此大的工具。第一种步伐，是较好的步伐，不外大工具的需求是没有止尽的，终究不是持久之道。第二种步伐是较好的思路，无论何等大的工具都是可以弄小的，无非就是分而治之、时间换空间等，对算法的研究也是没有止尽的。

进级硬件和改造算法是办理内存问题的永恒的步伐，超出了本文想要表述的范畴。在这里，只是简朴谈谈R语言的内存打点和垃圾清理机制，只有对这些有所相识，才气对任何问题都能找到针对性的办理步伐。

相信所有人在碰着无法分派矢量这一问题后，都能很快地找到改变“–max-mem-size”（假设都是在Windows下）可能“memory.limit”的要领，简直，这是最直接的要领。因为呈现新工具无法分派内存的直接原因就是内存不足，R获取内存的方法和其他应用措施一样，都是向操纵系统要内存，假如无法获取持续的某个巨细的内存空间，就会呈现无法分派内存的错误。由于各人利用R时凡是都是自动安装自动运行，操纵系统愿意分派给R几多内存都是回收的默认配置，在R中利用呼吁memory.size(NA)可能memory.limit()可以看到当前配置下操纵系统能分派给R的较大内存是几多。同时可以利用memory.size(F)查察当前R已利用的内存，memory.size(T)查察已分派的内存（留意刚开始时已利用内存和已分派内存是同步增加的，可是跟着R中的垃圾被清理，已利用内存会淘汰，罢了分派给R的内存一般不会改变。）。假如memory.limit()获得的数是一个很小的内存，说明操纵系统太小气了，留那么多内存给此外措施用不给R。办理步伐很简朴，就是打开R时不通过双击图标，而是在“运行”中输入“Rgui –max-mem-size 2Gb”（假设要分派2G内存且在情况变量中正确配置了R的安装文件夹），在运行memory.limit()就会发明内存加大了，其实更简朴的要领是直接在R中运行memory.limit(2000)，结果一模一样，并且不消重启R。

惋惜大大都环境下改变这个值也不会有结果，因为这个值已经足够大，那么无法分派内存的原因不是操纵系统小气对R不公，而是它确实拿不出来，谁找它要也拿不出来。这个时候就需要相识R的内存打点到底是怎么回事了。

R的操纵根基都是通过变量来实现的，变量可以是各类百般的工具范例，R中的工具（好比矩阵）在内存中存于两种差异的处所，一种是堆内存（heap），其根基单位是“Vcells”，每个巨细为8字节，新来一个工具就会申请一块空间，把值全部存在这里，和C内里的堆内存很像。第二种是地点对（cons cells），和LISP里的cons cells原理一样，主要用来存储地点信息，最小单位一般在32位系统中是28字节、64位系统中是56字节。在R中，可以通过ls()来查察当前所有工具名，对付每一个工具，可以通过object.size(x)来查察其占用内存的巨细。

假如是因为当前工具占用内存过多，那么可以通过处理惩罚工具来获取更大的可用内存。一个很有用的要领是改变工具的存储模式，通过storage.mode（x）可以看到某个工具的存储模式，好比某个矩阵默认就是“double”的，假如这个矩阵的数值都是整数甚至0-1，完全没须要利用double来占用空间，可以利用storage.mode(x） <- “integer”将其改为整数型，可以看到该工具的巨细会变为本来的一半。

对付当前工具占用内存过多的环境，一个很主要的原因就是在写措施的进程中造成了太多的中间工具，R是一个很利便的语言，各人利用它一般都是写各类巨大的模子和算法，许多问题结构几个矩阵颠末一系列的矩阵运算就可以很快办理，可是这些帮助算法的大矩阵假如不清理，就会留在系统中占内存。因此在写措施中对付中间工具，常常利用rm(x)是一个很好的习惯，假如长短常重要的信息不想删掉，可以存在硬盘里，好比csv文件可能RSQLite等。

rm()用来删除工具时，只会删除变量的引用，并不会当即排除占用的内存空间，失去引用的工具就成了内存中的垃圾，R清理垃圾的机制和Java很像，都是在一按时间内自动发明垃圾再会合清理。所以通过rm()删除工具后在Windows的任务打点器可以看到R历程占用的内存并没有被当即释放，而是过一段时间后才会清理。假如想要删除的工具立即被清理，可以运行垃圾处理惩罚函数gc()，将会立即释放空间。可是凡是不是很须要，因为当内存不足时系统会自动清理垃圾的，我们要做的只是将不再利用的工具rm()掉，在写R措施时应该养成习惯。

许多时候，在措施中尤其是轮回里，假如内存处理惩罚不妥，还没来得及垃圾清理，就会把内存撑爆，因此新建工具时必然要思量到R的内存打点机制。各人都知道R中矩阵的维度并不需要赋一个牢靠的值（许多语言的数组长度不能为变量），这为写措施带来了极大的利便，因此常常在轮回中会呈现某个矩阵越来越长的环境，实际上，矩阵每增长一次，纵然赋给同名的变量，都需要新开发一块更大的空间，假设初始矩阵为100K，第二个为101K，一直增到120K，那么，将会别分开发100K、101K一直到120K的持续堆内存，假如一开始就开一块120K的，使之从101K逐渐增长到120K，将会大大地节省内存。cbind函数也是这个原理，所以在轮回中要留意不要滥用。

要处理惩罚好内存的问题其实很简朴，养成随时存眷内存的习惯即可，每新建一个工具可能轮回赋值的时候适当估算一下所占内存，大内存的中间变量用完跋文得清理。假如实在需要新建一个庞大的工具，那么就该思量一些专门处理惩罚大内存工具以及并行处理惩罚的包，好比bigmemory等。

转http://www.lijian001.com/r/blog_comment.asp?article_id=214

当前位置：以往代写 > 其他教程 >R的内存打点和垃圾清理