R语言处理大规模数据集的编程要点

OGeek|极客世界-中国程序员成长平台 › 门户 › 编程› R语言›R语言教程

原作者: [db:作者] 来自: [db:来源] 收藏邀请

1.提高程序效率，保证执行速度

(1)尽量使用向量化运算

(2)尽量使用矩阵，必要时才使用数据框

(3)使用read.table时，尽量显式设定colClasses和nrows，设定comment.char=""，把不需要的列设置为NULL

(4)将外部数据导入矩阵时，使用scan函数

(5)删除临时对象和不再用的对象

(6)用ls.objects()列出工作区对象占用的内存大小

2.把数据存在外部

(1)ff包：将数据保存在硬盘，操作起来跟在内存中一样

(2)bigmemory包：支持大规模矩阵的创建

(3)filehash：keyvalue数据库，value在硬盘中

(4)ncdf,ncdf4：读取cndf格式

(5)RODBC,RMySQL,ROracle,RPostgreSQL,RSQLite

3.使用大规模数据专门的统计方法包

(1)biglm和speedglm包可以针对大数据集有效地拟合线性和广义线性模型

(2)biganalytics提供了k-means,column statistics和一个对biglm的封装

(3)bigtabulate提供了table,split和tapply

(4)bigalgebra提供了高等线性代数函数

(5)biglars提供了最小角回归，lasso回归以及针对大数据集的逐步回归

(6)brobdingnag包处理大数字

4.大型文本文档常用包

(1)fread：data.table包，大型文本文档读放

(2)read.table.ffdf,read.csv.ffdf：ff包

(3)read.big.matrix：bigmemory，无法在windows下

(4)read.csv.sql：sqldf包

(5)read.table

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

R语言-连接MySQL数据库方法发布时间：2022-07-18

R语言-merge和rbind发布时间：2022-07-18

139-2527-9053

在线客服（服务时间 9:00～18:00）

在线QQ客服

地址：深圳市南山区西丽大学城创智工业园

电邮：jeky_zhao#qq.com

移动电话：139-2527-9053

客服电话

电子邮件

R语言处理大规模数据集的编程要点

请发表评论

全部评论

上一篇：

下一篇：

关于我们

产品与服务

解决方案

139-2527-9053