R语言教程 - 利用dplyr和tidyr进行数据再加工速查表

dbplyrdplyr包的函数转化为SQL语句去服务器获取数据;在数据量较大、计算较多时,可以将远程连接数据库中的表当作内存中的数据框使用,当本机内存不够大时,这样做的好处不言而喻。

至于为什么使用dbplyr而不是直接编写SQL,因为:

  • dbplyr写起来简洁高效,基本跟用dplyr没有差别
  • 能利用数据库所在服务器的算力,配合上并行计算,在处理大量数据时,大大加快速度。
  • 不同数据库的语法存在差异,当源数据存在不同数据库时,用R的dbplyr包清洗数据时能加快效率
  • 通过dplyr动词方便实现复杂的逻辑,当过程越多越复杂时dbplyr的优势越明显,不用一层层嵌套语句。

 

关注【科研收录】, 回复“dplyr”, 获取速查表pdf文件(英文版+中文翻译版)