R语言内置函数讲解数据分析中非常实用的函数介绍

来源：天极下载时间：2021-07-20 13:03:12 作者： MM

导语：前两期小编给大家介绍了R语言和Rstudio的安装，以及一个非常有用的R包dplyr(R语言学习笔记(二))。此外，作为R语言的初学者也应该掌握一些基本函数，所以本期给大家介绍一些R中非常实用的内置函数，希望对大家有所帮助。

01内置数据集

R语言中有很多内置的数据集，这些数据集存储在datasets这个包中，包含了R中所有的数据类型。R会默认已经加载了这个包。我们可以用data()命令查看R中所有内置的数据集，左边是数据集的名称，右边是数据集的描述。

> data()Data sets in package ‘datasets’:AirPassengers Monthly Airline Passenger Numbers 1949-1960BJsales Sales Data with Leading IndicatorBJsales.lead (BJsales) Sales Data with Leading IndicatorBOD Biochemical Oxygen Demand

这里介绍几个十分常用的数据集，mtcars收集了美国32种汽车的11个指标，经常用于ggplot2作图的示例数据;iris是一个非常有名的数据集，收集了3种鸢尾花花瓣和花萼的长宽信息，是数据挖掘中常用的示例文件;state.x77收集了美国50个州的基本信息，是画热图的示例文件。

02内置函数

R中有很多实用的内置函数，这里不做系统的介绍，仅列举一些在数据分析中非常实用的函数。

(1)关于NA

对于一组数据来说，如果出现了缺失值，在R中是不能直接进行统计分析的，好在R中有专门针对缺失值的几个函数，下面举例说明。

> x <- c(1, 2, 3, 4, 4, NA)> mean(x)[1] NA

向量x中有NA值，看到直接对向量x求平均值结果是不对的，有两种方法可以解决。

> mean(x, na.rm = T)[1] 2.8> mean(na.omit(x))[1] 2.8

第一种是在mean函数中添加na.rm = T参数，也就是计算时先将NA值移除;第二种是先用na.omit()函数移除掉x中的NA值，再计算平均值。

(2)两个向量的关系

数据分析中经常需要找不同组之间的关系，这里有几个常用的函数。

交集(intersect)

> x1 <- c(1:5)> x2 <- c(3:7)> intersect(x1, x2)[1] 3 4 5

并集(union)

> union(x1, x2)[1] 1 2 3 4 5 6 7

匹配(match)：返回向量1的元素在向量2中的位置

> match(x1, x2)[1] NA NA 1 2 3

表示x1的5个元素在x2中的位置分别为NA、NA、1、2、3。这个函数的意义在于生成一个索引向量，在数据框的筛选中会非常实用。

(3)基本统计函数

关于基本的统计函数如平均值、标准差等这里不做系统介绍，这里说几个统计函数的特殊用法。

(a)生成随机数

通常用runif(n, min, max)函数，这个函数生成均匀分布的值，n为个数，min和max分别是最小值和最大值，默认参数为0和1。

> runif(5, 1, 10)[1] 7.236265 7.278368 2.847278 9.544132 6.884813> runif(5)[1] 0.6437805 0.2144422 0.4272817 0.6258470 0.6981409

(b)生成随机整数

一个最简单的办法是round()和runif()函数连用，其中round()是按照四舍五入取整函数。如果要向上或者向下取整，可以使用ceiling()和floor()函数。

> round(0.5)[1] 0> round(1.2)[1] 1> round(runif(10)) #生成随机的0,1向量 [1] 0 0 0 1 1 1 1 1 0 0> round(runif(10, 0, 2)) #生成随机的0,1,2向量 [1] 0 1 0 1 2 0 2 0 2 1> ceiling(runif(10, -2, 1)) #生成随机的-1,0,1向量 [1] 0 -1 1 -1 0 -1 0 -1 1 0> floor(runif(10, -1, 2)) [1] 1 0 1 1 -1 1 -1 -1 1 -1

后面几种生成随机向量的方式非常实用，原理就是先用runif()函数生成随机数，然后再用round()函数取整数。基因型数据经常用0,1,2或者-1,0,1表示，我们可以用这种方式模拟基因型数据。

(c)正态分布

用的最多的是rnorm(n, mean, sd)函数，生成n个符合某个正态分布的随机数。用法比较简单，默认的平均值是0，方差是1。

> rnorm(5)[1] -1.7916223 1.7582387 0.2924384 0.3130404 -0.5076251> rnorm(5, 3, 1)[1] 1.968562 4.885262 4.634220 3.017137 3.990052

(4) 其他函数

R中还有不少常用的函数，这里仅列举三个。

(a)summary函数

这个函数是一个比较“万金油”的函数，可以单独对向量或者矩阵使用，会给出一些基本的统计量，包括极值、中位数、平均数等等。

> summary(1:10) Min. 1st Qu. Median Mean 3rd Qu. Max. 1.00 3.25 5.50 5.50 7.75 10.00> summary(matrix(10:15, nrow = 2)) V1 V2 V3 Min. :10.00 Min. :12.00 Min. :14.00 1st Qu.:10.25 1st Qu.:12.25 1st Qu.:14.25 Median :10.50 Median :12.50 Median :14.50 Mean :10.50 Mean :12.50 Mean :14.50 3rd Qu.:10.75 3rd Qu.:12.75 3rd Qu.:14.75 Max. :11.00 Max. :13.00 Max. :15.00

在一些统计分析中也经常使用summary()函数，比如下面的线性回归：

> x <- c(2, 2, 3, 4, 4)> y <- c(10, 20, 30, 40, 50)> fm <- lm(y ~ x)> summary((fm))

Call:

lm(formula = y ~ x)

Residuals:

1 2 3 4 5 -5.000e+00 5.000e+00 -1.776e-15 -5.000e+00 5.000e+00 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -15.000 9.037 -1.660 0.1955 x 15.000 2.887 5.196 0.0138 *---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Residual standard error: 5.774 on 3 degrees of freedomMultiple R-squared: 0.9, Adjusted R-squared: 0.8667 F-statistic: 27 on 1 and 3 DF, p-value: 0.01385

可以看到summary()函数给出了很多统计量，包括残差、截距、显著性等等。

(b)table函数

这个函数看起来不起眼，但很实用，给出一个频率分布表，还是举例说明。

> a <- c(rep(NA, 3), rep(1:3, 2))> a[1] NA NA NA 1 2 3 1 2 3> table(a)a1 2 3 2 2 2

上面给出了向量a的频率分布，但没有包含NA，如果要统计NA的数目，则需要添加参数exclude = NULL。

> table(a, exclude = NULL)a 1 2 3 2 2 2 3

需要注意的是生成的频率分布也是一张表，如果需要对这个表进行操作，最好转化成数据框。

> x <- table(a, exclude = NULL) > class(x)[1] "table"> x <- as.data.frame(x) #将x转换成数据框> class(x)[1] "data.frame"

(c)apply/sapply/tapply/mapply

这是一个函数家族，其实就是为了代替for循环，简化代码，这里只介绍apply和tapply。

apply(x, margin, fun, ...)有3个主要的参数，x通常为数据框，margin参数为1或2， 1表示按行，2表示按列，fun为调用函数。比如按列统计mtcars数据集的平均数。

> apply(mtcars, 2, mean) mpg cyl disp hp drat wt qsec 20.090625 6.187500 230.721875 146.687500 3.596563 3.217250 17.848750 vs am gear carb 0.437500 0.406250 3.687500 2.812500

tapply(x, index, fun, ...)通过index对数据集x进行分组运算，相当于上一期dplyr包中的group_by操作。如我们需要统计iris数据集中不同品种鸢尾花的平均花萼长度。

> head(iris) Sepal.Length Sepal.Width Petal.Length Petal.Width Species1 5.1 3.5 1.4 0.2 setosa2 4.9 3.0 1.4 0.2 setosa3 4.7 3.2 1.3 0.2 setosa4 4.6 3.1 1.5 0.2 setosa5 5.0 3.6 1.4 0.2 setosa6 5.4 3.9 1.7 0.4 setosa> tapply(iris$Sepal.Length, iris$Species, mean) setosa versicolor virginica 5.006 5.936 6.588

如果用dplyr则是：

> iris %>% group_by(Species) %>% summarise(mean = mean(Sepal.Length))

3 自编函数

R中虽然有很多内置函数，但具体分析时有时候需要用户自己编写函数。自编函数中有两个非常重要的思想，循环和递归。关于循环相信接触R的人都十分了解，这里只列举两个递归函数的例子。

(1)斐波那契数列

斐波那契数列本身就是用递归定义的F(n) = F(n-1) + F(n-2)，因此非常适合用递归函数实现。

> fib <- function(n){ #定义函数 if(n==1 | n==2){ return(1) } else{ return(fib(n-1)+fib(n-2)) } } > fib(7) #函数调用 [1] 13

(2)求最大公约数

gcd <- function(a,b) { if (b == 0) return(a) else return(gcd(b, a %% b)) } > gcd(15, 12) [1] 3

可见，递归是一种比较高级的编程思想，灵活运用能够极大的化繁为简。

结语：以上就是小编认为R中比较实用的一些内置函数，能力有限总结的肯定不够完全，欢迎大家和小编一起交流R语言学习心得。

相关推荐

腾讯音乐旗下有哪些音乐软件_腾讯音乐娱乐介绍

腾讯音乐娱乐集团(TME)旗下涵盖多款音乐类软件及服务，核心软件包括QQ音乐、酷狗音乐、酷我音乐、全民K歌四大主流应用，以及酷狗直播、懒人听书、5sing等衍生…

更新时间：2025-06-12 | 作者：zmj | 已阅读：21次
金舟打字通VS金山打字通：多维度专业对比解析

金舟打字通VS金山打字通打字模式对比；金舟打字通VS金山打字通优势对比；金舟打字通和金山打字通软件对比分析。

更新时间：2025-04-03 | 作者：DQ | 已阅读：85次 | 标签：金山打字通
突发！BOSS直聘又崩了？这些应急策略助你求职不 “断档”

利用其他招聘平台：1.注册并使用其他主流招聘平台：市面上有许多优秀的招聘平台可供选择，如智联招聘、前程无忧、脉脉等。可以在本站搜索查询招聘软件哦。2.挖掘小众招…

更新时间：2025-03-19 | 作者：软件分析员 | 已阅读：87次
于和伟新剧《我是刑警》在哪在线看_《我是刑警》剧情解析

于和伟新剧《我是刑警》是由爱奇艺独播的一部电视剧。爱奇艺作为中国领先的视频平台之一，将为观众提供这部剧的全网观看通道。如果你是刑侦剧的爱好者，或者喜欢看紧张刺激…

更新时间：2024-11-28 | 作者：ZJL | 已阅读：688次 | 标签：爱奇艺视频
《柳舟记》在什么地方能一次性看完全集_是不是会员才能下载

柳舟记电视剧在腾讯视频平台能一次性看完全集，目前该剧已经更新至第10集，VIP会员可以观看至第9集，SVIP会员可以观看至第10集，非VIP会员可以免费观看与下…

更新时间：2024-08-16 | 作者：rw | 已阅读：202次 | 标签：视频播放器腾讯软件
《九部的检察官》在哪个平台能一口气看完_免费还是付费收看

九部的检察官电视剧目前在爱奇艺这个平台能一口气看完全集，目前该剧已经更新至第6集，VIP会员用户可以观看至第6集，非VIP会员不付钱可以观看缓存至第3集，因为目…

更新时间：2024-08-16 | 作者：rw | 已阅读：310次 | 标签：视频播放器视频软件
《四海重明》完整版在线观看平台_是不是会员才能看

四海重明电视剧完整版不付费的观看平台是爱奇艺和芒果TV，这部剧在双平台播出，即便2个平台都没有开通会员前期也都可以一口气看完全集。

更新时间：2024-08-08 | 作者：rw | 已阅读：158次 | 标签：视频播放器视频软件
不是芒果会员能看披荆斩棘4吗_是否可以免费下载

通过调查发现，不是芒果TV会员能观看披荆斩棘第四季全集，只不过需要等待节目播出一个星期后转免了才能观看。同时，芒果TV不支持免费下载披荆斩棘4。

更新时间：2024-08-02 | 作者：rw | 已阅读：213次 | 标签：视频播放器视频软件
连夜整理！2024年4大平台暑期定档电视剧排行榜！

目前2024年暑期定档待播电视剧有《你比星光美丽》、《长相思第二季》、《颜心记》、《度华年》、《柳舟记》以及《少年白马醉春风》、《乌云之上》、《错位(原名交错的…

更新时间：2024-06-21 | 作者：rw | 已阅读：458次 | 标签：视频播放器视频软件
2024奥运会直播观看入口在哪里_在线观看平台汇总

2024巴黎奥运会直播在腾讯视频这个播放器上可以看，因为就在昨天晚上，腾讯宣布，中央广播电视总台与腾讯就 2024 巴黎奥运会视频点播及短视频版权达成合作意向，…

更新时间：2024-06-20 | 作者：rw | 已阅读：4441次 | 标签：视频播放器腾讯软件
《维和防暴队》下载平台推荐_免费还是付费下载

目前并没有找到维和防暴队完整版的免费下载观看平台，虽然这部电影在爱奇艺、腾讯视频、优酷以及芒果TV这4个视频平台都可以在线进行观看，但是完整版的观看和下载都是需…

更新时间：2024-06-17 | 作者：rw | 已阅读：173次 | 标签：视频播放器视频软件
《看不见影子的少年》全集下载平台分享_不付费能不能下载

看不见影子的少年全集在爱奇艺平台可以观看下载，但是目前该剧只支持前2集的免费下载与观看，后面16集都是需要付费开通会员后才能够观看和缓存的。

更新时间：2024-06-11 | 作者：rw | 已阅读：195次 | 标签：视频播放器视频软件
世预赛中国队直播回放观看入口在哪_在线观看平台推荐

世界杯亚洲区预选赛中国队的比赛直播在央视影音这个平台可以看，在软件的【体育】频道中，找到【赛事中心】中6月11日中国队和韩国队的世预赛亚洲C组第6轮比赛，然后点…

更新时间：2024-06-07 | 作者：rw | 已阅读：57次 | 标签：视频软件央视影音CBox
熬夜整理！2024年6月即将上映电视剧大全！

根据查找到的资料来看，目前2024年6月即将上映的电视剧有13部，分别是《玫瑰的故事》、《度华年》、《颜心记》、《交错的场景》、《小夫妻》、《锦绣安宁》、《爱情…

更新时间：2024-06-03 | 作者：rw | 已阅读：386次 | 标签：视频播放器腾讯软件
《狐妖小红娘月红篇》观看入口在哪_在线播放平台分享

狐妖小红娘月红篇在爱奇艺这个网络平台能预约观看下载，启动电脑端的爱奇艺，然后软件就会弹出这部最新电视剧的预约提醒，直接点击【立即预约】按钮即可完成预约。而如果没…

更新时间：2024-05-23 | 作者：rw | 已阅读：71次 | 标签：视频播放器视频软件
2024年5月定档待播新剧有几部_即将上映影视剧大盘点

目前2024年5月国内已经定档的待播电视剧有《庆余年第二季》，《狐妖小红娘月红篇》，《看不见影子的少年》，《孤舟》，《墨雨云间》以及《半熟男女》共6部。

更新时间：2024-05-11 | 作者：rw | 已阅读：240次 | 标签：视频播放器腾讯软件
我的阿勒泰完整版在什么地方下载_全集缓存平台揭晓

于适马伊琍新剧我的阿勒泰免费完整版在爱奇艺平台可以下载并观看，目前该剧已经更新至第7集，VIP用户可以观看与下载至第7集，非VIP用户可以免费观看和下载至第3集…

更新时间：2024-05-10 | 作者：rw | 已阅读：124次 | 标签：视频播放器视频软件
井柏然新剧新生不付钱去哪里下载_新生全集缓存平台解析

井柏然新剧新生是网剧但其实也算电视剧，因为网剧也属于电视剧的一种，但它不在电视台频道播出，在互联网视频平台播出。

更新时间：2024-05-07 | 作者：rw | 已阅读：193次 | 标签：视频播放器视频软件
乘风2024在什么地方可以下载_不付钱的下载平台汇总

根据查找到的资料来看，乘风2024就是乘风破浪的姐姐第5季，而在去年的乘风破浪的姐姐第4季的时候，其实它就改名为乘风2023了，而今年的其实就是第五季。

更新时间：2024-04-22 | 作者：rw | 已阅读：76次 | 标签：视频播放器视频软件
谍战剧哈尔滨一九四四在什么地方能一口气看完_不花钱的观看平台整理

2024杨幂秦昊最新谍战大剧哈尔滨一九四四在爱奇艺这个网络视频平台可以不付钱一口气看完合集，该剧将于4月21日晚19:30分上线播出。

更新时间：2024-04-19 | 作者：rw | 已阅读：154次 | 标签：视频播放器视频软件