1、2023 年1 月Jan2023DigitalTechnology&Application第 41 卷第 1 期Vol.41No.1数字技术与应用10中图分类号:TP311.13;F239.65文献标识码:A 文章编号:1007-9416(2023)01-0010-03DOI:10.19695/12-1369.2023.01.03大数据背景下 R 语言在生物统计学图形可视化中的应用*广西民族师范学院化学与生物工程学院汪国海随着经济社会的快速发展,生物学实验数据的收集方法更趋向于综合化和复杂化,致使获得的实验数据信息呈现爆发式增长并不断积累,对深度挖掘实验数据的软件和数据可视化的需求越来越高。将
2、 R 语言应用于生物统计图形的可视化中,既能满足学生对数据可视化分析的需求,又能提高学生对实验数据动态变化的理解和课程兴趣。生物统计学是一门理论知识丰富且实践性很强的课程,其主要以概率论、线性代数为基础推断并解释生物学现象,该课程的开设有利于培养学生分析和解决实际生物学问题的能力,为后期数据分析和科研能力的提升打下坚实的基础1。但由于生物统计学课程公式推导复杂,对学生的数学基础要求高,易使学生缺少兴趣2;同时随着大数据技术的快速发展,实验数据的类型和收集方法更倾向于综合化和复杂化,对数据挖掘的深度和图形可视化的要求越来越高,需要不断的引入新的数据分析软件才能全面综合的反映出实验数据的动态变化。
3、R 语言是一个能兼容多种类型的数据格式并具备交互式的数据分析能力的开源软件3,尤其是强大的扩展能力和丰富的功能选项,使其能独立完成不同类型的生物统计数据分析和可视化过程,降低了不同软件间的频繁切换程度4。ggplot2 是 R 语言中最为强大的作图程序包,其核心理念是将绘图与数据分离,数据相关的绘图与数据无关的绘图分离,是按图层作图,同时它保有命令式作图的调整函数,使其更具灵活性,绘制出来的图形美观,同时避免繁琐细节,从而使数据分析者更能将注意力集中于数据分析本身5。本文通过使用 R 语言中的 ggplot2 程序包实现生物统计学常见图形的可视化过程,并附上相关的代码以便为生物统计学的课程发展
4、与改革提供参考。1 基于 ggplot2 的条形图条形图由一组宽度相同,高度与频数成比例的长方形组成,表示研究对象数据的大小,如图 1 所示。12.510.07.55.02.50.0RemovalSoil surfaceMicrohabitatStone cavesStone surface图 1 啮齿动物对不同微生境中种子的搬运率Fig.1.Seed transport rates of rodents in different microhabitats代码如下:1.install.packages(ggplot2)#安装 ggplot2 程序包2.library(ggplot2)#调用
5、ggplot2 程序包3.ab-read.csv(C:/Users/10167/Desktop/ab.csv)#读取数据4.ggplot(ab,aes(x=Microhabitat,y=removal)+geom_bar(stat=identity,fill=white,colour=black)+theme_classic()#绘制基础图形并设置相应的参数2 基于 ggplot2 的散点图散点图是指在回归分析中将两组数据构成的多个坐标点标记在直角坐标系中,可以用来描述 2 个连续型变量间的关系即因变量与自变量的变化关系,并对数据点收稿日期:2022-10-27*基金项目:广西民族师范学院科研
6、经费支持项目(2021BS002);广西壮族自治区教育厅第四批民族院校特色学科建设立项建设学科项目(民族生态学)作者简介:汪国海(1986),男,广西乐业人,博士,讲师,从事动植物协同进化研究工作。2023 年第 1 期11汪国海:大数据背景下 R 语言在生物统计学图形可视化中的应用图 2 单性木兰幼苗密度与岩石裸露率间的关系Fig.2 Relationship between seedling density and rock exposure进行拟合,如图 2 所示。代码如下:1.install.packages(ggplot2)#安装 ggplot2 程序包2.library(ggplo
7、t2)#调用 ggplot2 程序包3.ab-read.csv(C:/Users/10167/Desktop/ab.csv)#读取数据4.ggplot(ab,aes(x=Log(Rock exposure rate),y=Log(Density)+geom_point()+geom_point(size=2)+theme_classic()#绘制基础图形并设置相应的参数3 基于 ggplot2 的小提琴图小提琴图用于展示多组数据的分布状态及概率密度,因其形状酷似小提琴而得名,是优于箱线图的一种统计图形。它结合了箱线图与密度图的特征,是核密度图以镜像的方式在箱线图上的叠加,图中的白点代表中位数,
8、黑色的竖条状为数据的下四分位点到上四分位点,两侧的细黑线代表 95%置信区间,外部曲线形状为核密度估计,如图 3 所示。代码如下:1.install.packages(ggplot2)#安装 ggplot2 程序包2.library(ggplot2)#调用 ggplot2 程序包3.ab-read.csv(C:/Users/10167/Desktop/ab.csv)#读取数据4.ggplot(ab,aes(x=lx,y=rate)+geom_violin()+geom_boxplot(width=0.1,fill=black,outlier.colour=NA)+stat_summary(fu
9、n.y=median,geom=point,fill=white,shape=21,size=2.5)+theme_classic()#绘制基础图形并设置相应的参数4 基于 ggplot2 的面积图面积图显示每个数值所占大小随类别变化的趋势,可显示部分与整体的关系。使用面积图可以分析不同年份间果实数量的分布情况进而了解植物的物候变化及其种群发展潜能,如图 4 所示。代码如下:1.install.packages(ggplot2)#安装 ggplot2 程序包2.library(ggplot2)#调用 ggplot2 程序包3.ab-read.csv(C:/Users/10167/Desktop
10、/ab.csv)#读取数据图 3 不同处理下种子续存变化Fig.3 Changes of seed survival under different treatments0.0-0.5-1.0-1.5Log(Density)Log(Rock exposure rate)0.000.250.500.751.000.750.500.250.00Seed survival rateLeaf litter coverControlTreatments数字技术与应用 第 41 卷124.ggplot(cd,aes(x=Year,y=Sea)+geom_area(colour=black,fill=blu
11、e,alpha=0.2)#绘制基础图形并设置相应的参数5 基于 ggplot2 的二维密度图二维密度图显示了两个数值变量之间的关系,一个在 x 轴上表示,另一个在 Y 轴上表示,与散点图类似,然后计算二维空间中特定区域内的观测数,并用颜色梯度表示,如图 5 所示。代码如下:1.install.packages(ggplot2)#安装 ggplot2 程序包2.library(ggplot2)#调用 ggplot2 程序包3.ab-read.csv(C:/Users/wgh/Desktop/ab.图 4 不同年份间植物果实数量变化Fig.4 Changes of fruit quantity i
12、n different years图 5 单性木兰空间分布图Fig.5 Spatial distribution of monosexual magnoliascsv)#读取数据4.ggplot(ab,aes(x=DL1,y=DL2)+geom_point()+geom_density()+theme_classic()#绘制基础图形并设置相应的参数6 结语使用 R 语言可对类别型变量和连续型变量进行深度分析的同时绘制出精美的图形,一直是科研工作者追求的目标。美观且实用的可视化图形含有大量的信息,在提高科研工作效率的同时还能不断丰富作图代码。但在生物统计学课程中使用 R 语言进行教学时,还需要
13、考虑学生的前期基础和个人的思维习惯,不断因材施教提高学生对 R 语言可视化图形代码的理解和实际应用能力。引用1童婷,刘春燕,谢文华,等.生物统计学混合教学模式的探索与实践J.科技文汇,2021,29:62-64.2关天霞,张有富,张芬琴.“生物统计学”课堂教学和考核体系改革的探索J.教育教学论坛,2021(19):89-92.3张哲,张豪.浅谈R语言在生物统计学教学中的应用J.教育教学论坛,2013(27):54-55.4张智杰,牛青山.R语言在法庭科学DNA检验中的应用现状J.中国法医学杂志,2021,36(6):637-637+645.5袁佳.R语言及ggplot2在环境空气监测数据可视化中的应用J.中国高新技术企业,2015(16):88-91.Year20002005201020150255075Fruit quantity距离(m)Distance(m)01020304050距离(m)Distance(m)01020304050