地方本科院校《多元统计分析》教学设计探讨
作者:陈伟利 陈国华 余星
来源:《科技创新导报》 2013年第30期
陈伟利 陈国华 余星
(湖南人文科技学院数学与计量经济系 湖南娄底 417000)
摘要:《多元统计分析》因其理论性强、内容抽象,传统的教学方式难以得到良好的教学效果。该文基于地方本科院校学生的特点和课程的教学经验,提出“PPT+R+案例分析+上机实验”的教学模式,取得了较好的教学效果。
关键词:多元统计分析 教学设计 R语言
中图分类号:G2.0 文献标识码:A 文章编号:1674-098X(2013)10(c)-0104-02
多元统计分析是统计学的一个重要分支,是应用线性代数的基本原理和方法结合计算机软件对实际数据进行整理和分析的一门学科。随着计算机与统计软件的普及和发展,多元分析方法已经成为数据分析的一种主要手段,在经济、管理、数据挖掘等领域有着广泛的应用。与其应用广泛形成鲜明对比的是该课程的教学过程存在不少的问题,比如重理论,轻实践,重方法,轻思想[1]。多元统计分析作为一门数学课程,复杂的数学推导,繁琐的矩阵计算,深奥的概率知识是其主要特点,在以理论为主的传统教学中,往往教师教学吃力,学生学习兴趣不高,效果不好,在地方类本科院校中,这一问题更为突出。针对《多元统计》教学中存在的这写问题,许多学者都提出了教改方案。董志清、廖正琦[2]提出“黑匣子”教学法和类比归纳教学法,将软件MATLAB多层面地使用于实验环节。王继昌[3]基于课程的讲授提出加强实验教学、改革考核方式等改进措施,收到了良好的教学效果。笔者立足于我校“培养应用型高级专门人才”的目标,基于《多元统计分析》课程的教学经验与R语言使用心得,采用以案例为先导提出问题、以几何直观引入统计思想、以实际操作演示分析结果、以代码研究分析原理、以上机实验巩固所学、以撰写课程论文考核所学的教学思路,提高了学生的学习兴趣和动手能力,取得了较好的教学效果。
1 精选教辅软件
在多元统计的教学中,教学软件的选择是一个影响教学效果的重要的因素。SPSS软件是在是实践中使用较多的教辅软件,但该软件以菜单操作为主,各种统计方法对使用者来说是个“黑箱”,不利于学习者对统计原理和计算过程的理解。SAS虽然是统计分析的标准工具,但其高昂的费用阻碍了它在高校间传播和使用。MATLAB也是使用较多的数学软件,但其统计功能相对较弱。R是一门用于统计计算与作图的语言和环境。它是一个GNU项目,类似于贝尔实验室发明的S语言,可以看成是S语言的一种实现[4]。R提供了大量的统计模型,检验方法,作图技巧,而且具有极强的可扩展性。实践中R语言往往以一个函数实现了SPSS的一系列菜单操作和参数设置,而统计分析的各种结果都存储在返回对象中,只把最核心的结果以直观的方式打印出来,界面简洁明了,当分析者需要某个没有打印的结果时,只需简单的代码就可以提取出来,避免了将所有结果一次性返回导致的“凌乱”。
2 课堂组织
课堂教学是实现培养目标的基础环节,传统的“黑板+粉笔”的教学模式,不利于应用型人才培养目标的实现。笔者采用“PPT+R+粉笔”的方式组织教学。下面以线性判别分析介绍笔者在实践中采用的教学方法。
2.1 案例分析引入
判别分析是一种用于判断样品所属类别的统计方法,它利用已知样品及其分类数据,构造判别函数,判断新样品所属类别。在教学中,首先利用PPT展示判别分析的典型应用场景,进而提出判别分析的概念。在学生对判别分析有了感性认识的基础上,提出案例分析——天气预报[5]。该案例基于今天与昨天的湿差x1和温差x2共20个样品(其中晴天10个,雨天10个),预测明天的晴雨,样品数据中包含一个表示晴或雨的分类变量G。由于天气预报问题是学生具有充分感性认识的一个问题,学生对此案例表现出较大的兴趣。
2.2 几何直观讲解原理
传统的教学方法重视统计方法的理论推导,但忽视了统计原理的教学。但在以应用为导向的统计学习中,学生只有掌握统计方法的原理,才能灵活使用统计方法解决实践中的问题。因此教学中对统计原理的介绍就显得至关重要。在原理的介绍上,能够以集合图形做出统计方法蕴含的原理无疑是可取的。然而,多元统计方法涉及多元数据和大量样品,要手工做出图形既耗时又缺乏精度。笔者利用R语言高效的作图函数[6],将上述案例的样品作图如下。
上面看到的图形在演示时,分为三个步骤展示。首先看到的是将已知样本数据画在坐标系中的散点图,不同的天气情况对应不同的点的颜色和形状,横、纵坐标分别表示湿差、温差。这样可以直观的看到样品的分布情况,接下来提出问题,如果已知今天的有关数据
(x1=8.1,x2=2.0),该如何判断明天的天气情况?回车之后,新的样品点就以星号的形式出现在屏幕中。从直观上看,新样品应该归于“雨”这一类。那么我们的直观是如何得出来的呢?此时引导学生思考如何建立“判别的标准”。最后,在学生充分讨论之后,展示图中的虚直线,并总结:如果我们按照新样品点落在直线上方判断为晴天,落在下方判断雨天,应该是一种不错的方法。尽管从图形去看,我们的判断有两个是错误的,但90%的准确率对天气预报来说已经不错了。这里介绍的方法本质上是线性判别:利用已知样品,建立指标的线性函数,通过比较函数值得出新样品所属类别。那么,我们要如何找到这样的直线呢?此时可以结合书本,利用PPT展示线性判别的有关理论依据,并用粉笔在黑板上推导重要的过程,这里理论推导的深度,要视学生听课情况而定。
2.3 R计算过程演示
理论推导是枯燥的,学生更关注的是如何得到模型。在R中,这一点变得十分容易,只要执行以下代码我们想要的结果就都出来了(如图1)。
上面第一行加载判别分析的附加包,第二行利用lda()函数建立线性判别模型,第三行是样品内检验,第四行求出模型样品内检验的准确度,第五行判断新样品所属的类别。上面的代码最核心的两个函数lda和predict是非常容易记住的,事实上lda是线性判别分析(Linear discrimin antanalysis)的英文首字母缩写,而predict是一个标准的四级词汇。这两个简单的函数事实上已经包含了线性判别和Beyes判别的要做的所有工作(如图2)。
2.4 对结果的挖掘
对学有余力的学生来说,单纯知道如何操作可能不够,这时候可以利用上述代码深入挖掘计算过程产生的数据,比如找到模型判断错误的样品是哪些。通过这些操作可以让学生熟悉R软件的特点和常用的数据操作方法。与此同时,通过简单分析R的源代码,让学生对模型的计算过程有所了解,并鼓励其通过研究源代码(R是免费开源软件),搞懂统计方法的实现,并最终能够写出优秀的代码来。
3 上机实验
实验教学环节是多元统计分析教学中非常主要的一环,由于我校非常重视学生实际动手能力,多元统计分析的实验课时站到总课时的1/3,通过充足的上机练习和教师的现场指导,能够及时解决学生学习中存在的问题,熟悉基本操作。实践中,通过选择典型案例,由浅入深的设置实验问题,让学生通过软件操作,得到答案,最终形成案例分析报告,并当堂以邮件形式发送至指定邮箱,作为平时考核的依据。这样不仅有效的锻炼了学生软件操作的能力,同时训练了案例分析和报告撰写的能力,为以后分析数据,撰写数据分析报告打下了良好的基础。
4 考核方式
为实现应用型人才的培养目标,必须转变传统的以试卷为中心的考核方式,实践中采取撰写课程论文的形式考核学生的学习效果。具体而言,由教师指定课题或学生自己选定某个主题,学生通过网络搜集数据,根据问题的特点,选择一种或几种统计方法,以R软件为工具,形成对某一问题的分析结果,并最终整理成课程论文。最终成绩为综合学生的课程论文、实验报告、和课堂表现得到,这一考核方式不仅能公平、公正的评价学生,而且能充分检验学生的学习效果。
5 结语
多元统计分析由于涉及比较艰深的数学推理,教学中如何处理教学内容的广度和深度是教师要深入思考的问题。而选择R软件作为教学软件需要学生有R语言基础,记住一些常用的函数,这对于习惯了菜单操作的学生来说,是不小的挑战。当前大多数学校的理工类学生或多或
少的都学习过编程知识,而且计算机在大学生中普及率非常高,以我系学生为例,80%以上的学生都拥有电脑,这对于培养学生的动手能力无疑是有益的。因此如何引导学生有效的利用计算机提高动手能力,研究R语言在统计教学中的应用将是一个值得探索的课题。
参考文献
[1]朱辉.《应用多元统计分析》课程教学改革实践探索——立足于“学以致用”视角[J].统计与咨询,2013(3):38-39.
[2]董志清,正琦.《多元统计分析》课程的教学体会及探讨[J].重庆文理学院学报(自然科学版),2006(29):2.
[3]王继昌.《多元统计分析》课程传统教学的改革与创新[J].中国科教创新导刊,2008(7):96-96.
[4]王斌会.多元统计分析及R建模[M].广州:暨南大学出版,2011.
[5]Wickham H.ggplot2:elegant graphics for data analysis[M]. Springer Publishing Company, Incorporated,2009.