第23卷第5期 2 0 1 5年10月 电 脑 与 信 息 技 术 Computer and Information Technol 文章编号:1005—1228f 2015)05—0044~02 基于决策树数据挖掘算法的大学生消费数据分析 黄剑 (江西财经大学网络信息管理中心江西南昌 330013) 摘要:文章使用决策树数据挖掘算法为基本工具,以近年大学生在校校园卡消费数据为基础,探讨数据挖掘在分析和研 究大学生在校消费行为变化、消费特点以及与消费价格之间的深入关系。通过对消费数据的数据挖掘,分析得到近年来大 学生消费行为、习惯、消费量的信息,找出其中的内在关联和变化趋势。并使文章结果能够更好、更有效的指导学校餐饮价 格波动、菜品的新增;在学生可承受的价格范围内更好的提供餐饮服务。 关键词:决策树;数据挖掘;大学生消费分析 中图分类号:TP3l1.13 文献标识码:A Analysis of College Students Consumption Data Based on Decision Tree Data Milling Algorithm HUANG lian (Network In ̄rmafion Management Centerdiangxi UmveniW of Finance and Economics,Nanchang 330013,China) Abstract:This paper uses decision tree data mining algorithm as the basic too1.Based on the consumption data of coHege students in conege in recent years,the relationship between co ̄ege sudentst consumption behavior,consumption characteristics and consumption price is analyzed and studied by data mining.Through data mining of consumption data, the information of CoUege Students’consumption behavior,habits and consumption is an ̄yzed,and the inherent relation and changing trend are found out.And the results of this paper can better and more effectively guide the food price lfuctuation and the new dishes,and provide catering service for the students who can afford the price range. Key words:decision tree;data miing;coUege sntudents consumption analysis 近年来随着社会生活水平日益提高,在校大学生 的消费能力和消费要求也是进一步提高,在校大学生 对学校餐饮服务行业的要求已经由吃的饱转向吃的 好。但是简单的增加菜品质量和近年来物价上涨,所带 来的菜价的大幅提升也会导致部分大学生生活质量下 学校餐饮价格管理原本是传统的管理模式, 使用本文所提供的方法,可以彻底改变原来被动、滞后 的管理模式,使学校餐饮能更快的适合大学生消费变 化。随着学校信息化工作的不断推进,近年来在学校的 信息部门里,积累了大量的学生校园卡消费数据,这些 数据从规模上已经跨人了大数据的门槛。这些海量的 消费数据都是学校餐饮价格管理科学决策的重要的底 层数据信息,如果能将这写底层数据蕴含的内容和知 识挖掘出来,将能为学校菜品价格、菜品修改提供科学 的变化依据,将极大地提高后勤管理的科学化、规范 降。本文使用信息应用领域的数据挖掘技术,来分析近 年在校大学生的消费数据,从中掌握大学生消费习惯 和消费行为,为学校餐饮服务提供业务数据解决以上 问题。 目前随着信息化社会的不断扩展,数据挖掘作为 一门产生于上世纪80年代的技术,在当前大数据时代 中已经成为一个不可或缺的方法。通过数据挖掘和大 息,实现过去无法实现或难以实现的功能,更可以对学 校管理模式进行创新。 化、信息化管理水平。 数据的结合,我们可以看到以前无法看到的关联、信 1挖掘算法选用 数据挖掘是一个利用各种分析工具在海量数据 中发现模型和数据间关系的过程,使用这些模型和关 收稿日期:2015—06—22 作者简介:黄剑(1979一),男,江西南昌人,本科,工程师,主要研究方向:数据挖掘、软件工程。 第23卷第5期 黄剑:基于决策树数据挖掘算法的大学生消费数据分析 ・45・ 系可以进行预测,它帮助决策者寻找数据问潜在的关 联,发现被忽略的因素因而被认为是解决当今时代所 面临的数据爆炸而信息贫乏的一中有效方法。 数据挖掘存在很多方法,常见的数据挖掘模型有 决策树、神经网络、遗传算法、粗糙集、统计模型等。其 中决策树算法是以实例为基础的归纳学习算法,以其 易于提取显示规则,计算量相对较小,可以显示重要决 策属性和较高的分类准确率等优点而得到广泛的应 用。据统计,目前决策树算法是利用最广泛的数据挖掘 算法之一。 由于决策树算法以上优点,本文决定使用决策树 算法用于挖掘学生消费数据的数据挖掘算法。 2基于数据挖掘的学生消费数据的需求分析 为了分析学生校园卡消费数据的实质,结合校园 卡消费特点,这里提出了一种根据消费商户分类,并对 于数据挖掘的消费行为分析的详细设计。从理论和思 想上为下一步技术的展开打下基础。 2.1消费类别分析 要对学生的消费行为进行分析,必须对学生的消 费分门别类。按消费目的分:可以分为,生存资料消费、 发展资料消费、享受资料消费。根据以上消费类别,对 学校消费商铺进行分类。我们对商户数据分析,在根据 消费目的的分类,也将全校624个商户pos机分为三 类。其中,生存资料消费主要包括各种正餐消费,如米 粉,米饭,菜,馒头等;发展资料消费包括,食堂煨汤,麻 辣烫,超市等;享受资料消费主要是学校的小炒和其他 部署校园卡的个人商店。 通过对商户的分类,我们就可以将当前学生一卡通消 费数据分成相应的三类。再通过对三类数据的分析和 挖掘获取当前学生消费数据信息。 2.2学生消费数据分析 根据上节分析,我们可以将学生消费数据根据消 费店铺类别将消费数据分为三类。汇总每个学生的三 类消费数据,我们可以将每个学生每年的三类消费金 额计算汇总成为聚类挖掘的基础数据。汇总三类消费 金额部分见表1: 表1 学生消费数据汇总 通过以上数据可以基本反映出学生消费习惯和消 费隋况。为了进一步深入挖掘学生消费信息,在以上数 据基础上我们添加总消费金额和每个学生的类恩格尔 系数。其中类恩格尔系数=生存资料消费金额/总消 费金额。通过学生卡消费中的类恩格尔系数,可以直观 的观察出学生消费质量和消费习惯的变化,通过挖掘 类恩格尔系数的内部信息可以分析在大数据后面个体 类恩格尔系数的分化和综合类恩格尔系数的变化,为 我们更精准的了解学生消费情况。 3数据挖掘数据选择 为提高数据挖掘的质量,需要将当前数据挖掘数 据集进行必要的筛选,来减少处理范围和剔除一些不 完整数据和噪音。在本文中,为提高数据分析的数据集 的准确性,我们将剔除一些在校园卡消费次数较少的 学生消费数据。因为消费数据较少的学生,大部分消费 并不在校园卡中,分析校园卡数据并不能反映该同学 的实际消费习惯,反而会减少数据挖掘的准确性和挖 掘结果的可用性。因此,我们去除了每年消费天数小于 100天的用户的消费数据。 此外消费数据集中还有为数不少的临时卡消费数 据,该数据消费人员不明确,消费金额较少,为了减少 分析数量,也将该部分数据剔除。 4数据挖掘实证研究 对类恩格尔系数的区间,我们进行简易划分成3 个区间,即类恩格尔系数>70%为类恩格尔系数高区 间,55%<类恩格尔系数<7O%为中档区间,类恩格尔 系数<55%为低档区间。 当类恩格尔系数处于高档区间时,学生大超过 70%的一卡通消费都属于生存类消费,而其他消费较 小,生活水平较低;当类恩格尔系数处于中档时,学生 消费中的生存类消费适中,有一定的高级消费能力;当 类恩格尔系数处于高档区域时,学生消费水准更高,最 求更好的消费体验。 关于类恩格尔系数的判断,肯定需要一种算法进 行这样的判断:如果总消费金额或其他一种或多种消 费金额高于某个值,那么该学生的类恩格尔系数处于 低档水平的概率就相当大,而这种判断过程更简单直 观。那么,决策树就实现该目标的有效工具。我们这里 将构建一颗关于类恩格尔系数的决策树,那就可以沿 着决策树的根节点,自上而下判断每一个消费金额,并 且得到该金额范围中的类恩格尔系数的区间情况。这 里我们使用常用的数据挖掘工具软件(下转第64页) ・64・ 电 脑 与 信 息 技 术 2015年10月 提高学生的综合设计能力,全面培养学生的综合素质, 真正达到培养应用型人才的目的。 学,提高了学生思考问题、综合设计的能力,最后达到 软件开发应用型人才培养的目的。 4结束语 从软件开发类课程群实践教学现状中存在的不足 参数文献: [1】邢海燕.《软件工程》教学改革的探索【J】.中小企业管理与科 出发,根据CDIO培养大纲的四个能力层面,为软件开 发类课程群设置基础、提高和巩固等三个“阶梯式”教 学阶段,并将CDIO模式的构思、设计、实现和运行四 技(中旬刊),2o15(o3):248—249. [2 杨向辉.计算机软件开发技术的应用及未来展望[2]J】.电子技 术与软件工程,2015(05):70. [3]韩丹丹,郭红,姚登举.基于CDIO软件工程专业实践教学的 研究[J].科技与管理,2014(02):66—69. 个学习过程引入到每一个阶段每一门课程的实践教 (上接第45页) SPSS Clementine中的c5算法开展数据挖掘,以类恩 格尔系数为目标变量,以该年内所有学生的消费金额 使用数据挖掘进行学生消费数据进行分析,是使 用信息技术对传统无用数据的创新研究。通过对消费 数据的深入分析,可以更深刻的了解当前学生消费隋 况。数据挖掘的结论可以作为深层次消费分析的参考 [总包括:生存资料消费、发展资料消费金额、享受资 料消费金额和总消费金额为输人变量,建立决策树。 5学生消费分析总结 从消费习惯角度分析可以看出,在2010年时学生 的年消费总金额成为类恩格尔系数最主要的影响因 素,当年消费金额超过5859元是校园卡消费类恩格尔 资料。 6结束语 本文基于2010年~2013年江西财经大学学生一 卡通消费数据,采用数据挖掘的决策树方法进行分析, 数的分水岭,超过5859元的学生全部处于类恩格尔系 数的中档和低档区间,属于消费生活水平较高的人群。 但是分析2013年数据,由于大学生总消费金额普遍提 高,年消费金额已经明确无法区分学生的类恩格尔系 数,而是年发展资料消费金额成为主要区分变量。着说 找到了学生消费规律变化的初步规律,即在新的情况 下发展资料消费是未来学生消费的主要增长方向。这 结论是传统数据分析所反映不到的,反映出大数据 后面潜在规则和变化。 一虽然本文数据挖掘数据源有限,仅仅针对学生一 明随着社会发展,生存资料消费金额的增长幅度基本 已经到达极限,而学生已经将更多的生活花费转移到 发展资料消费上来,这说明未来发展资料消费需求旺 盛。另一个值得关注的变化是,当年发展资料消费金额 大于1820元的情况下,年生存资料消费金额小于 3003,该学生类恩格尔系数肯定处于低档区间。说明发 展资料消费和享受资料消费会挤占部分生存资料消费 需求。 从数据挖掘的角度看,可以对更多历史消费数据 卡通消费数据分析;数据模型也较为简单,但是也为学 校后勤系统提供了针对性的意见和建议:(1)如果要进 步提高后勤服务水平,满足学生进一步消费需求,需 一要在发展资料消费方面多提供新的供应和更好的服 务。(2)学生的生存资料消费日益减少,其中有其他消 费类型对生存资料消费的挤压作用,但是也有部分学 生基本消费能力的下降,学校应该降低生存资料消费 的价格,并适当补贴生活困难学生,让部分生活困难学 生也能获得较好的生活质量。 参考文献: [11】 康塔尼克著,闪四清译.数据挖掘:概念、模型、方法和算法 【M].北京:清华大学出版社,2003. [2]Jiawei Han,Micheline Kamber.Data Mining Concepts and 进行分析,建立更多的决策树。如果对已有的数据进行 挖掘,并不能完整构建一个数据挖掘过程,还需使用模 型对未来的数据进行验证和预测,从而检测模型的正 确性。我们可以使用相邻年份的相似数据来验证决策 树的预测准确度。 从上述表中可以看出,错判率为21%。由于经济 环境变化的原因,这个结果还是是很理想,但是也能看 出,在隔年的数据中,还是有接近79%的数据是符合上 年的决策树的结论。 Techniques[M].Beijing:Beijing Higher Education Press,2001. 【3】Han Jiawei数据挖掘:概念与技术(英文版・第3版)【M】.机械 工业出版社,2012. [4]波德里亚著,刘成富译.消费社会【M].南京大学出版社,2008.