有网友碰到这样的问题“描述性统计分析”。小编为您整理了以下解决方案,希望对您有帮助:
解决方案1:
描述性统计分析
描述性统计是指将调查样本中的包含的大量数据资料进行整理、概况和计算,是推断性统计的基础。它以揭示数据分布特性的方式汇总并表达定量数据的方法,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布,以及一些基本的统计图形。其特征是表示定量数据,并揭示数据分布的特征;作用是提供了一种概括和表征数据的有效且相对简便的方法。
以下是描述性统计分析的详细内容:
一、常用指标
均值:
概念:以前学过的平均数,容易受到异常值的影响。当异常值是较大值时,数据会向右倾斜;当异常值是较小值时,数据会向左倾斜。
示例图片:
中位数:
概念:将一组数据按升序排列,然后取出中间值。如果总数是奇数,则取中间的值;如果是偶数,则取中间两个数的平均值。中位数不受极值影响,因此对异常值缺乏敏感性。当中位数小于均值时,数据向右倾斜;当中位数大于均值时,数据向左倾斜。
众数:
概念:一批数字中最常见的数值,即频数最大的数值。
四分位数:
概念:将数据按升序排列,然后分为四个相等的数据块,每个数据块包含四分之一的原有数据。
优点:从整体描述数据集的分布状态。
缺点:无法分析数据集的波动大小。
计算方法:首先求出中位数Q2,然后求下四分位数Q1和上四分位数Q3。四分位距等于上四分位数减去下四分位数。
应用:
箱线图:用于比较数据。
识别异常值:最小估计值为Q1-k(Q3-Q1),最大估计值为Q3-k(Q3-Q1)。其中,k=1.5表示中度异常,k=3表示极度异常,k为四分位距的倍数。
方差与标准差:
概念:方差是每个数据值与全体数据的平均数差的平方的平均数,标准差是方差的平方根。方差小表示数据集比较集中,波动性小;方差大表示数据集比较分散,波动性大。
计算公式:方差 (sigma^{2}=frac{Sigma x^{2}}{b}-mu^{2}),标准差 (sigma=sqrt{sigma^{2}})。
标准分:
概念:表示数值距离平均值多少个标准差。如果一个数值在距离均值1个标准差的范围内,数值的标准分在-1到1之间;如果一个数值在距离均值2个标准差的范围内,数值的标准分在-2到2之间。
示例图片:
二、实践应用
以User Behavior Data from Taobao for Recommendation数据集为例,该数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集的组织形式和MovieLens-20M类似,即数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。
从该数据集中,我们可以获取以下描述统计信息:
数据集的总体规模,如总行数、总列数等。各列数据的分布情况,如均值、中位数、众数等。各列数据的离散程度,如方差、标准差等。基于这些数据,我们可以进一步分析以下问题:
销量前三的商品、商品种类。点击排名前三的商品、商品种类。点击数量与购买数量的相关性。用户行为的转化率。时间(例如周末、晚上)与销量是否有关。通过描述性统计分析,我们可以对数据集有一个初步的了解,为后续的数据分析和挖掘提供基础。
Copyright © 2019- 99spj.com 版权所有 湘ICP备2022005869号-5
违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务