Python电商数据分析实战(微课版)
上QQ阅读APP看书,第一时间看更新

1.2 电商数据分析的必备知识和工具

电商数据分析师和业务数据分析师的定位相似,需要多种技能的支撑才可以完成数据分析任务,由此可知,数据分析并不是一个独立的学科,它跟多个学科的知识有着紧密的联系。电商数据人才除了要能从数字中获取有价值的信息之外,还需要具备以下几方面熟练的数据处理能力。

(1)数学和统计学。数学和统计学是数据分析中两门最基本的理论知识学科,数据分析就是这两门学科的应用。

(2)运筹学。运筹学是现代管理学中一门重要的专业基础课,主要研究求最优解,可解决运营过程中的最佳决策问题。

(3)数据分析方法论。数据分析方法论是前人分析的经验归纳,套用方法论可以快速入门数据分析。

(4)数据分析工具。“工欲善其事,必先利其器”,数据分析单靠笔尖或者计算器速度太慢,面对大量资料的整理是需要具备专业技能的,因此熟练掌握至少一个数据分析工具的应用将会大幅度提高数据分析的效率和精度。

(5)电商业务能力。对于一名从事数据分析的工作者来说,对业务场景的敏锐度十分重要,只有懂业务的数据分析师才能将数据转变成生产力。

(6)电商数据指标体系。了解并掌握电商的数据指标体系可以帮助数据分析工作者更快、更准确地开展数据分析工作。

1.2.1 数学和统计学

数据分析是从统计学发展而来的,而统计学是从数学发展而来的。数学知识是数据分析的理论基础,只会软件操作并不能满足数据分析的要求,普通的商业分析要求分析人员的数学水平在高中及以上,能看懂数学符号和数学公式。如果涉及数学建模,则要求数学水平在大学本科及以上,如图1-8所示。具体的数学要求如下。

图1-8 数学要求

(1)初中数学基础。数学运算(基本运算、因式分解),方程与方程组,不等式与不等式组(简单的线性规划),初步统计(平均数、众数、中位数、极差、方差、标准差、频数、频率、频率分布直方图),初步概率(概率计算)等。

(2)高中数学基础。集合(交、并、补),基本初等函数(指数函数、对数函数、幂函数),函数的应用(求极值、最值及变化趋势),算法(结构与语句),数列(递推逻辑、归纳演绎),简易逻辑(真假命题、假设逻辑),合情推理(归纳、类比),演绎推理(三段论)等。

(3)统计学基础。抽样调查与推断,概率论,描述统计学,推断统计学等。

(4)高等数学(更深层次的学习与研究)基础。线性代数、微积分、复变函数等。

1.2.2 运筹学

运筹学是现代管理学的一门重要的专业基础课,也是数据分析的理论基础。它是20世纪30年代初发展起来的一门新兴学科,其主要作用是在决策时为管理人员提供科学依据,是实现有效管理、正确决策和现代化管理的重要方法。该学科是应用数学和形式科学的跨领域研究,利用统计学、数学模型和算法等,寻找复杂问题中的最佳或近似最佳的解答。

在电商业务背景下,运筹学具有非常广泛的应用场景,如确定最佳的推广方案,确定最短的运营路径,确定最佳的产品组合,确定最佳的人工排班方案等。

1.2.3 数据分析方法论

许多电商从业者在分析数据的时候会遇到许多问题,如不知从哪方面切入并开展分析,不知数据分析的内容和指标是否合理、完整。出现这些问题都是因为数据分析人员没有掌握数据分析方法论。

数据分析方法论可以帮助分析人员依据某些轨迹顺利地开展分析活动。常见的数据分析方法有以下9种。

(1)对比法。通过参照物的对比了解现状和发现问题,通过横向和纵向的对比找到自己所处的位置。

(2)拆分法。将大问题和相关的指标拆解成多个小问题和多个相关指标,通过拆解问题和指标可以快速找到问题产生的原因。

(3)分组法。将数据依据某些维度进行分组统计,观察分组后的结果以洞察事物的特征。

(4)排序法。基于某个度量值进行递增或递减的排列,排序后的结果可以清晰地反映所有观测值的情况。

(5)交叉法。将两个及以上的维度进行交叉分析,如通过对产品特征和价格区间两个维度的交叉分析,找到更符合企业定位的细分市场。

(6)降维法。分析问题时若指标的信息量过多,采用业务梳理的方式选择核心指标进行分析,减少过多指标的干扰。在统计学上也可以使用主成分分析或因子分析方法达到降维的目的。

(7)增维法。分析问题时若指标的信息量不足,通过计算派生出新的指标,以获取更多的信息量,如搜索竞争度=搜索人气÷商品数。

(8)指标法。在分析时采用指标的方式分析结果,一般通过表格来查看分析结果。

(9)图形法。在分析时采用图形的方式更加直观地分析结果。

除了以上常见的数据分析方法之外,还有一些在业务上常用的思维分析方法,如以下7种方法。

(1)SWOT分析法。S(Strength)是优势、W(Weakness)是劣势、O(Opportunity)是机会、T(Threat)是威胁,即基于内、外部竞争环境和竞争条件下的态势分析,就是将与研究对象密切相关的各种主要内部优势、劣势和外部的机会和威胁等,通过调查列举出来,并依照矩阵形式排列,然后用系统分析的思想,把各种因素相互匹配并加以分析,从中得出一系列相应的结论,而该结论通常带有一定的决策性。通过该方法,企业可以了解自己所处的环境,对内、外部因素进行分析并制订应对策略。

(2)描述性统计法。概括、表述事物整体状况及事物间关联、类属关系,基于统计值来表示数据集的集中和离散等情况。

(3)矩阵分析法。将主要因素放在矩阵的两个维度轴进行定量或者定性的分析,并通过某个点将数据分成4个象限。

(4)多维分析法。将3个及以上的维度在表格、多维平面图或者三维图中进行观测分析。

(5)数据归一化。将数值映射在[0,1]的范围中,消除因为值域不同而产生的分析难点,一般配合多维分析法使用或在数据建模时使用。

(6)时间序列分析法。针对连续的、变化的时间数据的分析方法,主要用于预测连续的未来数据,如分析店铺每天的销售额。

(7)相关性分析法。研究指标间的相关程度,常用于寻找关键影响因素。

1.2.4 数据分析工具

掌握两个及以上的分析工具才能更好地进行数据分析。分析工具种类很多,具体可分成以下三类。

(1)数据库。按照数据结构来组织、存储和管理数据的仓库。常见的数据库有Access、Microsoft SQL Server(简称MSSQL)、MySQL、Oracle、IBM DB2。

(2)数据分析与可视化。用于组织数据进行分析和可视化呈现的工具,常见的工具有Excel、Power Business Intelligence(简称Power BI)、Tableau。

(3)统计与数据挖掘。用于统计分析和数据挖掘的工具,常见的工具有R语言、Python、统计产品与服务解决方案(Solutions Statistical Package Social Sciences,SPSS)、统计分析系统(Statistical Analysis System,SAS)。

根据企业不同的需求阶段,需要掌握的工具也不同,具体如下。

(1)第一阶段。这个阶段的企业现状是数据用Excel或WPS文件存储,数据文件多而杂乱,经营多年的电商企业甚至会有超过10万张历史数据表格,无法对繁杂的历史数据进行分析,数据管理杂乱。这个阶段企业需要解决数据的统一管理及分析问题。可选用Excel和MySQL,Excel可解决分析层和应用层的问题,MySQL可解决大数据量的存储和计算问题,而且Excel和MySQL在国内企业中的普及率相对较高。

(2)第二阶段。这个阶段的企业现状是已经实现了统一管理和数据分析,但随着企业数据量和数据应用能力的提升,原有的Excel已经满足不了大数据量下进行多表建模联合分析的需求,可能刷新一份分析模型文件所需的时间很长。此时需要使用BI(Business Intelligence)产品来满足复杂的业务建模需求,可选用微软的 Power BI。部分企业在这个阶段会有专业统计方法和数据挖掘的需求,可选择SPSS,该工具的掌握难度不大。SPSS有两个工具:一个是Statistics,用于统计分析;另一个是 Modeler,用于进行商业数据的分析与挖掘。SPSS 在国内企业中的普及率较低。

(3)第三阶段。这个阶段的企业已经属于数据驱动型企业,数据应用需要在生产、流通、销售和管理等各个环节渗透,随着数据种类的复杂化,原有的数据采集、清洗及算法应用的效率已经满足不了需求,要运用信息技术(Information Technology,IT)和算法解决商业问题,真正将数据转变成生产力。可以在R语言和Python语言之间选择一种,这两者都是应用非常广泛的编程语言。

(4)第四阶段。这个阶段的企业已经是深度数据驱动型企业,进入这个阶段的只有少数的龙头企业,它们通过技术手段极大地提高工作效率和商业收益,转型智慧商业领域,运用大数据和人工智能升级改造所有环节。企业在这个阶段需要应用大数据框架(如Hadoop)来解决并发现问题,以及人工智能框架(如TensorFlow)来解决应用问题。

1.2.5 电商数据指标体系

电商数据指标体系,是指由相互之间有逻辑联系的指标构成的整体,是基于业务场景而构建的一个完善的数据指标体系,将给业务提供有力的支撑,而且可以防止因为人员的流动导致数据分析部门运作瘫痪问题的发生。

业务的差异性,导致不同电商平台、不同商户的电商数据指标体系可能存在差异,但是大体上都基于以下公式展开:

销售额=访客数×转化率×客单价         (1-1)

式(1-1)是电商行业的重要公式,基于这个公式可延伸出电商数据指标体系。