数据分析是指通过适当的统计分析方法对收集的大量数据进行分析,提取有用的信息,形成结论,并对数据进行详细研究和总结的过程。这一过程也是质量管理体系的支持过程。在实践中,数据分析可以帮助人们做出判断,从而采取适当的行动。
数据分析的数学基础已经建立在20世纪初,但直到计算机的出现,实际操作才成为可能,数据分析才得到推广。数据分析是数学与计算机科学相结合的产物。
在统计领域,有些人将数据分析分为描述性统计分析、探索性数据分析和验证性数据分析;探索性数据分析侧重于在数据中发现新特征,而验证性数据分析侧重于现有假设的验证或伪造。
探索性数据分析是指对数据进行分析的一种方法,以形成值得假设的测试,是对传统计算假设测试手段的补充。该方法是美国著名统计学家约翰·图基(John Tukey)命名。
定性数据分析又称定性数据分析"定性数据分析"、"定性研究"或者"质量研究数据分析",是指对非数值数据(或数据)的分析,如词语、照片、观察结果等。
Excel在商业智能领域,作为一种常用的分析工具,可以实现基本的分析工作Cognos、Style Intelligence、Microstrategy、Brio、BO和Oracle大数据魔镜等国内产品finebi、Yonghong Z-Suite BI套件等。
数据分析应用广泛。典型的数据分析可能包括以下三个步骤:
1、探索性数据分析:当数据刚刚获得时,它可能是混乱的,看不到规律。通过绘图、制表和各种形式的方程拟合,计算一些特征,探索规律性的可能形式,即找到和揭示隐含在数据中的规律性的方向和方式。
2.模型选择分析,在探索性分析的基础上提出一种或几种可能的模型,然后通过进一步分析选择一定的模型。
推断分析:通常采用数理统计方法来推断模型或估计的可靠性和准确性。
1、列表法
以列表的形式表达实验数据是记录和处理实验数据最常用的方法。表的设计要求对应关系清晰、简单、清晰,有利于发现相关数量之间的物理关系;标题栏中还应注明物理数量名称、符号、数量级和单位;除原始数据外,还可列出计算栏和统计栏。最后,还需要注明表格名称、主要测量仪器的型号、范围和精度等级、温度、湿度等相关环境条件参数。
2、作图法
图法能最显著地表达物理量之间的变化关系。实验所需的一些结果(如直线的斜率和截距值等。)可以简单地从图线上找到,读出未观测的对应点(内插法)或在一定条件下从图线的延伸部分读到测量范围以外的对应点(外推法)。此外,通过一定的变换,可以用直线图表示一些复杂的函数关系。例如,半导体热敏电阻的电阻与温度之间的关系是,如果使用半对数坐标纸,则取对数后得到lgR纵轴为1/T画横轴是直线。
3.数据分析主要包括:
1. 数学操作简单(Simple Math)
2.统计(Statistics)
3. 傅里叶快速变换(FFT)
4. 平滑和滤波(Smoothing and Filtering)
5.基线和峰值分析(Baseline and Peak Analysis)
搜索引擎蜘蛛抓取数据;
2、网站IP、PV等基本数据;
3、网站的HTTP响应时间数据;
4.网站流量源数据。
数据分析过程的主要活动包括识别信息需求、收集数据、分析数据、评估和提高数据分析的有效性。
识别信息需求是确保数据分析过程有效性的首要条件,可以为数据收集和分析提供明确的目标。识别信息需求是管理者的责任。管理者应根据决策和过程控制的需要提出信息需求。在过程控制方面,管理者应使用这些信息来支持评估过程输入、过程输出、资源配置的合理性、过程活动的优化方案和过程异常变化的发现。
有目的的收集数据,是确保数据分析过程有效的基础。组织需要对收集数据的内容、渠道、方法进行策划。策划时应考虑:
①将评估供应商时,需要收集的数据可能包括其过程能力、测量系统不确定性等相关数据;
②明确谁在哪里,通过什么渠道和方法收集数据;
③使用方便的记录表; ④采取有效措施,防止数据丢失和虚假数据干扰系统。
分析数据是通过加工、整理和分析将收集到的数据转化为信息,通常有:
七种工具,即排列图、因果图、分层法、调查表、步行图、直方图、控制图;
新七种工具,即关联图、系统图、矩阵图、KJ法律、计划评审技术PDPC法、矩阵数据图;
数据分析是质量管理体系的基础。组织经理应通过分析以下问题来评估其有效性:
①提供决策的信息是否充分可信,是否存在信息不足、不准确、滞后等问题;
②在产品实现过程中,信息对质量管理体系、过程、产品的作用是否与预期值一致,数据分析是否得到有效应用;
③收集数据的目的是否明确,收集的数据是否真实和充分,信息渠道是否畅通;
④数据分析方法是否合理,风险是否控制在可接受的范围内;
⑤是否保证了数据分析所需的资源。
在产品的整个生命周期中,包括从市场研究到售后服务和最终处理的过程,都需要适当地使用数据分析过程来提高有效性。J.开普勒通过分析行星角位置的观测数据,发现了行星运动的规律。另一个例子是,企业的领导者应该通过市场调查来分析收入数据来确定市场趋势,从而制定适当的生产和销售计划。因此,数据分析具有广泛的应用范围。
虽然网络营销的概念在中国很流行,但网络营销的效率低于一些发达国家。无论是门户广告、搜索引擎广告还是广告联盟,行业平均转化率都低于国外成熟国家。据估计,国内的Bounce rate(蹦失率,即用户只浏览第一页即离开的比例)介于90%~99%在欧美,而欧美Bounce rate则是70%左右。
诚然,国内网络营销环境正在发展,环境不那么令人满意,但中国互联网信息中心分析师孙秀秀认为,广告企业的许多责任,在于营销背后的数据分析工作,没有准确定位有效的客户群体,导致大量展示给无关网民。
通常,广告前的数据分析可以分为两个步骤。第一步:描述目标群体。例如,目标群体是18~25岁的年轻女性在网上购物。第二步:描述这个群体的网络活动轨迹。
也就是说,知道目标客户群上有哪些网站,做什么,什么时候地点找到他是非常重要的。其实网络营销在覆盖面上远远赶不上传统媒体。2009年底,中国互联网普及率为28.9%[1],的普及率已超过80%。然而,仍有许多有远见的企业选择网络营销。其中一个重要原因是网络营销的整个过程可以通过数据分析随时跟踪和调整。
分析方法如下:
包括对样本基本数据的描述,对每个变量的次数分配和百分比进行分析,以了解样本的分布情况。此外,市场导向、竞争优势、组织绩效等构面以平均值和标准差描述,了解样本企业管理者对这些相关变量的感知,并利用t检验和相关分析对背景变量的影响进行检验。
信度是指测试结果的一致性、稳定性和可靠性,通常是内部一致性(consistency)表示测试的信度。信度系数越高,测试结果越一致、稳定、可靠。对各研究变量的衡量问题Cronbach'a信度分析,以了解衡量构面的内部一致性。一般来说,Cronbach'a仅大于0.7是高信度,低于0.35为低信度(Cuieford,1965),0.5是最低可接受信度水平(Nunnally,1978)。
测试各构面的聚合效率(convergent validity)与区别效度(discriminant validity)。仅仅因为信度是不够的,高可信度的测量可能是完全无效或某种程度无效的。因此,我们必须检验效率。效率是指工具在设计中能否测量所需的结果。收敛效率的检验取决于每个项目的负荷和测量概念的因素;区别效率的检验是根据检验因素分析计算理论上相关概念的相关系数,并确定相关系数的95%信任范围是否包含1.0,若不包含1.0,可以确认为有不同的效率(Anderson,1987)。
结构方程模型结合了因素分析(factor analysis)和路径分析(path nalysis),并纳入计量经济学的联立方程式,可同时处理多个因变量,容许自变量和因变量含测量误差,可同时估计因子结构和因子关系。容许更大弹性的测量模型,可估计整个模型的拟合程度(Bollen和Long,1993),因而适用于整体模型的因果关系。在模型参数的估计上,采用最大似然估计法(Maximum Likelihood,ML);在模型的适合度检验上,以基本的拟合标准(preliminary fit criteria)、整体模型拟合优度(overall model fit)以及模型内在结构拟合优度(fit of internal structure of model)(Bagozzi和Yi,1988)三个方面的各项指标作为判定的标准。在评价整体模式适配标准方面,本研究采用x2(卡方)/df(自由度)值、拟合优度指数(goodness.of.f:iJt.in.dex,GFI)、平均残差平方根(root-mean.square:residual,RMSR)、近似误差均方根(root-mean-square-error-of-approximation,RMSEA)等指标;模型内在结构拟合优度则参考Bagozzi和Yi(1988)的标准,考察所估计的参数是否都到达显著水平