近日,SAS公司的可视化统计发现软件JMP正式发布了最新的JMP11版(JMP普通版)及JMPPro11版(JMP专业版)。在大数据话题越来越热的今天,此次新品发布也受到了众多统计分析爱好者和JMPer(JMP粉丝)们的关注。从内容上看,JMP11的提升力度很大。在继承了JMP可视化交互式分析的产品特色之外,JMP11新增或改进了16个功能大类,共计约140项功能,技术难度不亚于重新设计开发出一个新的小型统计分析软件。
本文将以统计应用为导向,从用户的视角出发,将内容及其丰富的JMP11新功能浓缩为探索性数据分析和数据可视化、质量管理、产品研发、分析自动化与扩展和专业统计分析六大统计应用领域,帮助广大统计分析爱好者快速地对JMP11有一个全面而又准确的了解。
1.探索性数据分析和数据可视化
探索性数据分析和数据可视化一直是JMP倡导的现代统计分析的重要发展方向和其与众不同的统计分析手段之一。在使用JMP11进行探索性数据分析和数据可视化的过程中,用户体验会更加愉快。这主要是因为相应的变化有:新添独有的列查看器ColumnViewer、转换变量TransformVaraibles、交互式HTML报告InteractiveHTMLReport,改进已有的数据过滤器DataFilter、图形生成器GraphBuilder、偏好设置PreferenceSetting等功能。
具体来说,改进的偏好设置是指JMP11提供更加出色的默认图表和表格,也可以方便地对图表、表格和报告的外观进行微调,使用户可以自动创建有效的可视化结果,最大程度地减少调整和优化统计报表界面的无效时间,从而将精力更多地放到数据及其传达的信息等有效事件上去。
新添的交互式HTML报告是指很多原先只能在JMP软件环境下才能实现动态互动式分析的图形和报表,都可以被保存为HTML5格式的网页,然后通过电子邮件发送给同事或朋友,或者直接公布到网站上,该报告支持最新的浏览器(包括移动设备浏览器)进行查看。这使得众多还没有安装JMP的人员也能分享原创者的分析成果和乐趣,像安装了JMP软件一样进行探索性数据分析。
2.质量管理
在质量管理及其衍生出来的六西格玛领域从业的工程师和经理们是JMP软件用户群中的一个重要分支,JMP11不负众望,在这个方面交出了令人满意的答卷。其中比较大的变化是:新增响应筛选ResponseScreening分析平台,增强控制图生成器Control_chartBuilder和预测刻画器PredictionProfiler两个质量分析工具。此外,还在过程能力分析Capability、鱼骨图Diagram、测量系统分析MeasurementSystemsAnalysis等工具上有一些细节上的改进。
其中最值得一提的是增强的控制图生成器和预测刻画器。
很对人可能还对在JMP10中新推出的拖放式控制图生成器记忆犹新:只需轻轻一点,即可创建过程控制图表,不但可以判断流程是否稳定,而且可以分析流程不稳定的原因所在。只是让人略感遗憾的是它不支持离散变量,只能做计量型控制图。JMP11弥补了这一遗憾,最新的控制图生成器允许用户创建包括np、p、C和U图在内的计数型控制图。更令人惊喜的是,JMP11中的控制图生成器还支持T和G图在内的稀有事件控制图!T和G图是了解稀有事件发生频率是否高于预期和证明干预正当性的一种有效方式,它在质检人员关注安全事故、严重质量事故时非常实用,因为这时传统的控制图是无法真实表现出流程稳定性的。
JMP中的预测刻画器是很多人耳熟能详的一个特色工具,十几年前就有了。JMP11中的预测刻画器新增评估变量重要性AssessVariableImportance的选项,不仅可以通过图形进行定性分析,而且可以通过显示的各自变量主效应值和总效应值,量化地了解建模过程中最重要的输入因素。这个特点可以帮助我们在进行敏感度分析,或者需要在众多潜在因子中分离出影响响应的少数重要因子时,大幅节省分析时间,提高工作效率。
3.产品研发
越来越多的人意识到统计质量工具不仅仅适用在企业的质量部门、工艺部门,其实在研发部门也大有用武之地,只是用到的工具会更复杂一些,如实验设计DOE和可靠性Reliability。
具体来说,JMP11中实验设计方面的主要变化是:新添独创性的决定性筛选设计DefinitiveScreeningDesign平台,改进已有的混料设计MixtureDesign、筛选设计ScreeningDesign、空间填充设计SpaceFillingDesign等平台。JMP11中可靠性方面的主要变化是:新添可靠性方块图ReliabilityBlockDiagram平台(仅限JMPPro),改进已有的可靠性增长ReliabilityGrowth、拟合参数生存FitParametricSurvival等平台。
这当中最值得向研发人员推荐的就是新近开发的决定性筛选设计和可靠性方块图。
决定性筛选设计的亮点在于它能够一举克服传统筛选设计的两个缺陷:一是容易遗漏主效应不显著但二次项显著的关键因子,二是当存在的交互作用项较多时,需要执行较多的实验次数以提高实验的分辨率。当实验中需要考虑的潜在因子越多时,JMP11中的决定性筛选设计为你带来的价值越大。因为运用这种新方法时,实验次数的增加与实验因子的增加几乎完全是线性的,而不像传统筛选设计中那样需要成倍增加。更重要的是,它在帮助你节省实验成本和时间的同时,任何主要模型项之间又不会相互混淆,显著提高了实验分析的效率。也正是因为如此,负责这个DOE平台的JMP研发人员还荣获了美国质量协会颁发的年度大奖呢。
可靠性方块图的最大特色在于以往我们能够对一个简单产品或零部件进行可靠性分析,但对一个复杂系统(如拥有多个硬盘的RAID存储阵列,或者配备四个引擎的飞机)的可靠性往往会束手无策。JMPPro11中的可靠性方块图就是专门为你创建和分析整个系统的可靠性的。它可以使用户通过查看不同的设计和比较多个系统的设计图来轻松进行假设分析,通过添加冗余部件来弥补系统弱点,从而避免系统将来发生故障。
4.市场调研
除了质量、工艺、研发等技术部门之外,企业的市场部门经常会面临客户市场细分、满意度调查、精准营销、客户挽留等大量与统计分析相关的任务,JMP软件处理这类数据分析问题也是非常专业的。
以往这个特点一直是“藏在深闺无人知”,从JMP11开始,分析菜单中新增加了一个“客户研究ConsumerResearch”的二级主菜单,整合并改进了已有的分类Categorical、选择Choice、项目分析ItemAnalysis平台,新添了提升Uplift平台(仅限JMPPro),显示出JMP在市场调研领域也充满了实力和信心。
这里和大家分享其中两个最有价值的工具:分类和提升。
分类平台早在JMP7时就有了,主要用于收集和分析有关客户如何使用产品或客户满意度的信息。JMP11中分类的分析操作更加简便,支持多种格式的调查问题,无论是内容详实的明细报告,还是内容紧凑的简洁报告,都可以轻松制作。用户还可以分析调查中回答者可以选择多个答案的多选问题。甚至提供一个拖放界面,用于构建更加复杂的调查分析结构。全部完成之后,还可以轻松将完成的分析表格输出到Excel工作簿中。
JMPPro11中的提升平台初看和JMP中的另外一个平台:分割(即决策树)非常类似,但其实包含着全新的功能。它可以帮助用户优化市场营销决策,确定个性化促销方案,或者更用来预测不同的消费者对某项市场活动可能作出的不同回应。它还可以像其他数据挖掘方法一样使用训练、验证和检验方法,防止过度拟合,使新建的模型能够更好地推广到新数据去。
5.分析自动化与扩展
分析自动化与扩展的功能主要是指用编程的方式来自动调用JMP进行数据的整理和分析工作,并通过提高JMP与其他数据分析软件的兼容性来快速提高JMP的适应能力和分析能力。它是专门为JMP高级用户准备的。JMP11在这方面的亮点也是层出不穷,包括:构建界面更友好的JSL(JMP脚本语言)编程环境、优化应用程序的实用功能、支持直接读取Teradata数据库、完善Excel导入向导、与Matlab无缝集成和导入海量外部数据前可事先抽样等。
我们从中精选两项内容来说明一下:完善Excel导入向导和与Matlab无缝集成。
Excel是我们接触频率最高的数据分析软件。常常看到这样的情形:需要用JMP分析的数据分布在多个Excel工作簿里,其中又有不同的嵌套层次和分组的行或列,因此在开始分析前往往需要进行大量处理。现在,凭借完善后的JMP11Excel导入向导,数据导入的难题迎刃而解,无需进行长时间的清理和格式修改,只需简单几步,即可获得JMP标准格式的分析表格。如果文件发生变更或更新,还可自动生成JSL用于刷新数据。
和大众化的Excel相反,Matlab的主要用户是专业的信号处理工程师和计算金融分析师,在某些特定的领域积累了丰富的行业经验和现成的Matlab分析代码,同时他们也喜欢交互性强、可视化效果好的JMP分析界面(如JMP独有的预测刻画器)。现在,像这样的用户不必再纠结如何取舍工具软件的问题了。因为JMP11可以与Matlab无缝集成。使用JMP11中的JSL功能,JMP可以直接与Matlab结合,启动Matlab连接、向Matlab发送数据、提交代码以及将数据输出或送回JMP。更有意义的是,哪怕对Matlab及其编程知识一无所知的人,也可以借助同行现有的Matlab模型,进一步拓展分析能力,大幅提高工作效率。
6.专业统计分析
对于从事数据挖掘与建模预测、统计科研与教育的专业统计分析人士来说,以上介绍的内容可能还不过瘾。其实,JMP11对于统计高端用户也推出了很多颇具帮助价值的新功能,其中包括全新或改进过的稳健模型RobustModeling、广义回归GeneralizedRegression(仅限JMPPro)、混合模型MixedModels(仅限JMPPro)、偏最小二乘PartialLeastSquares等。
举两个例子来说,广义回归的适应场景是:如果你有大量关联性较强或者比观测数据更多的预测变量,使用逐步回归或其他标准方法将无法得到令人满意的结果。这一类模型经常会过度拟合,并且很难推广到新数据。JMPPro11中的广义回归能够面对杂乱的大型数据集创建预测模型,这是JMP数据挖掘工具箱中的一项重要新功能,可用于对大量预测变量进行变量选择或创建数据挖掘模型。它能够帮助你以非常自然的方式处理说明变量中的多重共线性,通过对估计参数的较大波动施加惩罚来避免过度拟合。除标准的正态或二项分布外,JMPPro11中的广义回归还支持泊松分布、零膨胀泊松分布、负二项分布、零膨胀负二项分布等其他分布形式。
混合模型则适应于:当化工生产或制药行业的药物试验、交叉设计过程中需要对多个对象进行多次测量时,以及其他会同时涉及时间和空间的数据时,就可以在实验数据分析中运用混合模型。JMPPro11中全新的混合模型特质,能够混合固定效应和随机效应模型对数据进行拟合。用户可以在直观的拖放界面中指定固定、随机和重复效应,关联多组变量,设定受试对象和连续型效应。另外,用户还可以根据实际需要计算更多种关联结构的协方差参数。