大数据时代:商业分析技术的五大趋势
目前,趋势中心关注如何应对分析挑战,就像他们关注如何在新的商业视角下充分利用机会一样。例如,随着越来越多的公司开始面对海量数据并考虑如何使用这些数据,管理和分析大量不同数据集的技术开始出现。提前分析成本和性能趋势意味着公司可以提出比以前更复杂的问题,并提供更多有用的信息来帮助他们经营业务。
在采访中,首席信息官们总结了影响他们分析的五个IT趋势。它们是:大数据的增长、快速处理技术、IT商品成本的下降、移动设备的普及和社交媒体的增长。
1.大数据(Big data)大数据是指非常大的数据集,尤其是那些组织不整齐、无法适应传统数据仓库的数据集。网络蜘蛛数据、社交媒体反馈和服务器日志,以及来自供应链、行业、周边环境和监控传感器的数据,都使得公司的数据比以前越来越复杂。
虽然不是每个公司都需要处理大型非结构化数据集的技术。VeriskAnalytics的PerryRotella认为,所有的CIO都应该重视大数据分析工具。Verisk帮助金融公司评估风险,并与保险公司一起防范保险欺诈。其2010年收入超过10亿美元。
Rotella认为,技术领导者应该采取数据越多越好的态度,欢迎数据的大幅增长。Rotella的工作就是提前发现事物之间的联系和模式。
HMS首席信息官CynthiaNustad认为,大数据呈现“爆炸式”增长趋势。HMS的业务包括帮助控制医疗保险和医疗补助计划以及私有云服务的成本。其客户包括40多个州的健康和人类服务项目以及130多个医疗补助管理计划。HMS在2010年帮助客户挽回了18亿美元的损失,节省了数十亿美元。努斯塔德说:“我们正在收集和跟踪大量材料,包括结构化和非结构化数据,因为你并不总是知道自己在寻找什么。”
Hadoop是人们谈论最多的大数据技术之一。这项技术是一个开源的分布式数据处理平台,最初是为编辑网络搜索索引等任务而开发的。Hadoop是许多“NoSQL”技术(包括CouchDB和MongoDB)中的一种,它以一种特殊的方式组织网络级数据。
Hadoop可以将数据的子集分布到数百台服务器上进行处理,每台服务器上报的结果会由一个主作业调度器进行排序,因此具备处理Pb级数据的能力。Hadoop不仅可以用于分析前的数据准备,还可以作为分析工具。没有成千上万台闲置服务器的公司可以从亚马逊等云供应商那里购买Hadoop实例的点播采访。
Nustad表示,HMS正在探索NoSQL技术的使用,尽管它不是用于其联邦医疗保险和医疗补助索赔的大型数据库。它包括结构化数据,可以通过传统的数据仓库技术进行处理。她说,在回答什么样的关系技术是实践证明的最佳解决方案时,从传统的关系数据库管理出发是不明智的。然而,Nustad认为,Hadoop在防止欺诈和废物分析方面发挥着重要作用,并具有分析各种格式报告的患者病历的潜力。
在采访中,那些体验过Hadoop的CIO,包括Rotella和Shopzilla的CIO JodyMulkey,都就职于以数据服务为业务的公司。
Mulkey说:“我们正在使用Hadoop来做我们过去用数据仓库做的事情。更重要的是,我们获得了以前从未使用过的实用、有用的分析技术。”例如,作为一个比较购物网站,Shopzilla每天都会积累数TB的数据。他说:“过去,我们必须对数据进行采样,并对数据进行分类。在处理海量数据时,这个工作量是非常大的。”自从采用Hadoop后,Shopzilla已经可以分析原始数据,跳过很多中间环节。
GoodSamaritan医院是位于印第安纳州西南部的一所社区医院,属于另一种类型。医院的首席信息官ChuckChristian说,“我们没有任何我认为是大数据的东西。”尽管如此,管理法规要求它存储全新的数据类型,如庞大的电子病历。他说,这无疑要求他们能够从数据中收集医疗和卫生保健质量信息。然而,这可能是在地区或国家卫生保健协会,而不是在他们的单一医院实现的。因此,Christian可能不会投资这项新技术。
IslandOneResorts首席信息官JohnTernent表示,其面临的分析挑战取决于大数据中的“大”或“数据”。然而,目前他正在谨慎地考虑使用云中的Hadoop实例来分析复杂的抵押贷款组合,作为一种经济的方式。目前,该公司在佛罗里达管理着8个时间度假村。他说:“这个解决方案可能会解决我们目前遇到的实际问题。”
2.商业分析的速度正在加快。肯塔基大学首席信息官VinceKellen认为,大数据技术只是快速分析这一大趋势的一个要素。他说:“我们期待的是更先进的海量数据分析方法。”与更快速地分析数据相比,数据的大小并不重要,“因为你希望这个过程快速完成。”
因为目前的计算可以在内存中处理更多的数据,所以可以比在硬盘中搜索数据更快地计算出结果。即使只处理几克数据,情况还是一样的。
尽管经过几十年的发展,数据库的性能已经通过缓存频繁访问的数据得到了很大的提高。这种技术在将整个大型数据集加载到服务器或服务器集群的内存中,硬盘只作为备份使用时变得更加实用。因为从旋转的磁盘中检索数据是一个机械的过程,所以它比在内存中处理数据要慢得多。
Rotella说,他现在在几秒钟内进行的分析在五年前可能需要一个晚上。Rotella的公司主要进行大型数据集的前瞻性分析,这往往涉及到查询、发现模式以及在下一次查询之前进行调整。就分析速度而言,查询完成时间非常重要。他说:“以前运行时间比建模时间长,现在建模时间比运行时间长。”
列数据库服务器改变了关系数据库传统的行列结构,解决了其他性能需求。查询只访问有用的列,而不是读取整个记录并选择可选列,这大大提高了组织或度量键列的应用程序的性能。
泰尔年特警告说,列数据库的性能优势需要与正确的应用程序和查询设计相匹配。他说:“为了有所作为,你必须以正确的方式向它提出正确的问题。”同时,他还指出,柱状数据库实际上只对处理超过500G千兆字节数据的应用程序有意义。他说:“在柱状数据库能够工作之前,你必须收集大规模的数据,因为它依赖于一定程度的重复来提高效率。”
保险和金融服务巨头JohnHancock的首席信息官AllanHackney表示,为了提高分析性能,硬件也需要升级,例如添加GPU芯片,这些芯片与游戏系统中使用的图形处理器相同。他说:“用于可视化的计算方法与统计分析中使用的方法非常相似。与普通的PC和服务器处理器相比,图形处理器的速度要快几百倍。我们的分析师非常喜欢这款设备。”
3.技术成本下降随着计算能力的提高,分析技术开始受益于内存和存储价格的下降。同时,随着开源软件逐渐成为商业产品的替代产品,竞争压力也导致了商业产品价格的进一步下降。
泰尔年特是开源软件的支持者。在加入IslandOne之前,泰尔年特是开源商业智能公司Pentaho的工程副总裁。他说:“对我来说,开源决定了涉足的领域。因为IslandOne这样的中型公司可以用开源应用R代替SAS进行统计分析。”
以前开源工具只有基本的报表功能,现在可以提供最高级的预测分析。他说:“目前,开源参与者可以跨越整个连续体,这意味着任何人都可以使用它们。”
HMS的Nustad认为,计算成本的变化正在改变一些基础架构的选择。例如,创建数据仓库的一个传统因素是让数据进入具有强大计算能力的服务器进行处理。当计算能力不足时,将分析工作负载从操作系统中分离出来,可以避免日常工作负载的性能下降。努斯塔德表示,目前这已经不是一个合适的选择。
“随着硬件和存储变得更便宜,你可以让这些操作系统处理商业智能层,”她说。通过重新格式化数据并将数据加载到仓库中,直接基于操作应用的分析可以更快地提供答案。
哈克尼观察到,尽管性价比的趋势有利于成本管理,但这些潜在的节约优势将被不断增长的产能需求所抵消。虽然今年JohnHancock的每台设备存储成本下降了2-3%,但消耗却增加了20%。
4.移动设备的普及,像所有应用程序一样,商业智能变得越来越移动化。对于Nustad来说,移动商业智能具有优先权,因为每个人都希望Nustad能够随时随地亲自访问关于她的公司是否达到服务水平协议的报告。她还希望为该公司的客户提供移动数据访问,并帮助他们监控和管理医疗费用。她说:“这是客户非常喜欢的功能。五年前,客户不需要这项功能,但现在他们需要。”
对于首席信息官来说,更多的是为智能手机、平板电脑和触摸屏设备创建合适的用户界面,而不是更复杂的分析能力来迎合这一趋势。也许是这个原因,凯伦觉得相对容易。他说:“对我来说,这只是一件小事。”
Rotella认为这并不容易。他说:“移动计算影响着每个人。许多人开始使用iPad工作,而其他移动设备正在爆炸式增长。这一趋势正在加速并改变我们与公司内部计算资源的交互方式。”例如,Verisk开发了一些产品,使索赔者能够在现场快速分析,因此他们可以评估重置成本。他说:“这种方法对我们的分析有影响,也让每一个需要的人可以随意使用。”
罗泰拉说:“造成这种挑战的因素在于技术更新的速度。两年前,我们还没有iPad,但现在很多人都在用。随着各种操作系统的出现,我们正在试图弄清楚它们是如何影响我们的研发的,这样我们就不必一次又一次地编写这些应用程序了。”
IslandOne的泰尔年特指出,另一方面,为每个移动平台创建原生应用的需求可能正在消退,因为手机和平板电脑上的浏览器现在有了更强大的功能。泰尔年特说:“如果我可以使用专门针对移动设备的基于网络的应用程序,那么我不确定我会投资定制的移动设备应用程序。”
5.加入社交媒体随着脸书和Twitter等社交媒体的兴起,越来越多的公司希望分析这些网站产生的数据。新的分析应用程序支持统计技术,如人类语言处理、情感分析和网络分析,这些都不是典型的商业智能工具套件的一部分。
因为都是新的,所以很多社交媒体分析工具都可以用于服务获取。一个典型的例子是Radian6。Radian6是Salesforce.com最近收购的一款软件即服务(SaaS)产品。Radian6是一个社交媒体仪表盘,它用正数和负数显示TwITter消息、脸书上的帖子、博客和讨论板上的帖子和评论中提到的特定术语,特别是为品牌名称提供生动直观的推断。当营销和客户服务部门购买这些工具时,他们不再严重依赖IT部门。目前,肯塔基大学的凯伦仍然认为他需要密切关注他们。他说:“我的工作是识别这些技术,根据竞争力评估哪些算法适合公司,然后开始培训合适的人。”
像其他公司一样,大学也对监测其大学的声誉非常感兴趣。与此同时,凯伦表示,他也可能会寻找机会开发专门用于解决学校关心的问题的应用程序,例如监控学生的入学率。例如,监控学生在社交媒体上的帖子可以帮助学校和管理员尽快了解学生在大学遇到的麻烦。凯伦表示,戴尔已经做了这项工作,其产品支持公司检测人们关于故障笔记本电脑的推文。他说,IT开发人员还应该找到一些方法,将社交媒体分析的警报信息推送到应用程序中,以便公司能够快速响应相关事件。
哈克尼说:“我们没有处理和挖掘海量社交媒体帖子价值的知识和工具。然而,一旦你收集了数据,你就需要能够获得足够多的关于公司事件的信息来将它们联系起来。”尽管哈克尼表示,JohnHancock在这一领域的努力仍处于“初级阶段”,但他相信IT部门将在公司数据的社交分析服务提供的数据关联中发挥重要作用。例如,如果社交媒体数据显示公司在中西部地区的社交评论越来越负面,他会想看看如果公司调整该地区的价格或策略,是否会扭转这种负面的发展趋势。
哈克尼表示,找到这种联系的意义在于让公司领导人相信投资社交媒体有很高的回报。他说:“在我的行业里,每个人都是精算师,每个人都在计算,他们不会想当然地做任何事情。”
以上是边肖为您分享的关于大数据时代的内容:五大商业分析技术趋势。更多信息可以关注全球常春藤分享更多干货。