# 第4章 二手数据和大数据分析

## 学习目标

1. 了解运用二手资料的优缺点
2. 理解数据挖掘和行为锚定
3. 了解大数据分析的优点，如何使其具有可操作性，以及数据可视化的重要性

什么是二手资料？使用二手资料的优点和缺点是什么呢？管理者所应用的数据挖掘如何在数据库中发挥洞察力？最重要的是，管理者是如何管理这些庞大的信息流的？这些间题我们都将在第4汽给予解答。

## 4. 1二手资料的实质

二手资料(secondarydata)是指以前已经收集好的，但不一定与当前间题有关的信息资料。原始资料(primary data)则正相反，它们是为了解决特定问题而专门收集的调研资料、观察资料或实验数据资料。任何一种市场调研都不可能是完全独一无二的，或是从未发生过的，很可能以前有人做过同样的或类似的调研。因此，二手资料是一种收集市场调研信息的经济实用的方法。二手资料有两个来源：一是公司自身（内部数据库）；二是其他组织，如Acxiom(外部数据库）。

源自公司内部的公开的二手信息包括年度报表、股东报告、销售数据、顾客文件、购买模式、产品测试结果（可向新闻媒介透露）、顾客的网络和移动终端跟踪、公司网站跟踪，以及由人事部门制作的与员工、顾客和其他人员进行交流的公司刊物等，通常这些信息都被并入公司的内部数据库。

公司外部的二手资料来源包括编辑和发布商业资料摘要的政府（联邦、州和地方）部门和机构；贸易和产业组织也提供公开的二手资料；还有更多资料来自商业期刊，以及经常刊登关于经济、特定的产业，甚至是对个别公司的研究和论文的新闻媒体。Acxiom用超过23000台电脑服务器来收集、整理和分析顾客数据。该公司创造了世界最大的顾客数据库，这些服务器每年加工处理超过500亿个交易数据，该数据库包含超过全球5亿顾客和大约每人I500个数据点。Acxiom的顾客包括E\*Trade、Ford、WellsFargo、Macy's这样的公司，而这些主要的大公司都追求对顾客行为的追踪洞察。Acxiom整合在线的、移动终端的、线下的数据，打造了深入彻底的顾客行为模式。公司专利软件PersonicX,将不同消费者细化到70个社会经济集群中的一个。例如，“单身贵族”这一群体，意味着这个依赖移动终端的中上阶层群体习惯网上理财，喜欢参与职业体育运动，对价格比较敏感，对免费购物持有积极响应的态度。

### 4. 1. 1二手资料的优点

由千收集二手资料只需要消耗一部分金钱和时间，并且不像收集原始数据那样不便，市场调研入员通常使用二手资料。二手资料的其他优点包括以下几个方面。

1. 二手资料有助千明确或重新明确探索性调研中的调研主题

回想一下第3章中本土公司YMCA的经历。一家当地YMCA对其停滞不前的会员人数和许多缺乏参与者的传统的YMCA项目，感到忧心忡忡，它决定对它的会员和非会员进行调研。二手资料显示有大量的年轻单身者流入目标市场地区，而“传统型家庭＂的数量则保持稳定。于是调研主题被确定为研究YMCA如何大量吸引年轻的单身成人，同时保持其在传统家庭中的市场份额。

1. 二手资料可以切实提供一些解决问题的方法

管理者所面对的间题，以及下达给市场调研人员的间题在很大程度上不可能是从未遇见的。很可能曾经有人研究过同样的或类似的间题。可能有人已经收集了所需的精确的资料，只不过不是针对当前的问题的。许多州都出版生产商名录（通常在网上可用），内有地址、市场、产品名录、工厂数量、主要领导的姓名、员工数量以及销售水平等信息。一家为半导体企业进行长期战略策划的咨询公司需要有关潜在客户的地区性简介，那么它可以利用各州的名录来编辑这份简介，而不需要收集原始资料。

1. 二手资料可以提供收集原始资料的备选方法

每个原始资料的调研努力都是为顾客设计来解决当前间题的，因此市场调研人员应该广泛吸取提供不同收集方法的信息。例如，作者曾为西南部一个大城市的接待办公室设计了一个调研方案，在设计间卷之前参考了《会议计划者》(MeetingandConventionPlanners)杂志的一项研究报告。这份研究报告中含有原始间卷，在作者的问卷中引用了其中的一组间题。这样，不仅晕表巳经规定好了，而且研究的结果还可以与杂志上的数据相比较。

1. 二手资料可以提醒市场调研人员注意潜在的问题和困难

除了提供方法外，二手信息还能暴露出潜在的危险，如收集方法不受欢迎、样本选择有困难或者被调研入员有敌对情绪等。例如，一位调研人员计划进行一项衡量对某种特定的兴奋药物的满意程度的研究。查阅了一项对麻醉学家的调研之后，他发现电话调研的拒绝率很高。千是，这位调研人员将原定的电话调查改成了邮寄间卷，并对回复者给予奖励。

1. 二手资料可以提供必要的背景信息以使调研报告更具说服力

二手资料经常能为设计调研计划方案提供大量的背景资料。它能够粗略地概括出潜在的顾客和非顾客、产业数据、新产品所需的特别广告、购买者在描述该产业时所使用的语言方式，以及新产品和巳有产品的优缺点等。了解目标消费者使用语言的方式，有助千组织间卷的语言，使被调研人员更准确和全面地理解间卷。有时，皆景资料还能直接符合研究的主题，从而不需在当前的调研中蜇复类似的问题。通常，问题越简短，回答率越高＾有时二手资料能提供对调研资料的进一步分析，或者是对当前的发现提供支待，从而丰富调研发现。最后，二手资料可以作为以后调研方案的参照基础。

1. 二手资料可以提供样本框

如果一家公司，如联合快递(UPS),想要跟踪每个季度的顾客满意度，顾客的姓名必须来自于它的数据库。因此，顾客名单就是样本框，并且样本框是从名单或是设备中进行的陨机抽样。

### 4. 1. 2二手资料的局限性

虽然二手资料有很多优点，但是它也存在着一些危险。它最主要的缺点就是缺乏可得性和相关性、不够准确、不够充分。

1. 缺乏可得性

对于某些问题，他们就是不存在二手资料。如果卡夫通用食品公司想要评价三种新的美食布朗尼混合配料的味道、口感和颜色，那么没有二手资料能够回答这些问题。消费者必须亲自品尝每一种混合配料，然后才能做出评价。如果麦当劳想要了解它在亚利桑那州菲尼克斯市的形象，它就必须收集原始资料；如果宝马汽车想要知道大学生对千新款两座跑车的设计的反应，它就必须向学生们展示跑车原型并评价他们的意见。当然，二手资料有可能在工程师设计跑车时起到了重要的作用。

1. 缺乏相关性

二手资料由于形式和方法上的原因而不能为调研人员所用的情况并不鲜见。例如，琼·德莫特是一个出售东方地毯的零售商，她确定主要顾客是家庭总收入在40000~~80000美元的家庭。更高收入的消费者倾向于购买超出琼·德莫特的价格范围的地毯。当她考虑是否在佛罗里达州的另一个城市开一家店时，她找不到适用的收入信息。一个信息资源提供的阶层划分是30000~~50000美元、50000~~70000美元、70000~~90000美元，依此类推；另一个二手资料来源将收入划分为低千15000美元、15000\~30000美元和30000美元以上。即使收入阶层符合琼·德莫特的需要，她也会面对另一个问题：这些信息过时f项是1995年的调研，另一项是2001年的调研。在变化迅速的佛罗里达市场上，这些数据很可能不再适用。这是在联邦调研资料中经常出现的情况，这些资料可以用时已经过去将近一年了。

1. 缺乏准确性

二手资料的使用者应该评估二手资料的准确性。在调研人员收集、整理、分析和提交资料的过程中，会有许多潜在的错误。任何一个没有注明可能存在的误差和误差范围的报告都值得怀疑。

使用二手资料并不意味若调研人员可以不评估资料的准确性。以下是一些判定二手资料准确性的方针。

(1)是谁收集的资料？二手资料的来源是准确性的关键。联邦机构、大多数的州政府机构和大型商业性市场调研机构是可以信赖的，它们做得是尽可能专业化的调研在查阅议程性的资料时应该特别谨怕。例如，一个商会总是要展示它好的一面。同样，同业公会也总是坚持自己的立场。

(2)调研的口的是什么？资料总是为了某种目的而收渠的L了解调研的动机可以提供一些评估资料质量的线索。对一个商会为吸引新产业进入该地区而作的调研，应当特别仔细小心。曾经有过广告商被他们的客户雇用，来评价广告方案的影响力。换旬话说就是，要求广告代理商自己评价他们为客户工作的质侃口

(3)收栠的是什么资料？调研人员应该准确地判定所收集的是什么样的信息，是从谁那里收集的。例如，在一项狗食品调查中，是否对听装、脱水和平脱水食物的购买者都进行了面谈？还是只对一两种食物的购买者进行了调研？在对选举人的调研中，是否只与民主党党员或共和党党员进行了面谈？是否所有的受访者都确是注册登记的选民？是否做了任何尝试以查叨受访者在下次投票巾的倾向？是否用了主观资料来推断实际行为？

(4)资料是什么时候收集的?- 项只调研周末顾客的购物中心调研不能反映出“典型的“光顾购物中心的顾客。在上午9点至下午5点之间做的电话访谈不能反映上班族的情况。对夏季佛罗里达游客做的调研可能反映出与冬季游客不同的动机和兴趣

(5)资料是如何收集的？资料是通过邮寄、电话，还是个人访谈的方式收梊的？每种收集方法都有它的优点和缺点。拒答率是多少？是否与决策者或者决策者的代表进行了面谈？简而言之，调研人员必须努力辨明巾于信息收集过程而带入资料中的偏见。一项1%回复率的邮件调研（这表示，只有1%收到调研邮件的人进行了回复）可能包含很多个人选择性的偏见。

(6)所得资料是否与其他资料\*11一致？二手资料之间缺乏一致性，是一个值得汴总的间题。调研人员应当深入探究造成矛盾的各种可能。不同的样本结构、时间因素、抽样方法、问卷结构，以及其他许多因素都会导致调研结果的不同。如果可能的话，调研人员应当评价各种调研的可靠性，从而决定应当使用哪一种调研来进行决策。

1. 资料不充分

也许调研入员确定资料是可获得的、相关的且准确的，但还是不足以据此做出决策或完全解决问题。沃尔玛的一名管理者要从艾奥瓦州的五个城市中选择一个建立新店。它可能拥有充分的关千收入、家庭规模、竞争对手数埴和增长潜力的二手资料C•然而，如果没有关千所选城市的交通情况的资料，就必须收渠原始资料，才能为新店选择明确的地点。

## 4. 2内部数据库

对于许多公司来说，存放着现有顾客和期望顾客信息的计算机数据库已经成为非常蜇要的营销工具。简单说，内部数据库(internaldatabase)就是相关信息的集合，而这些信息是从组织内部的资料发展而来的。

### 4. 2. 1建立内部数据库

从公司的销售活动中获取信息，不失为建立初始内部数据库的好办法。而传统的开始点是公司的销售系统或征询系统及跟踪系统。这种系统一般是以销售人员的“电话情况报告”为基础的。电话情况报告反映的是一名销售人员每天的工作活动。报告详细列出所拨电话的号码、所拜访的公司的特点、因电话而产生的销售活动，以及所收筷的有关竞争对手的信息，例如，价格的变化、投放的新产品或服务、信用条款的修改以及对手新推出产品和服务的特征等。一个基千销售情况、消费者偏好、互联网、移动终端和社会数据的内部二手营销数据库，可以成为一个有力的营销工具。

### 4. 2. 2数据挖掘

美国运通公司(AmericanExpress)使用中枢网络软件来检验它的数据库中的记录，这些记录可以告诉它们个人信用卡的持有者在怎样和在哪里进行了交易。中枢网络(neuralnetwork)软件是指通过模仿人类大脑极其通过示例的学习能力米从数据中找到一定的模式的过程的计算机项目。这样就可以得到每个持卡者的购买意向指数。以这些指数为基础，美国运通公司通过旗下分公司的个人信用卡持有者的购买情况确定与之匹配的业务并把它们作为月报的一部分。这样做的好处可以较少运通公司和持卡人高价值信息的成本；美国运通公司从事（数据挖掘的工作。

数据挖掘(datamining)是指使用统计或其他先进的软件来发现隐藏在资料中不易发现的模型。其目标是识别那些营销者可以在新的战略和战术中应用的校型，并以此来增加企业的利润。柯莱特音乐控股有限公司(KamelotMusicHoldings)运用数据挖掘来识别高消费群体，65岁以上顾客（它的频繁购买者俱乐部的成员）购买很多经典和爵士的音乐和电影。更深一步的数据挖掘，很大比例的人也会购买说唱和另类的音乐；这是祖父祖母买给他们的孙子孙女的。现在，柯莱特告诉年轻人在说唱和另类音乐中什么是流行的，就像和传统音乐一样。

数据挖掘包括寻找有趣的楼型和追随数据的路径看它通向哪里。这个发现的过程通常需要筛选海量的数据｀电子销售点交易、存货记录、在线顾客订购及其相匹配的人口统计特征很轻易地就可以占用上百G的存储空间。概率抽样、描述性统计、多变量统计都是可以控制性地进行数据挖掘的工具（概率抽样将在第13章进行讨论，描述性统计和多变挝分析将会在14\~18章进行介绍）。其他更加先进的数据挖掘工具，如遗传算法和案例分析推衍系统，就必须用千更高级的研究

### 4. 2. 3行为描定

行为错定(behavioral targeting)是指为f提高线上投放广告的有效性，利用线上和线下的数据来了解顾客行为、人口特征和社交网络。例如，Acxiorn旗下的PersonjcX公司就致力千行为锥定。随着互联网的成熟，无目标的广告投放巳经失去效用。一项研究发现，只有4%的互联网使用者会点击所有显示广告的67%;DoubleClick所做的近期研究发现，平均点击率只有0. 1%. 那意味着l000个入里只有一个人会去点击投放的广告。行为错定试图改变这一现状，从而帮助广告商。

一个从串收集和出售网络数据的调研公司EXelateMedia声称，它是美国最大的市场调研公司尼尔森控股的联盟。它们的交易将eXelate的1. 5亿个互联网使用者数据与尼尔森公司的包含1. 15亿个美国家庭的数据库相联系，以提供更多用户的具体信息。

EXelate通过处理成百上千的网站来收渠线上用户的数据。公司通过大量搜索网站的注册信息来确定顾客的年龄、性别、民族、社会地位和职业。举个例子，它精确到基于用户的网络搜索和经常浏览的网站来判定哪个汽车买主是健身爱好者。利用追踪历史记录或是在用户浏览网站时缓存在其电脑硬盘中的小数据流，来收集和存储信息。对于跟踪过程的更具体的讨论见第8章。

例如，一个汽车制造商，在推广跑车时可以利用EXelateMedia和尼尔森的数据库定点投放广告给那些浏览汽车博客、在网上搜索跑车信息、被尼尔森公司称作“青年文艺者“群体的人。这个群体的人指25\~44岁，年薪在88000美元的人，包括作家、住高级公寓特别是读《经济学人》杂志的人。

社交网数据巳经迎来了大繁荣。脸谱网和其他社交网站的用户表现出了他们的兴趣、互相之间的联系，以及不同以往的偏好。在过去，线上广告商发现给买过它们产品、浏览过它们网站或受过广告影响的老用户投放广告效率非常高，但是当有需求的人们并不了解产品时问题就来了，这时社交网数据就出现了。像Media68这样的公司，将广告商的顾客数据与社交网用户注册信息相联系，这一技术使该用户亲近的伙伴也成了潜在客户。所以，信息再次利用活动能将原始用户及其他们的朋友都变成目标客户。这一活动可能汇集到800万或I000万的潜在客户，而不仅仅是一个。这就是“物以类聚，人以群分”。

Lotame和33across以及其他公司都在为广告商挖掘社交网数据。Lotame试图使用社交网数据来获得影响力，在社交网站、博客以及用户撰写话题内容的信息板块都有它的足迹；接下来它通过添加消耗用户生成内容的人来扩大圈子；最后，它添加这些内容的创作者和顾客本人。

eBay和Spring都使用了33across来改进它们的线上广告投放效率。

## 4. 3大数据分析

回想一下，大数据分析是指大量信息的积累和分析。一个调研和咨询公司说，一个有着总共500万兆字节的商务活动数据的组织是一个有大数据的组织。百万兆字节是指有100万个字节，所以一个有着500万商务活动数据的公司就是大数据公司。大数据能为公司提供：

* 更深度的洞察。大数据调研人员洞察一切个体、一切产品、一切部分、一切事件、一切交易，而不是只看到市场细分、类别、集合或其他层级划分信息。
* 更广阔的视野。为了了解复杂的、演变的、相关的情况从而提供更精确的洞察，大数据分析考虑到一切数据，体系的和非体系的。

举个有关更深更广的洞察的例子，Cable电视的供应商表示，95%的订购都能按时满足。这听起来很厉害，但当你知道该公司每天有3000个订单，也就是说每天有150个顾客要在家里白白浪费时间等待时，你就不这么觉得了。如果可以将遗混的订单与呼叫中心、搜索中心和重复购买中心的数据，以及推特和脸谱网上的评论相联系，经理就能知逍每年他们遭受了多少差评，还不包括重新安排时间和加快进展拜访所带来的额外的成本。

### 4. 3. 1定义关系

对千科学家和市场调研入员来说，大数据分析代表了范式的转变。传统的科学方法包括得到间题信息、做假设，然后测试数据以决定接受或拒绝无效假设。假设驱动的调研，以巾调研人员规定好的因素为基础，它限制了去探索思维所能想象的。数据驱动科学让我们先收集数据，再看看数据告诉了我们什么，这与传统科学截然相反。

比起“为什么”，大数据更倾向于研究”是什么＂。在很多环境下”为什么“得来不易，而知逍”是什么＂巳经足够了。亚马逊公司用大数据分析销售数据从而发现有哪些是畅销书，推荐书单并不需要知过消费者为什么购买《战争与和平》或《白痴》。亚马逊公司或许并不关心为什么这两本书要合在一起推荐，但是它能这样呈现给消费者推荐他们购买，反之亦然。

有时”是什么“背后的东西会浮现，这时或许就需要传统科学去回答“为什么＂。例如，如果大数据告诉医疗保健方面的调研人员，走路多的人不容易肥胖，那么从逻辑上讲，下一个重要问题就是“为什么走路的人这么少＂。如果我们给肥胖者一个App使他能记录自己的身体活动会发生什么呢？这些问题都是传统科学要回答的了。

### 4. 3. 2大数据的突破

在不久之前，大数据分析的概念只是一个梦。通常用SQL语言来写的传统数据库将数据存储在表格和条形图中，但当存储诸如电子邮件和短信这样的文字流时就变得很有限，并且不能处理图像和视频。

新型数据库在2009年年末开始出现，如MongoDB、Cassandra和SimpleDB没有那些限制并能让分析者对数据建立查询。

这种NoSQL("notonlySQL")数据库，使公司分析庞大的数据变得不同于以前，即使它们是传统的。例如，VeriskAnalytics的风险顾间分析师对上百万顾客记录运用不同模型和分析方法帮助确定保险诈骗索赔。

Cerisk公司的副总裁兼信息主管佩里·罗泰拉(PerryRotella)说，在InternationalBussinessMachines上使用传统DB2数据库是＂耗时6小时的工作＂，要工作一晚上。分析师要时刻盯着结果并建立查询，不然就要重做。他说，每次都要耗费几周的时间，分析师需要建立一个新的统计模型。公司近期转型向NoSQL数据库了，这使分析师在30秒内就能运行查询。

最近开发的程序自然语言处理和机器学习依赖于电脑程序自身去寻找图样，甚至是分辨上下文中模棱两可的词汇。使用自然语言处理程序可以使程序识别出“炸弹”是指一个百老汇喜剧，而不是恐怖分子用的东西。

直到最近，复杂的电脑程序需要在昂贵的硬件上运行，比如大型主机计算机。如今，一个由雅虎研发、谷歌提供技术支持，以孩子的玩具大象命名的Hadoop开放资源软件框架，使查询由程序自身宪成。

不同的分析任务分配给了许多廉价的服务器，当任务完成时的重组查询前面每个服务器解决问题的一部分。将复杂的查询交给成本低廉的电脑服务器完成，使人们更快地解答各种间题。

网上汽车市场Edmunds. com能帮助汽车交易者通过与出厂时相比车标、型号等特征，预测交易的车辆能留在它们那里多长时间。这种预测帮助减少了汽车未卖出的天数一“交易者的最重要的销售绩效之一",Edmunds网站的信息主管菲利普·波特洛夫(Ph山pPotloff)说。

在下面的“市场调研实践4- 1"中，LuthResearch的副总贝基·吴(BeckyWu),讨论到大数据分析的前景是非常现实的。

**大数据揭示知识财富**

大数据极其重要的一个部分就是顾客使用电脑和移动设备时的行为跟踪，通过使用像LuthResearch的ZQ智能平台一类的计量技术。这种数据非常重要，因为顾客的生活被数字技术和媒体深深影响。每分钟：

* 200万次的谷歌查询；
* 571个新网站建立；
* 人们从苹果应用商店下载47000个移动App;
* 消费者在线上零售店花费272000美元。

这些是难以置信的数字，值得注意的是所有这些活动都是可跟踪的，实际上是被跟踪。这些数据存在于传统调研方式之外，在下面几个方面创造了市场调研的独特价值：

* 以行为为中心的数据将市场调研人员从必须根据消费者做什么从而做什么解放出来。调查和其他调研方式可以致力于他们真正的任务一—－了解消费者行为背后的原因。
* 大数据精确化，包括时间和地理位置（就移动跟踪来说）。其独特好处就是提供了上下文的理解、行为发生的时间和地点，这是传统市场调研长期欠缺的。
* 被动跟踪产生了一个庞大的连续数据。没有压力过重的受访者，结果数据优于传统调研可以提供的。

问题：

1. 实时跟踪是如何帮助市场营销者决策的？
2. 跟踪与传统市场调研可以互补吗？如果可以，怎么做？

### 4. 3. 3使大数据更具操作性

过千复杂的输出让入感到无所适从甚至会形成怀疑，因此需要更直观的工具来辅助日常决策。在市场调研的传统世界，产品经理或其他市场经理要到市场调研部门（或发送一份调研计划书）描述问题。调研人员接着要通过访谈他人来执行调研，紧接着是分析数据。下一步是幻灯片展示。最后，经理也许会也许不会采取行动。在大数据分析这一新领域，顾客的心理被传送到在规定基础上运营商务的人员那里。例如，商店经理、产品经理和呼叫中心管理者会收到专门为他们特定职能发送的信息。

自动化的决策制定在大数据分析中同样发挥重要作用。例如，一家网上商店在实时的基础上收到产品推荐，比如顾客正在购买过程中。大数据分析可以在顾客在分行或联系呼叫中心时为其推广信用卡。大数据的自动化要求为顾客进行私人订制，满足其特别需求，这将是一个增长态势。

### 4. 3. 4数据可视化

当然，不是所有的大数据输出都会导致决策自动化，大数据输出必须规范化、合理化。大多数人记不住比电话号码还长的一连串数字。所以，如何使上亿的数字变得合理？答案是利用图像展示或数据可视化。数据可视化(datavisualization)是使用图像可视技术阐述数据间的关系，回忆第1章中横穿美国的气流变化的例子。数据可视化公司，如Gooddata、Ayasdi、Tidemark和Platfora,将大扭数据转化成图像，以更直观地面对对它们来说重要的信息。

### 4. 3. 5隐私战争

大数据的弊端：顾客隐私。调研人员说他们的数据不包括个人身份信息。在一项调查中，只有32%的人说他们对广告商利用其浏览器的历史记录投送更多相关广告没有感到不适。还有多少跟踪正在发生呢？《华尔街日报》挑选出涵盖40%美国网页浏览量的50个网站。在一台用于研究的测试电脑上，这50个网站安装了总共3180个跟踪历史记录装置，只有一个网站(W如pedia. org)没有安装，包括Comcast. net和MSN. com在内的12个网站，安装了超过100个跟踪工具。Dictionary. com安装了168个使用户不能拒绝的跟踪工具，据私下透混，还有121个规定外的收集财务和健康数据的装四。

美国国会正在考虑对跟踪实施法律限制。联邦贸易委员会出台了该行业的隐私规定。“如果你在Gap购物，服务员过来告诉你，｀既然你每天都在这购物，从现在开始，我们每天都在这个购物中心跟踪你并且观察你的每次交易＇，没人会同意这种事。“佛罗里达州的参议院GeorgeLeMieux在一次参议院听证会上就网络隐私说逍。

电脑顾问汤姆·欧沃德(TomOwad)发布了一个实验结果，关于从Net. 如何轻易地获取敏感的个入信息，给我们上了一课。欧沃德先生写了一个简单的软件程序，使他能在亚马逊网站上下载顾客贴出的他们想买或想作为礼物收到的公众心愿单，这个心愿单通常包括顾客的姓名和他所在的城市和州。

欧沃德先生使用几个标准配置的电脑就能每天下载超过25万个心愿单。他接下来搜索有争议的或政治题材的敏感书籍以及其作者的数据，从库尔特·冯内古特(KurtVonnegut)写的《五号屠宰场》到韩国作家的书；他接着用雅虎PeopleSearch来定位写心愿单的顾客的地址和电话号码。

最后，欧沃德先生用美国地图呈现出喜欢某本书和某个想法的入住在哪里，其中包括乔治·奥威尔写的《1984》。他本可以只简单地出版一个能呈现人们对心灵鸡汤书籍或对收养孩子书籍感兴趣的人的住处的地图。“以前需要授权以掌控一个人，“欧沃德先生总结逍，“现在控制思想却越来越容易，接下来就可以掌控其入了。”

有了挖掘诸多网站和数据库的数据挖掘软件，欧沃德先生亲手操作的事逐渐变得自动化。网络的本质特征之一是不同信息存储的互联，但这也使发现数据背后的联系变得容易。

被称作“挖掘＂的这一技术的出现，使许多隐私维护者感到愤怒。公司从社交网站、注册网站和讨论他们生活的网络论坛上获取网上对话和收集个人具体信息（关千挖掘的更多具体探讨详见第8章）。

最近PatientsLikeMe. com网站上开展了情绪讨论的活动。在那里，人们交换关千他们情绪失控、极端情绪甚至想自杀的高度隐私的个入经历。

这是一种非法闯入。许多网站使用复杂软件进入该网站，挖掘或复制在线讨论的每一条个人信息。

PatientsLikeMe试图管理并阻止闯入者一尼尔森公司，这个私下掌握纽约媒体调研的公司。尼尔森为客户掌控着网上信息，包括主要的药品制造商。据尼尔森公司说，这些公司会购买它们收集的数据来分析顾客对产品的需求。

“我觉得完全被侵犯了。”来自澳大利亚悉尼的33岁居民比埃尔说，在经历莉苦时他使用PatientsLikeMe来和其他人谈心。他在消息板上使用的笔名，但PatientsLikeMe与他的博客相关联，也就是他的真实姓名。

在PatientsLikeMe告诉用户非法闯入一事后，艾哈迈德先生删掉了他所有的帖子还有他平时服用的药物清单。“知过自己的信息被买卖是非常困扰的事。”他说逍。尼尔森公司也承诺不会再从用户隐私消息板中挖掘数据。

行为跟踪成了线上广告业的基础。线上广告投放就是为什么谷歌公司愿意花费上百万美元的资金投入免费服务研发（如Gmail、地图工具、GoogleGroup和更多这类搜索引睾）的原因。

并不只是谷歌公司。脸谱网、雅虎、MSN以及成百上千的博客、新网站和评论区通过投放广告来支持运营。针对个人的广告比泛泛的广告更有价值。为了接近你，让你更可能使用他们公司的产品和服务，市场营销人员愿意花更多钱。

互联网正处于一个对个人数据的控制的军备竞赛中。脸谱网超过600亿美元的价值就是线上跟踪用户的价值的证明。新公司（如Disconnect)尽量阻止用户被跟踪。许多公司意识到阻止网络跟踪的价值。例如，Snapchat提供了一个照片删除手机软件；Ipredator将用户在网络上的身份锁住；SilentCircle对用户的来电、短信、邮件进行加密。

一个代表线上市场营销人员的组织一互动广告局，其总法律顾问迈克·詹内斯(MikeZaneis),担心隐私工具对数字化营销的影响，该行业在2012年的收入巳达366亿美元。”这是一种经济交易，＂詹内斯说，“如果广泛推广和大员应用，它会使成千上万的小出版商倒闭。”

表4- 1列举了几种防止窥探隐私的方法。

1. 身份失窃

人们有权利被关注。身份失窃每年要花费sso亿美元。ChoicePoint公司曾经遭受押击。自1997年从信用机构Equifax剥离出来，它尽瞿买下数据库并从事数据挖掘的经营。企业、个人甚至联邦调查局，现在都依赖它的宝库。其他的消费者：行骗者公然用这些数据来盗取人们的身份(ID)。

表4- 1如何遮盖你的网上痕迹

简单方式

包括微软的Corp浏览器、MozillaFoundation的Firefox浏览器、谷歌Chrome浏览器和苹果公司的Safari浏览器在内的几款主流浏览器都有隐私功能。为了达到更商的隐私程度，将你的浏览器升级至最新版本

查看和删除历史记录：所有主流浏览器都有查看和删除缓存的功能，不同浏览器有不同方式。例如，IE浏览器8(最广泛使用的浏览器）．“工具”一栏的下拉菜单“网络选项”中，在“通用”里可以选择部分删除或全部删除

更改浏览器设置：一旦你删除了历史记录，你可以限制生成新的记录。几款主流浏览器能保留一部分历史记录同时阻止生成其他的。为了保留你经常使用的网站又同时限制跟踪，阻止第三方历史记录生成。Safari浏览器能自动做到这点，其他浏览器需要手动设置

非主流浏览器允许你跟踪或阻止信标（信标是一个跟踪你浏览网页的一个文件）．其他需安装的软件叫作＂插件”

启动隐私模式：所有主流浏览器都提供隐私模式以限制缓存的生成。在Chrome浏览器中叫“隐藏身份＂，在IE浏览器中叫“隐私换式”，但这一选项只在最新版IE浏览器8中才有。隐私模式不会阻止记录生成，在你关闭浏览器时，它的清除历史记录有效地隐藏了你的历史浏览痕迹

控制“动画缓存”：另一种缓存是用AdobeSystems公司受欢迎的动画播放程序来保存你电脑上的信息。动画是在线乔视频的最普遍的方式。与常规缓存相比，动画缓存可以用来记录表现．比如视频音拭设置。但是，市场营销人员也用动画缓存来乔你在网站上做什么

为了确定你电脑上的动画缓存并调整你的设置，你需要进入Adobe的网站：<http://www.macromedia.com/support/docurnentation/flashplayer/help/settings_manager.html> 。你可以删除你电脑上的动画缓存并决定你是否想要接受第三方的动画缓存

**高级方式**

安装隐私插件：被称作“插件”的一类小程序可以帮助保护隐私，有一些能帮助你控制浏览器中历史痕迹不被乔见，另一些让你能定期删除缓存

不是所有的浏览器都能使用插件，并且有的插件安装起来很费扣。在这种情况下，有的插件值得一看：

BetterPrivacy:这款插件能全面控制动画缓存，它不阻止它们生成，但是能让你为删除它们设甡规定一个特质就是如果你经常设笠它允许你使用第三方动画缓存查看它们的内容，BetterPrivacy(只适用于Firefox浏览器）在这个网址：<http://addons.mozilla.org/en-US/firefox/addon/betterprivacy/>

Ghostery:在ghostery.com网站上可获得，它帮助控制信标。它提醒你在你浏览的网页上有信标出现，告诉你是谁放笠的，并且告诉你该公司隐私政策的具体内容。IE浏览器和Firefox浏览器都能使用

间题是不可靠的保障。为了保障只有确定的业务才能存入它们的数据，ChoicePoint公司设立了潜在客户必须满足的一些要求。一个叫作OlatunjiOluwatosin的人一—也有可能是其他人，使用假名和一个好莱坞的复印店的传真机来创造虚构的小企业的服务请求给ChoicePoint公司。在Oluwatosin被逮到之前，ChoicePoint公司的某些人开始怀疑他的某一个申请，结果发现他已经获取了至少145000个名字(2005年2月，在加利福尼亚州，Oluwatosin承认了他身份盗窃的蜇罪，现在他正处于16个月的服刑中）。2005年，ChoicePoint公司声明它们将不再出售消费者的信息，包括驾照牌号和社会保险编号。

在很多情况下，要在网上找到社会保险、信用卡号或医疗记录，并不需要很多网络专业本领，这些信息对知道去哪里寻找的人来说能轻而易举地得到。

达特茅斯大学塔克商学院的教授埃里克·约翰逊(EricJohnson)发现，成干上万人的包含有姓名、社会保险和医疗保险号的资料被所谓的一对一软件挖掘出。

这种软件，如LimeWire,允许电脑直接与另一台电脑连接，用来传输音乐和视频文件的，但却能传输各种数据，包括工作地点资料和电子表格。

约翰逊先生说，他通过在软件中键入关键字（比如医院名），打开了1718页资料，包括保险细节和一个医药实验室泄露的诊断。他说．他同时发现一个医院系统的包含2万多名病人的社会保险号的电子表格。

“现在是没发生黑客或那一类的事，”他说，“我们只是在搜索。”

约翰逊先生说他联系了一些机构，但尽管他们从雇主电脑里清楚了一对一软件，数据的复制版或许仍能在网上找到。

一个与代表合作客户寻找泄露文件的安全公司Tiversa的调研员里克·华莱士(RickWallace)说，在许多情况下，信息技术罪犯下载包含敏感个人信息的资料。Tiversa公司发现，其客户在一年内泄露了超过130万份的资料。

信息技术罪犯通常将信用卡号和他们在黑客聊天室找到的其他个人信息进行出售。在谷歌中键入"fullz"和"Cvv2"就能了解一二。

Sellitsafe公司的总裁史蒂文·佩斯纳(StevenPeiisner)说，泄露出来的数据是黑客闯入了安全保护脆弱的系统，这帮商人避免经历欺诈购买。他估计，他看过大约15000份被窃取的账户被公开到这个互联网的隐蔽角落。

1. 政府行动 为了使消费者免受身份盗窃的困扰，几部主要的法律（一个是州法）已经通过。

(1)联邦法律。

《金融服务现代化法案》：目标是那些金融公司。这需要这些公司告诉消费者如何使用他们的个人信息，并且要为了防止利用这些信息的欺诈行为而制定政策。部分法规从2001年就巳经开始实行了。

《健康保险与责任法案》：目标是保健行业。禁止泄露个人医疗信息并且将对违反了隐私条例的组织处以惩罚。大公司要求从2003年开始实行。

《公平信用报告法案》(FCRA):由美国联邦贸易委员会执行。在消费者报告中更精确地改进，并且意味着关于隐私的信息会在其中加以确认。

《美国儿童互联网隐私保护法案》(COPPA):目标在千家长们对网上收集的有关他们子女的信息加以控制，并且如何使用这些信息。

该规则适用千：

* 直接面向13岁以下儿童的商业网站经营者和在线服务商收集他们的个人信息。
* 无年龄限制的网站经营者有意收集13岁以下儿童的个人信息。
* 无年龄限制的网站经营者拥有分离出的儿童区域，并收集13岁以下儿童的个人信息。该规则要求经营者：
* 在公司网上贴出隐私政策，并且在每个收集个人信息的网页上都应该有到信息政策网页的链接。
* 向家长们提供网站信息收集行为的通知，并且在收集孩子的个人信息之前要真正获得家长们的同意。
* 给家长们关于他们子女的个人信息是否将被泄露给第三方的选择。
* 提供给家长们可以进入他们子女个人信息的通道，并且有机会删除他们子女的个人信息，可以不参加将来的信息收集或使用这些信息。
* 在孩子合理的参加游戏、竞赛或是其他活动时，不应以披森更多孩子的个人信息为条件。
* 保持从孩子处收集的个人信息的保密、安全和完整。

(2)州法。

《加利福尼亚州关千违反安全法律的公告》：如果任何公司或代理人收集现有加利福尼亚居民的信息，一经发现有未经授权而编码个入信息的行为，这个公司或代理入必须告知居民。此公告从2003年开始实施（其他30个州也正在考虑出台类似法律）。

## 4. 4地理信息系统

地理信息系统(geographicinformationsystem,GIS)是向决策支持系统提供持续更新的地理数据库和可以进行复杂的空间分析等信息的一种手段。空间分析是关千空间内分布的事物和物理维度（方位、附近的或目标所在的方向，如一些商店，彼此互相涉及）的分析。一个地理数据库可以存储和提供公司的数据，如消费者的位置、设施、物流和竞争者。作为一种空间分析的工具，这些公司的信息可以淹没在人口统计资料的数据库中，通过数字地图来础定最佳的方位。公用书业、石油公司、大型零售商和政府部门都早巳使用这些系统。今天，这项技术每年在硬件、软件和咨询方面的销售收入达几十亿美元。这样迅速的发展有三个原因：地理信息系统的成本急剧下降；业务相关分析的易用度也已经提高；地理信息系统的数据现在可以很容易地上传到互联网上。地理信息系统现在是最热门的商业信息工具之一。各类公司，如曼哈顿投资银行(ChaseManhattan)、达美乐比萨(Domino'sPizza)、哈德瓦公司(ACEHardware)、黄金健身房(Gold'sGym)和美国斯巴鲁(SubaruAmerica),都把制图作为一种比打印文件、电子表格和图表更简单、更有力地管理地理信息的方法，并且也使委托商能更直观地组织资料，观察资料间的相互关系和内在模式。

地理学家谈论的是点、线、面，而市场调研人员谈论的则是逍路、商店和销售地域。但是，从点、线、面的角度来思考，有助千从按地理学方式显示的数据库中搜寻有用的商业资源。涉及“线”的应用包括为长途运输公司寻找最便捷的线路，以便其为地方递送车安排最短的线路。UPS推测每天的配送路线，以“估计行驶时间、返回时间、卡车的能力、最优停止序列”为基础。汽车中的GPS接收器可以与地理信息系统进行交流，来向司机发送实时的天气和路况信息。涉及“点”的应用包括为零售分支机构寻找可能的最佳地点，以及为小型货栈网络化制定最佳战略；涉及“面”的应用包括从寻找最佳的硬件销售市场到寻找最佳的塔可钟墨西哥饼速食店新店地址。地理信息系统还能够回答更为细节化的营销间题。如果目标公司的一名营销人员想知逍本公司有多少销售表现非常好的货栈，在某一销售地域上的重叠率超过了50%,那么地理信息系统回答这种间题就像一名专业地理学家回答有关空间间题一样轻而易举。

汽车修理的零件市场是一个高度竞争的价值900亿美元的市场，其中的代理商也巳经提高了它们的服务和市场占有率。为了在竞争中保持领先，万利捷折扣消声器公司(MernekeDiscountMuffler)已经转向了地理信息系统。万利捷的900个特许经营商持续地将详细的顾客和服务记录发送给万利捷位于美国北卡罗来纳州夏洛特市的总部，这些记录包括顾客的名字和家庭住址，汽车的型号、厂家和生产年份，性能表现，支付方式，它们也说明顾客是如何看待万利捷的。这些数据与人口统计资料、平均的上下班时间、市场区域的收入之类的数据整合成为一个地理数据库。万利捷接下来可以通过地图显示设计它们顾客基地自己的店铺、竞争对手和其他零件批发商。地理信息系统分析用来选址、市场占有率分析和存货管理。

利用地图信息公司(MaplnfoCorporation)生产的地图信息软件，万利捷的分析者发展地理信息模式（地理方案），允许他们明确说明现在或将来的批发商的位巴，并且接下来完成一个简单的了解报告。万利捷可以将合适的区域进行顾客定制化。如果市场调研显示，如果一些顾客不会穿越一条河或是一个州选择最近的批发商，而是愿意多开两公里去另一个区的万利捷的特许经营商那里，那么公司就可以用地图信息软件生成一个电子地图来反映那些购买模式。万利捷运用地理信息系统通过分析人口统计资料、平均的上下班时间合理的购买记录来决定最优的存货水平，这样可以指出短期和长期的潜在业务。

“我们可以在地图上定位一家商店，画出它的半径，然后让系统来告诉我们在这个区域内有多少汽车，“万利捷的不动产和国际开发的总监保罗·巴拉塔(PaulBaratta)说，”在一个指定的社区可能有75000辆汽车，但是其他的数据可能显示有65000辆都是丰田品牌的。有多少人会把消声器放入他们的每两年就会更换的汽车里？＇地理信息系统＇通过另一种方式来看待这些信息。”

地图信息软件现在和地理信息系统、数据挖掘、预测分析软件相结合不仅能预测哪个市场有最好的潜在扩张的能力，到具体的道路交叉口也可以看到与连锁店相比每一家新的店铺如何影响总收入，生成的以颜色标示的地图会显示最优的场所。例如，快餐业类似的商家往往是有利的聚合，典型的晚餐是只花费5分钟就可以解决的快餐，还是倾向千去有无数选择的地方。但是，就如同从亚比快咎(Arby)看到的，特殊的产品可以影响行为。地图信息软件发现，用餐者会选择比连锁炸鸡远20%的亚比烤牛肉三明治。原因是什么呢？购买者可以在其他地方买到炸鸡，但是将烤牛肉看作“终极目标”产品。

## 4. 5决策支持系统

决策支持系统(decisionsupportsystem,DSS)必须设计得能够支持决策者个人的需要和风格。在理论上，决策支持系统接近千数据库管理的终极目标。我们说“在理论上"'是因为在实践中，教科书上的理想决策支持系统的大部分都没有实现。然而，已经有了一些值得注意的特例是DSS能够直接支持决策制定过程已经隐约让我们看到光明了。真正的决策支持系统具有以下特点：

* 互动性。管理者发出简单命令，当场察看结果。整个过程在管理者的直接控制之下，不需计算机程序，不需等待定期的报表。
* 灵活性。系统可以以任意方式分类、重组、汇总、平均和操作数据库。当使用者改变题目时，系统将自动调整，使信息与当前间题柜匹配。例如，总经理能够看到高度综合的数据，而营销分析员能够看到非常细微的突破。
* 发现导向性。它有助于管理者探察趋势，区分问题，并提出新的间题。
* 易千学习和操作。管理者不需特殊的计算机背景知识。新手通过选择标准或默认操作方式，避开自由选项，就能立刻操作基本系统，然后逐渐学会系统的潜在功能。这使得新软件通常带来的困惑降到最低。

忤理者可以使用决策支持系统进行销售分析、预测销售额、评价广告作用、分析产品组合，以及把握市场走向和竞争对手的行动。决策支持系统不仅能回答“如果. . . . . . 那么. . . . . . "的间题，还能使管理者根据自己的需要来分析数据。

这里有一个新产品经理提供的利用DSS的假设案例：

为了评价新推出产品的销售情况，他选择了按细分市场逐周、逐月地回顾销售额。当他在自己的终端前工作时，他的询问可以有若干种走向，这取决于当时要做的决定。如果他思路中的问题是比较上一季度的实际月销售额和预测数，他希望他的决策支持系统跟上他的思路，并立刻给他答案。

他看到新产品的实际销售额明显低于预测数。是预测过于乐观了？他又比较了其他产品的实际销售额与他的预测数，发现预测是很准确的。是产品有问题？也许他的销售部没有得到足够的指导，或者没有很好地利用指导。想了一分钟该如何查明问题之后，他一个产品一个产品地检查了产生实际销售的指导的比例。

结果今他很困惑，只有5%的新产品的指导最终带来了订单，而公司在这方面的平均比例是12%。为什么呢？他猜想是销售人员对新产品没有给子足够的支持。

决策支持系统还能提供更多的支待这一猜测的证据，而这位副总栽已经荻得了令他满意的足够信息，于是他根据自己的直觉和经验开始采取行动，并决定和他的销售经理谈一谈。

## 本章小结

二手资料是所有过去收集的，但不一定与当前问题相关的信息，二手资料可以通过组织内部和外部两种渠道获得。原始资料是专门为解决当前研究的特定问题而收集的调研、观察或实验资料。

使用二手资料具有若干优点：

1. 在试探性调研中，有助于识别和再确定调研主题；
2. 提供解决问题的方法；
3. 可以提供收集原始资料的备选方法；
4. 提醒市场调研人员注意潜在的问题和困难；
5. 提供必要的背景信息以使调研报告更有说服力。

使用二手资料的缺点在于缺乏可得性、缺乏相关性，缺乏准确性，以及不足以据此做出决策。

数据库是相关资料的集合r最常见的营销内部数据库是建立在顾客信息基础之上的。例如，一个顾客数据库包括现有顾客的人口统计资料和心理行为方面的信息，还包括购买资料，比如产品和服务的购买时间、商品的种类、销售额以及与销售有关的促销活动。－个数据库甚至可以为了记录谈话、社交媒体帖子、YouTube网站的视频、OPS跟踪数据、店内跟踪摄像头、信用卡交易数据而建立。内部数据库可能还包括有关竟争对手的情报，比如竟争对手的新产品、价格变化和服务政策的变化

数据挖掘很大程度上增加了使用者从数据库中获得有深刻见解的信息的能力。它可以用来获得新的萨、保留现有的顾客，放弃不符合成本－效益的顾客，并且进行以市场为基础的分析

大数据1能使管理者更深更广地洞察消费者、市场、竞争环境和商业发展趋势。大数据可以发掘容易被忽略的数据模式，大数据分析告诉管理者面对的是什么情况。当科学家为了分析非结构性数据，比如YouTube视频网站，而进一步发展了算法时，便收获了了解大数据作用的这一重大突破。了解大数据作用的一个关键是数据可视化。

互联网上或互联网网下的数据库的增多增加了消费者和政府对于隐私权的关心。巳经出台了一些法令来维护隐私权，包括《金融服务现代化法案》《健康保险与责任法案》《公平信用报告法案》《美国儿童互联网隐私保护法案》《加利福尼亚州关于违反安全法律的公告》。

地理信息系统(GIS)由人口统计资料数据库、数字地图和相关软件组成，它也能够在系统组合中添加当前调研中的原始资料（或相关的二手资料）。结果，计算机所画的地图可以让营销经理有多种战略发现，例如反映出新零售店的理想地址

决策支持系统是根据决策者个人的判断事物的方法而设计的。决策支持系统具有互动性、灵活性、发现导向性以及易于学习和操作等特点。良好的决策支持系统能为小型和大型企业提供同样的裨益。

## 复习思考题

1. 力什么要建立内部营销数据库？列举几种该数据库中应包含的信息以及这些信息的 来源。
2. 为什么对于类似联合航空、美国运通和福特汽车等公司来说数据挖掘变得如此盛行？
3. 有人说大数据分析让科学方法走到尽头了，这是什么意思？
4. 为什么二手资料经常比原始资料更受喜爱？ 5使用二手资料时易犯什么错误？
5. 为什么行为错定如此受市场营销人员的喜爱？为什么它备受争议？ 7当公司没有出现问题时，是否有必要进行市场调研？是否有必要建立决策支持系统？
6. 什么是数据可视化？为什么它如此重要？
7. 将班级分为4组或5组，每组都在互联网上搜索大数据分析，之后每组向全班汇报一个具体的公司是如何利用大数据来提高它们的营销效率的。

## 调研实例4- 1

**内特·希尔有趣的奇妙世界**

现在的问题是大数据（庞大信息的积累和分析）是否会改变我们的世界又或者它只是言过其买的技木、一个美好的不真实的谎言。内特·希尔在体育和政治领域的数据分析可以说是出类拔萃的。在事业早期，他创造了一种棒球统计分析模型PECOTA,可以非常出色地判断小型联赛最有可能出现的主要表现。最近，他的FiveThirtyEight. com博客出色地分析了投票和经济数据，以预测2008年总统大选（准确地说是49个州或50个州）和2012年大选。他最近又涉足奥斯卡奖得主、NCAA篮球冠军以及同性恋婚姻的地理分布的预测。至少在过去5年中，他的方法和模型被提问、被质疑、被嘲笑。然而，他以几乎无误的一致性回应质疑者，称大数据集和杀手算法会成为嬴家。

那么大数据是否会改变世界？“回顾我们意识到的变革，“希尔说，”都不是我们事先就发现的。”一如既往地，他是正确的，但是他没有准确对待这个问题。我们生活在一个复杂的而且很多事讲不通的世界里，我们经常对计算机期待大多，对我们自己要求大少。“当应该提出更好的问题时，”他说，“人们却责怪数据。”

希尔很快指出我们最熟悉也可以说是最成功的大数据应用，包括依赖庞大数据基础和神奇模型正变得越来越准确的国家天气服务预测和座风预警。其他熟悉的例子也有。华尔街的金融工程师多年来一直在帮助基金会解释复杂的交易数据。沃森(Watson),IBM的计算机，在法庭上获胜了，现在被应用到医药治疗和财务规划领域，它在一些用自然语言而不是数字语言描述的非体系化大数据上获得了成功。Palantir,是另一个以国家安全的名义故意模糊处理大数据的公司。其他还有亚马逊、脸谱网、谷歌和推特，都是收集用户数据中最主流的公司代表。

这对汤姆没有什么损失，他的声誉正如他的领域是讨论最新的统计工具大数据是否是真正的变革，总是很有高度、超出现实的。大数据以一种形式或另一种形式存在即使不是几个世纪也是多年的事实，这不意味着近几年没有新情况涌现。如果你询问六位包括希尔在内的国家顶尖数据科学家，你就会知道事物的确是变化发展的。但是为什么呢？正如希尔所见，“很少有事会变得非常好，很多事只会变得好了一点”。

如今我们能够获得更多的数据，多亏电话、感应器和网站流蜇信息、记录和评估的作用。我们有更多计算机能完成的事情，花费更少的成本。不同类型的数据库之间的相互作用更为强大，帮助揭示了我们以前很难发现的消费者、政策、运动、疾病、市场、媒体的图像，获得特定数据的能力和速度也在提升。

大数据不只关千商业和利润，还有跟踪像流感一类的疾病感染的作用。谷歌用它的大量数据创造了一个最高水平的语言翻译程序；IBM应用它的数据分析能力早先确诊了新生儿的一些不可侦测的健康风险；通用电气创造了带感应器的新型喷气发动机，能够收集和转换针对表现和发现潜在问题的难以置信的数量的信息。同时，一个许多公司不熟悉的名字为ore. Osito的硅谷新兴公司，拥有一个收集定位和用户日常生活数据，以提供他们一天当中有用的信息（如果道路堵塞了，Osito会提醒你在下一个出现前提早离开）的手机App。还有Kaggle公司，一个定位向合作伙伴进行“数据挑战”的非营利公司，将成千上万的数据科学家集中到竞赛中以解决它们。最近，为回应康奈尔大学和一个海洋地理大数据公司Marineexplore发出的挑战，Kaggle要求它的使用者想出一个算法来改善浮标系统，以避免船只碰撞濒危鲸鱼物种（奖金是IO000美元）；另一个竞赛是让使用者创造一个计算程序来分析病人的健康记录，以预测他们还要在医院里花多少钱（奖金是300万美元）。

问题：

1. 大数据会从商业中排除市场调研吗？为什么？
2. 进入内特·希尔的博客<http://www.fivethirtyeight.com>,并说明他最近在讨论什么话题。
3. 这个案例提到了几个非商业的大数据应用。你能想到其他大数据可以解决的非商业的问题吗？
4. 是什么因素导致了大数据时代？
