足球竞猜app软件网络世界主编约翰·迪克斯第一个说话的德里克·斯特劳斯一年前当时他刚刚开始担任TD Ameritrade的第一任首席数据官。他建立了一个新的小组——企业数据和分析小组,并刚刚完成了18个月的工作来支撑九个新平台,包括一个Hadoop数据存储和一个元数据存储库。迪克斯最近拜访了施特劳斯,看看这个巨大的事业是如何运作的。
我们从哪里开始对我们上次辐你已经取得了什么更新?
I’ve got a long list of things we’ve been tracking in terms of value, so I can hit some of the high spots, and then it might be good to step back and look at some of the other things we’re gearing up for that are only possible because of the foundation we’ve laid. We’re going to be embarking on a pretty aggressive timeline for these new initiatives, and I feel good about being aggressive because the foundation is in place.
你提到Hadoop的努力,所以我们为什么不从那里开始。用Hadoop驱动是围绕个性化使我们的客户觉得我们了解他们,我们可以提供有益的启示和教育,没有它的感觉让人毛骨悚然。重点是要像亚马逊的建议,你去哪里,“哇,我像他们暗示什么,这是非常有用的。”
我们将Hadoop环境称为数据编组场。为什么?因为这是仓库的上游。想想原材料被整合在一起被制造成某种东西。它们通常会被铁路运输,然后进入编组场,在那里它们会被分拣,然后送到各个工厂和下游的仓库,然后你就可以对这些原材料进行分析。因此,把它称为数据编组场似乎是一个很自然的类比。
我们用什么与做呢?一对夫妇的关键的东西。我们主要集中在拉动聊天信息和电子邮件,很多文本的东西,尝试和了解客户的行为,所以我们可以在场景方面优化客户体验。我们还看什么我们的客户都在谈论和阅读。当他们给我们打电话,他们想谈点什么?把所有与他们在我们网站上的活动,一起的,我们计算出该客户真正感兴趣的某些类型的资产类别,然后我们可以看一下,看是否有第三方的任何报告,由政府,无论谁,说:“It seems like this is an area you’re interested in. Are you aware these resources have just been published and here’s a link to them.” All of that is around personalization.
因此,我们实现分析的好处,但也有围绕数据和数据管理的好处。
让我们举一个代码表的简单例子。代码可以是任何东西,但是让我们看看国家代码。南非是ZA。美国是美利坚合2020欧洲杯夺冠热门众国。当程序员编写程序时,如果没有一个国家的代码表,每个人都可以引用为权威的表,每个人都硬编码到他们的程序。但任何大型组织都有数百个系统,所以可能有100个国家代码表,或者更糟的是,每个程序都有一个。
主数据管理是所有关于试图解决。国家代码只是一个简单的例子,但是当我们开始寻找这是令人惊讶的是很多时候人们已经创建了冗余桌子,和可能导致的监管及合规问题,各种和大量不准确的。
就拿我来说吧。我出生在罗得西亚。罗得西亚不存在了,但如果你正在寻找Derek的发源地,你要知道,现在的罗得西亚津巴布韦是?保持地域的东西,记忆集中是每个企业的需求,没有人真正拥有。
我们实现了主数据管理功能,我们处理的第一件事就是国家代码。现在我们的应用程序开发团队知道他们可以通过一个权威的来源找到它。他们不会继续延续数据中的冗余和错误,而且如果有什么变化,他们也不需要记得更新他们的程序,因为公司里的人现在拥有并负责更新这些数据。
这些类型的效率是巨大的,而且往往会被忽视。当你想到首席数据官的角色,人只是想想分析侧的嘶嘶声,但有对数据集是任何组织大加一个非常现实的效率的一面。
一旦你有了这个主数据管理能力,我相信你四处寻找的努力和真相的多个版本的重复?
对。当你找到它,你需要找一个人拥有它。这是事物的数据治理的一面。You find an owner and that owner points to the data steward who is normally someone who is already doing work trying to fix the problem, and you say, “Here’s a tool where you can analyze all the different values you’ve got today, harmonize them, create one source of the truth and you own that and you make sure that is up to date and everyone else starts using that.” That makes a big difference.
但实际上有成百上千的例子可以应用这一点,这是一个与业务团队合作的问题,他们经常在这些事情上出错,把它们排序,然后一次挑出一个,然后解决它。
房间里的一头大象是客户,因为我们,像许多金融机构,都长大了是帐户为中心。因此,约翰,让我们开一个帐户为您服务。哦,你想吃点别的什么?好吧,让我们打开另一个账户给你,另外,和其他。我们每次开设一个账户,用户时间,冗余创建该帐户记录您的信息。我们不会对你一个中央记录。
在幕后,为金融企业才能够对付你作为客户端,与我们理解你的业务总量,并相应地对待你,我们有一千个侏儒整个晚上跑来跑去试图一起把这个信息。
I’m exaggerating for effect, of course, but it’s a big thing because it’s like open heart surgery for the organization and you’ve got to really know that you’re going to be successful and you’ve got to plan the creation of a client master very carefully. We now have an opportunity to address that head-on because we’ve put a lot of the building blocks in place. I’ll come back to that one. That was just sowing the seed. Master data management is a key benefit and it’s all about efficiency.
数据质量的改进是另一个关键好处。《爱国者法案》规定了很多关于反洗钱的内容,客户的五个主要属性是非常重要的,必须井然有序。其中一个是出生日期。
怎么可能有周围的任何波动?
已经通过收购成长的任何公司不得不做出一些决定,其中权宜之计战胜了保证数据的最高品质。For example, if we had acquired a book of business with a couple thousand clients and their records related to date of birth were incomplete, we might have decided to bring them in with today’s date being the date of birth and the idea that we would go back and fix it over time. The expedient thing was to get the conversion done. Other times the programs capturing the data in the companies we acquired didn’t have the right sort of edits so you had people with birth dates in the 1800s instead of the 1900 or birthdates in the future. Just crazy stuff.
我们看到所有这些事情,并认为,“好吧,这将是有趣的。我们将不得不做一些实实在在的工作,这些分析并找出根源,并找出补救的最佳方式。”
在过去,我们不知道问题的严重程度。我们有时会无意中发现了它,并有运行各种类型的报告问题,我们不得不赶回,并试图找出发生了什么事情。现在我们知道发生了什么事情。现在我们知道问题出在哪里。现在,我们实际上要回,并努力解决它,这是巨大的。这是所有的部门从他们审核任何组织想要的。他们知道它并不是完美的。这是你在做什么,它和你懂的风险。
And all of these things, of course, have spinoff advantages to the analytics group because they’re starting to work with data that is in better shape, and of course if you’re working off data that’s got high integrity your decisions are going to be stronger and it’s going to be easier.
你是把所有的数据放在一个地方来提高质量,还是试着在它所在的地方改进它?
我们试着把它固定在它所在的位置,在真正的源头。但这是一个很好的观点,因为当我们开始考虑创建一个客户机主服务器时,理想情况下,在适当的时候,我们只有一个数据所在的地方,而且它将是好的数据。但因为我们现在开始在源处修复它,当我们创建客户端master时,我们会用好的数据来创建它而不是我们需要修复的数据。
但其复杂。如果有七个不同的来源为这个特别的事情,比如说,出生日期,其中那些将我们认为是权威来源?如果我们真的想挽救自己的努力来解决这些问题的全部七,哪一个会,我们现在解决这个麻烦?我们正在试图做的是思考为好。
在某些情况下,这是不可能做到这一点;我们必须走出去所有七个,因为我们的系统设置方式。但在其他情况下,它可能现在一个后才行。同样,这阻止和解决围绕数据扯皮不是性感尤物,它不是嘶嘶声,但它是得到它的权利为组织的关键。
所有这些努力都需要你引进一些新型的专家吗?
我们不会雇佣100名数据科学家。在我们这样规模的公司里,这是不可能发生的。最好是尝试和思考一种方法来集中我们的数据科学技能。
因此,我们与一些大学合作,利用亚马逊云建立了一个合作数据科学平台。我们把大量的数据搬到那里,和大约12所大学签订了保密协议,我们说,“你们需要真实的数据,这样你们的硕士和博士学生就可以卷起袖子来摆弄数据,我们需要集思广益。这是一场婚姻。我们可以从中得到一些东西。”
我们有一个正式推出在六月的平台,我们有我们的分析师和大学球员之间真正的良性互动。该大学有回来与惊人的想法和见解,我们仍处于发展阶段。随着时间的推移它给了我们访问一些最好和最聪明的学生,其中一些可能要来参加我们的。这一直是非常成功的,我们将继续推进。
回到客户主,你在创建它的过程中处于什么位置?
我们从大量的,我们一直在收集数据,这是关键客户属性的统一视图中创建一个客户端配置文件。我们从来没有一个客户记录作为这样的,这是一个开始,但这不是高手呢。这是战术性的,但我们已经开始用它来有效地针对特定的客户,因为我们现在有他们的利益是什么看法。事实上,这是更大的个性化计划的一部分。
在个性化中可能有20个不同的主题。其中一个是新员工。当我们在客户端上运行时,我们创建了30个与客户端相关的属性现在我们将它保存在Oracle数据库中,但我们将设置客户端主域并将它移到客户端主域。
所以,你仍然有多个版本,但现在同步?
这将需要一些之前的一个且只有一个,每个人都直接使用。通常发生的事情是,你首先创建了所谓的注册表,这是它创建您的客户记录保持所有这些不同的实例之间的连接的中心指标。你会开始使用,作为一个点的人可以参照,并随时间增长而你在它创造更多,更权威的数据。它提炼随着时间的推移,最终成为金源,金创纪录的每个人都使用。这是一个旅程。这需要几年实现这一目标,但注册表,客户指标,是你可以站起来要快得多。
因此,有朝那个圣杯临时步骤。
是的。有些数据是我们的业务人员一直想要得到的,但由于这样或那样的原因,很难得到。我们现在已经实现了这个虚拟功能,不需要移动数据。我们实际上可以创建跨许多不同来源的数据视图,这帮助人们不必编写新的程序就可以理解数据。
在过去,有人在分析会说,“为了做到这一点,我想我需要这种数据的,我认为这是坐在这些系统。”然后,他们会去数据仓库团队,并说,“我需要被提取,转换和加载到企业级数据仓库的数据。”