大数据的收集,使你很难保持匿名

有效的技术存在“去识别”,在大数据的收集个人信息。但真正重要的是它是如何经常应用。而大多数专家说,这是不是很经常

匿名是如何“无名氏”在今天的数字世界?

不是黑客行动主义集体 - 这是当他们产生的数据是从营销真空度提高通过大家的网站,执法,研究人员,政府和更多的普通人如何匿名的。

大数据的收集,甚至与个人身份信息(PII)剥离出来或加密,仍然容易受到“重新鉴定”技术,精确定位个人到侵入监测是可行的,或者已经点怎么回事?

或者可以“去识别”假个人,这只是被用来发现趋势,跟踪疾病的传播数据的海洋舒适露脸,指定犯罪高发地区或其他东西,这将改善的经济福祉和健康人口?

不要指望IT和隐私专家会给出一致的答案。关于它的争论仍在继续。

其中一方是2014年6月一份报告的作者白皮书由加拿大安大略省的信息和隐私专员(IPC)的题为“大数据与创新的信息技术与创新基金会(ITIF)主办,以正视听:去标识工作中,”谁认为隐私倡导者和他们的媒体使能应该冷静下来。

该研究的主要作者丹尼尔·卡斯特罗(Daniel Castro)和安·卡沃基恩(Ann Cavoukian)谴责了他们所说的“媒体上误导人的标题和声明”,他们说,这些标题和声明表明,即使拥有适度的专业知识和适当的技术工具,也能暴露那些数据被匿名的人。

他们说,这种“神话”传播的错误不在于研究人员在原始文献中提出的研究结果,而在于“研究该文献的评论员有夸大研究结果的倾向”。

他们认为,正确的去身份识别就像防弹一样,将一个人被识别的几率降低到不到1%——远低于简单地从垃圾桶里拿出可能含有PII的文件的风险。

他们还认为,对匿名性丧失的无端恐惧可能会破坏数据分析的发展,“数据分析的进步开启了以前所未有的方式使用未被识别的数据集的机会……从而创造巨大的社会和经济利益。”

但他们也承认,为了提高效率,“创建匿名数据集需要严格的统计,不应该以敷衍的方式完成。”

而且,根据帕姆·迪克森,世界隐私论坛(WPF)的执行董事,是问题所在。她和另一些人的学术研究的受控环境的那个之外,无论是匿名与隐私基本上是死的。

Dixon并不反对白皮书中关于去身份识别是有效的论点,但是他说“在野外”,不是所有的数据集都将严格地匿名化。

“在现实世界中,人们不会一直这样做,”她说。“要在大数据中真正做到匿名,你必须达到一个非常广泛的聚合水平。

“如果你谈论的只是收集到的全州或全市趋势的数据,那么它就可以被去除,因为它不涉及个人。但如果你要谈论波士顿有多少人感染了流感,而任何类型的邮政编码数据都是可用的,那就不同了,”她说。

约瑟夫大厅

约瑟夫·洛伦佐大厅他是民主与技术中心的首席技术专家

民主与技术中心(Center for Democracy & Technology)的首席技术专家约瑟夫•洛伦佐•霍尔(Joseph Lorenzo Hall)也认为,虽然严格的去身份证明是有效的,但数据收集的世界并不总能达到理想的效果。他说,其中一个原因是,真正牢不可破的身份识别会大大降低数据的用处。

“这组数据,使重新鉴定可行的基本特征是行为的来自同一个体的记录链接到彼此,”他说。“这是为了保持这些记录的利益的重要组成部分。

“最大的问题是,已经很差匿名和私人聚会的数据集,他们认为不包含个人信息,当他们肯定含有某种可与个人有微弱关联的持久标识符之间共享数据集的公开发布。”

霍尔指出,虽然有些数据收集显然是针对人们的经济福祉或健康,但还有很多数据不是这样的。他说:“许多零售店使用Wi-Fi跟踪,使用你设备的MAC地址(一个持久的网络标识符)来跟踪你整个商店。”

“这就是为什么苹果开始随机分配这些地址的原因。”

IDT911咨询公司(IDT911 Consulting)的高级信息安全顾问保罗•奥尼尔(Paul O’neil)也有同样的看法。他说:“如果去身份认证做得合适,那么是的,它是可以奏效的。”“但这个‘如果’比大多数人意识到的要重要得多。”

劳尔·奥尔特加,在Protegrity全球预售的头,还指出数据的保护是不平衡的。“信用卡保护正在改善,而很少有正在做去标识存在于每家公司PII数据成群的,”他说。

问题的部分,比如说法律专家,可能是语义的一个,这导致公众混淆。“我们需要明确我们的意思,当我们调用数据的匿名,”凯尔西·芬奇,在隐私论坛(FPF)的未来政策顾问说。

她说,只有具有去除应该被称为直接和间接的标识数据“匿名”,而仍然有间接识别数据应被称为“假名”。

“很多时候,广告公司,跟踪和配置文件的用户的Cookie或移动设备标识符调用数据匿名的,”她说。“然而,这些相同的数据通常被认为是由隐私倡导者个人,因为他们可以连接随着时间的推移个人。”

海蒂wachs

海蒂Wachs,隐私和信息治理实践特别顾问,Jenner & Block

海蒂Wachs,在詹纳和屏蔽的隐私和信息管理实践特别顾问,同意了。“我认为这个词‘匿名’被周围很多没有抛出的信息是如何收集和共享的真正理解,”她说。“这么多的东西,我们每天都在做网上可以追溯到一个IP地址或设备ID。即使与在线活动结合不被收集到我们的名字,往往是某种形式的标识符的唯一标识我们“。

[五大最严重的大数据隐私风险(以及如何防范)]

事实上,数据采集器不需要名字来对待个人的不同。在2012年,旅游网站Orbitz的产生有关投球高价位的酒店客房的Macintosh计算机用户的头条新闻,因为该公司的数据采集显示,他们是富裕还是愿意支付溢价。

而且,大量的数据收集并没有隐含匿名的承诺。它们包括高速公路收费站的读卡器和无处不在的监控摄像头。奥特加指出,有“人脸识别,在你不知情的情况下拍摄的视频,以及关于你在哪里跑步、去哪里锻炼以及何时锻炼的运动跟踪器数据,等等。有了物联网,就会有更多这样的数据被收集起来。”

奥尼尔指出,社交媒体网站有“最珍贵的数据集”,以市场营销,也没有严格的保护。“那些是遵循同样的安全最佳做法,其他企业在广告的举措?”他问。“同时,您的个人数据交易和前后移动如大量数据整合商之间高频的股票。”

另一个难题是,更多的数据去识别,就变成了用处不大,也有一些情况下,人们不希望匿名,但他们确实希望被保护他们的信息。

“有些时候使数据匿名的成本可以通过我们可以从更高质量的数据获得的好处要消耗很多时间,”芬奇说。“We also have to consider situations where we don’t want perfect anonymity – if you’re a patient in a clinical study, for example, and a researcher notices a potentially dangerous abnormality in your de-identified records, it would be important they have some way to re-identify you.”

奥尔特加同意。“你不能被完全固定,除非你在一个安全的锁起来,并把钥匙扔掉100%的几率保护数据。这将不会是分析好,”他说。

劳尔·奥尔特加

劳尔•奥尔特加他是Protegrity全球售前总监

如果专家们的共识,这是大多数收藏者可以而且应该做到保护个人隐私的一个更好的工作,无论是通过严格的匿名或其他隐私保护。

“数据最小化在这里扮演一个角色,” Wachs说。“在任何给定的数据集,都必须达成特定目标的数据元素?或者是数据只是被收集,因为它可能,或人愿意提供它?”

她说,组织在开始收集数据之前应该考虑安全和隐私风险。要问的问题包括:“谁可能想要窃取这些数据?”如果他们成功了,他们能做什么呢?完成目标所需的最小数据集是多少?如何才能最有效地保护这些数据集?”

霍尔主张更像RAPPOR(随机聚集的隐私保护序数响应)技术,该技术允许,“统计用的技术与强大的隐私保证为每个客户端的客户端串的人口将被收集,并没有他们的报道链接性,”根据研究员在康奈尔大学。

也就是说,他说,“可能会导致与隐私几个影响数据和分析的收集方面的双赢。”

但底线是没有办法保证匿名。芬奇说:“即使我们全面应用当今最先进的匿名化技术,五年后新技术和新数据集也有可能使这些数据重新被识别。”

这个故事,“大数据的收集,使你很难保持匿名”最初发表CSO

加入网络世界社区足球竞猜app软件脸谱网LinkedIn对最重要的话题发表评论。
有关:

版权所有©2015年足球竞彩网下载

工资调查:结果是