DT时代-大数据时代,我们还有隐私吗
首页 上一章 目录 下一章 书架
    数据开放是把双刃剑

    数据资源的不竭源泉

    数据是对客观世界有依据的记录,一切数据都是人为记录而产生的产物。科学的本质其实就是人类对自然的测量,记录最早也源于测量。所以,数据是对客观世界测量记录的结果,而不是随意产生的。除测量外,基于旧数据计算衍生而来的新数据又构成了数据的又一来源。进入信息时代以后,数据的内涵扩大,还包括所有运行在电脑上的文本、图片、音视频等,如今甚至有时把“数据”等同于“信息”来看待,但现代意义上的数据的范畴比信息还要大得多。因此,信息时代数据的第三种来源便是文本、图片、音视频等人们对世界的记录,即“行为数据”。

    随着信息技术的发展,互联网时代海量数据的来源主要包括:传统的互联网入口转向搜索引擎之后,用户的搜索行为和提问行为聚集的海量数据;如今共享到互联网上,而过去以模拟形式存在、储存于本地未开放给互联网用户的非公开数据资源;进入社交网络年代后,由用户参与创造的海量的社交行为数据;电商崛起后,用户网上交易产生的信息流和资金流数据;移动互联网出现后,移动设备搜集到的大量的用户点击行为数据和App流量数据;基于Google地图、百度地图等位置模型产生的流数据等等。

    人类数据真正的爆炸是社交媒体的出现。从2004年起,以Facebook、Twitter、QQ、微博、微信为代表的社交媒体使互联网成为人们实时互动、交流协同的载体。人们在平台上随时随地地记录自己的行为、想法,每个上网主体都开始成为数据的生产者。10年间,人们在社交媒体上产生的非结构化数据占到目前全世界数据总和的75%左右。所以,社交媒体的出现掀开了大数据时代的大幕。

    Intel(英特尔集成电路公司)创始人之一戈登·摩尔提出的摩尔定律促使硬件成为大众消费品,人们可以以非常低廉的成本保存海量的数据,同时也使得各种计算设备变得微型化。正如美国科学家马克·维瑟所概括的,我们将进入计算机的“普适计算”阶段,即人类生活的物理环境中广泛存在着微小的计算设备,如智能手机、各种可穿戴设备、平板电脑以及安装在机器内部的各种微型传感器,都能够实现实时无处不在的数据自动采集并处理。

    普适计算才是即将到来的超级数据大爆炸。人类社会领域的数据计算才刚刚兴起便引起了一场数据爆炸,而物理领域的计算也正酝酿着一场革命。传感器、可穿戴设备等各种微型设备装配到全世界各类物体之上,如机器、电器、动物、植物等需要控制和监测的目标,形成“万物皆互联,无处不计算”的状态。如果全世界各种带有微处理器的机器或电器将来都装上传感器,或未来的制造设备实现数字化、智能化、互联网化,则每一台机器都是一个数据生成器,而机器、电器数量远比人类多且日夜不停运转,可以想象,普适计算的实现,才是真正数据超级大爆炸的到来;普适计算的实现,才是真正的大数据革命的到来。

    数据垄断与数据鸿沟

    无论是亚马逊网、京东网的精准推荐,还是百度的网盟推广,或者是微信、微博的精准营销,普通用户都能够直观体会到大数据给用户和商家带来的商业价值。随着大数据的深入应用,不同类型的数据集被相互连接,产生了对各个领域前所未有的洞察力和预测力,各种基于数据的商业模式也被发现、被设计出来,并带来了巨大的经济和社会价值。基于这种价值,行业、企业和政府都在竭尽全力采集数据、抢占数据和利用数据,并贴上自有财产的标签。

    《2015年全球信息技术报告》指出,亚洲的新加坡在运用ICT(即信息和通信技术)推动社会经济发展方面排名第一,不过全球范围的“数字贫困”现象日趋严重,发展中经济体和新兴经济体未能缩小与发达国家在运用ICT推动社会经济发展方面的差距,各国之间的数字鸿沟正在扩大。自2012年以来,排行榜上前10%的经济体的进步幅度是后10%的两倍。这表明,为充分获得ICT收益,发展中国家和新兴国家在加强基础设施、制度和能力建设方面仍面临着巨大挑战。尽管超过一半的世界人口已拥有手机,但目前仅有39%的人口接入互联网。[82]

    无论是信息、知识还是机器智能,都是以数据为载体存在的。现在,大量的数据被存储起来而没有开放,有的还在专网存储没有被公网抓取。在数据量级里面,已经能够开放的部分是非常有限的,这就构成了大数据产业发展的一个严峻挑战。

    数据成为一种资源,被掌控者越来越私有化,滚雪球效应和马太效应越来越显现,占有数据的一方量级越来越大,未占有数据的一方量级越来越小,导致两极分化,这种趋势的存在对大数据的发展构成一种挑战。由于马太效应作用,数据鸿沟的出现不可避免。数据鸿沟带来的现实问题,就是经济和社会发展的不对称、不稳定,就会造成数据富民与数据贫民的产生,并进一步加剧权利的倾斜。

    数据共享与开放

    “物以稀为贵”,传统经济时代最稀有的东西是最有价值的东西,往往不会共享。而网络经济时代,共享的程度越高,拥有的用户群体越大,其价值越能得到最大程度的体现,数据开放利用程度越高,信息知识作为生产要素就会越高。以太网发明人罗伯特·麦特卡尔夫提出的麦特卡尔夫定律认为,网络的价值同网络用户数量的平方成正比,即上网的人数越多,产生的效益越大。麦特卡尔夫定律背后的定理就是网络外部性,数据资源的奇特性不仅是可以被无限次、无损耗地消费,而且数据的消费过程可能同时就是数据的生产过程,它所包含的信息在消费者那里催生出更多的知识或感受,消费它的人越多,它所包含的资源总量就越大。

    大数据就是人类能以超越以往的计算能力在海量的数据中重新发现新知识、创造新价值,分析计算的前提当然是要有足量的数据。正如土地、劳动力、资本等生产要素一样,数据资源也是一种资产,一种生产资料,成为促进经济增长的基本要素,而安全适当的数据开放,是实现数据驱动创新、发挥大数据潜力的重要前提。

    数据资源的共享与开放,首先涉及数据种类划分,例如公共数据、政府数据、行业数据、企业数据以及个人数据。对于这些数据,存在保护问题,同时还存在开放、公开及共享问题,最后还有使用和管理的问题。开放数据≠共享数据≠公开数据!共享数据,是将自己掌控的数据在“一定的条件下”与“指定的第三方”共享使用。公开数据是指“任何人”都有权访问,但只能在“一定的条件下”获取并使用的数据。而开放数据,是要破除掉“是谁能使用数据”和“使用是否有限制”的限制,让“任何人”能够“没有限制”地去使用数据。弄清共享数据、公开数据、开放数据的差异,则是推进开放数据所需走的第一步。

    目前,仍有人对“开放数据”的理解不全面,把开放等同于公开,然而两者并非同一个概念。例如,登录政府网站,会发现信息是以一条一条的形式公开的,而登录中国知网等数据库,开放的资源是成片的。中国知网数据库是开放的,但开放不一定代表免费,企业搜集数据是有成本的,数据也可以以收费的形式开放。而且,开放也可以是有层次、有范围的开放,不一定面对全体社会大众。

    开放,已经成为互联网时代一股不折不扣的浩荡风潮。国内互联网BAT公司坐拥着“数据金矿”,百度侧重公共数据和需求预测,阿里侧重商用数据和信息数据,腾讯侧重关系数据和社交数据。百度通过开放云、数据工厂、百度大脑组成“大数据引擎”(Big Engine),将百度的大数据能力开放给社会,应用大数据引擎可以实现智能路径规划、运力管理、流感预测、疫苗接种指导、安全防卫追逃等。阿里巴巴集团提出“平台、金融、数据”的三步战略,2011年推出了数据门户data.china.alibaba.com,意味着阿里开放了数据分享平台。腾讯基于Hadoop(一种电脑程序)、Hive(一种数据仓库工具)、PostgreSQL(一种数据管理系统)之上研制的分布式数据仓库TDW(Tencent Distributed Data Warehouse)已经实现开源,能够提供海量数据存储和分析服务,包括数据挖掘、产品报表、经营分析等服务。

    数据开放的安全与隐忧

    2013年6月,美国前中情局雇员斯诺登曝光了始于2007年的美国“棱镜”秘密项目。美国国家安全局通过接入微软、Google、雅虎、苹果等美国网络公司中心服务器,对语音、图片、视频、邮件等10类数据进行监控,监视民众的网络活动。始于2004年的“恒星风”监视计划,由“棱镜”、“主干道”、“码头”和“核子”4个监视计划组成。“棱镜”项目主要用于监视互联网个人信息;“主干道”和“码头”项目主要负责存储和分析通信和互联网上数以亿兆计的“元数据”;“核子”项目主要负责内容信息的获取,截获电话通话者对话内容及关键词,通过拦截通话以及通话者所提及的地点,来实现日常的监控。

    “棱镜门”事件告诉我们,和一切变革时代的进步一样,大数据也是一把双刃剑,当我们在享受大数据带来的机遇的同时,也不得不面临相继而来的数据危机。在大量数据产生、采集、存储和分析的过程中,会面临数据保密、用户隐私、商业合作等一系列问题。既涉及如物理安全、设备安全、网络安全、数据库安全、系统安全等传统的安全问题,也涉及一些新的安全问题。例如,因数据散乱在众多系统中,信息来源十分庞杂而带来的数据采集安全;因数据种类和业务类型众多而带来的数据整合与存储安全;因外部需求和用户隐私保护而带来的数据审计和安全发布问题等。

    全球互联网的发展使信息的流动突破了时空的界限,模糊了国与国之间的领土边界,大数据风险也为国家安全敲响了警钟。日益汇聚的海量数据可能包含大量敏感数据,且通过对海量数据进行数据挖掘、关联分析,从普通数据中提取的、具有统计意义的信息变得尤为敏感。这些信息可能涉及国家经济运行走向、社会舆情动态等,数据一旦泄露,可能会威胁社会稳定和国家安全。根据国家信息中心等部门相关报告显示,2013年中国7.6万多个网站被境外通过植入后门实施控制,其中政府网站2452个。中国境内1.5万台主机被APT(高级可持续攻击)木马控制,致使关键基础设施和重要信息系统安全遭受严重威胁。

    有分析认为,运营商发展大数据将会经历三个阶段:从自发地利用内生数据解决问题,到基于数据的应用商业化,再到进入数据共享交易时代。现在大部分运营商大数据发展还处在数据的商业化阶段。在大数据时代的数据开放中,数据使用和重复使用包括与第三方的合作,将会使安全与隐私得到更大的挑战。黑客攻击数据集聚的运营商不可避免地加大了用户隐私泄露的风险。2011年,中国最大程序员网站的600万个人信息和邮箱密码被黑客公开,进而引发了连锁的泄密事件。2013年,中国人寿80万客户的个人保单信息发现被泄露。这些事件都凸显出在大数据时代,信息安全管理所面临的前所未有的挑战。

    大数据时代,我们正在被绑架为无隐私的真空世界。单机个人电脑时代,当电脑上价值最高的数据是文本型文件时,病毒以破坏电脑系统和删除文件为主;随着互联网的发展,当价值最高的文件变成网游账户、网银账户时,病毒则以窃取有价值的个人资产为主;爆发的大数据时代,伴随着个人前所未有的数据利用形式的出现,通过精密系统的预测,分析出来更精准详细的有价值的个人数据,我们的未来极易被人掌握,从而进行更准确、更具有威胁性的网络攻击,必然会产生前所未有的安全风险。

    互联网打破了传统时代的隐私规则,出现了“公开的隐私”。每一个人在网络上的一切行为,都可以被服务方以数据的形式记录下来。通过对你“数字足迹”的分析,可以清晰地掌握你的浏览习惯、社交关系、购物习惯,甚至能够通过移动网络实时追踪你的位置。这些你毫不在意的行为,却成为互联网商家们互相争夺的“库存”数据。甚至有人认为,移动终端、个人电脑终端就是个人隐私的采集器,在大数据时代,几乎所有线上的交易,本质上都是通过对用户个人隐私的洞察或利用来获取商业收益的。互联网的下一轮竞争,或许就是“隐私之战”。

    理念更新:数字化节制

    一个没有遗忘的时代

    常看电视的人应该记得这个广告:“你能听到的历史137年,你能看到的历史175年……”现在,数字存储的广告语是“你能存储的历史是永远……”

    讲述人与机器人之间关系的漫画《人形电脑天使心》中,有这样一段话:“我们只要借助一点点时间的力量,就能超越往日的伤痛,但电脑除非有主人替它消除,否则再悲伤的记忆,它也会始终记得。”

    相对于人类社会一直以来的记忆方式,现在的存储技术使记忆变得过于丰富、简单和便捷。由于数字技术与全球网络的发展,尤其是云端储存技术的发展使得数据记忆的永久保存成为可能,而且信息数字化后存储成本低廉、易于提取。英国学者维克托·迈尔–舍恩伯格在《删除:大数据取舍之道》中说:“遗忘变成了例外,记住成了常态。”

    网络对我们的记忆比我们自己能够记住的还要多。最具代表的便是搜索引擎,只要在Google、百度等搜索框中键入一两个关键词,这些功能强大的搜索引擎便将世界各地的信息资源展现在你的面前,且搜索引擎提供的信息要比网页上所发布的信息多得多。

    搜索引擎都会存储每位用户键入的每次搜索请求,并将随后点击访问的每条结果进行存储。更为重要的是,通过智能地整合登录数据、cookie数据(存储在用户本地终端上的数据)与IP(网络之间互联的协议)地址,搜索引擎能以极高的准确率将时间跨度很远的多次搜索请求与某个人关联起来。毫不夸张地说,当我们把很多信息抛之脑后的时候,搜索引擎并没有忘记!

    英国伦敦政治经济学院学者阿莱克斯·克罗托斯基说:“我认为现在与过去的一个不同是互联网不会忘记信息,你可以非常容易地找到一个人的所有信息,在某种程度上,想成为私家侦探是非常容易的,因为每个人的信息都在那儿,这对信息而言是有意思的演变。”

    我们要想知道父母当年的事情,只能通过偶尔、零碎的人生大事时留下的照片来一睹他们当年的风采,大部分生活中的记忆还得靠他们亲口讲述才行。今天,随便掏出任何一部手机便可随时拍照、录像,未来Google眼镜、Apple Watch(苹果智能手表)等便携的可穿戴设备的成熟完善以后,将使我们每分每秒的所见所闻都可能被完全记录下来。我们对自己的孩子讲述我们的经历时,可以快速定位到自己当年拍摄的照片、视频,而我们对自己的孩子,更是从孩子出生开始就全方位地记录其成长,他们拥有的个人记忆将更加完善。原本短暂的记忆,现在却可以以数字痕迹的形式完整长久地保留下来。

    在数字时代,只要在沟通过程中使用了电子设备,交流产生的信息便会被添加到我们的“数字人生”中。在数字时代,作为个人的我们,哪怕控制自己信息的能力再次被大大地弱化了。毕竟,我们的数字资产——我们发布的照片、视频,我们起草的邮件和我们发出的状态更新——本来就不仅仅属于我们自己。这些内容至少在一定程度上属于新浪微博、腾讯等负责运营存储这些信息的公司。

    以前,人们会保存各种手稿、回忆录、相册和发霉的文件及简报。但现在,很多人都不再拥有这些可以传承的物质资产,而是变成了数字遗产。有些人甚至已经考虑了数字时代身后事:人没了,网络数据怎么办?在当今时代,几乎所有人都在逐渐增加上网时间,从而创造了一份寿命超过其本人的数据遗产。某些数字资产无论是在现在还是未来,都拥有巨大的经济价值,例如域名或能够创造收入的博客;已经获得的航空里程数和酒店点数;魔兽世界、第二人生等网络游戏中的账号或虚拟道具;个人的iTunes(数字媒体播放应用程序)音乐库和Kindle(电子书阅读器)书库也都属于数字资产。[83]

    2012年,美国联邦政府在个人金融推荐列表中增加了“社交媒体意愿”一栏。政府建议人们指定一个网络资产执行人,负责帮助用户关闭电子邮箱、博客和其他网络账号。此人还将执行死者对社交媒体资料的处置意愿:既可以完全关闭,也可以继续保留,以供亲友回忆。数据,已经成为数字时代的一种遗产!

    遗忘与记忆的斗争

    现在,我们习惯将本来是属于大脑的记忆外置到手机上,并通过云端同步到iPad或者个人电脑端上,当我们需要提取记忆时,掏出手机、iPad或者找台能上网的电脑即可。我们的大脑几乎不再存储什么记忆,一切都在云端的服务里。互联网是一个硕大无比的大脑,而且它从来不会忘掉任何事情,便捷的信息复制机制可以让同样的信息出现在不同的地方。像Google、百度这样的工具,在数十天内就可以将整个互联网重新备份一次,我们总是可以通过网页快照这样的方式找到某些东西。

    人们如今已经无法控制自己的记忆,你以为大脑遗忘了,但还有人在保存着你的记忆。杰伦·拉尼尔在其《谁拥有未来?》一书里,将其他外部物理存储统称为海妖服务器,他们可能是政府部门(比如NSA以及某些神秘部门)、银行保险机构、互联网巨鳄等。在这些Serin Servers里,以互联网公司最不愿遗忘。互联网经济本质上就是一种信息经济,互联网公司类型众多,但不外乎是信息收集商(如Google、百度)、加工商(如雅虎、新浪等门户网站)和贩运商(如Facebook、腾讯等社交媒体)三大类。

    互联网公司打着“免费”的旗号为用户提供服务,当用户使用了服务后便采集、分析和贩卖用户信息,将免费获得的信息据为己有并存储到全球各地服务器上。例如,当你在微博、微信上发布一张照片,它们默默保存下这张照片,并有权在其他场合提取这张照片,这张照片可能是你的某个时间点的记忆,就这样,你的记忆被悄无声息地移走了。即使你删除了你账户里的照片,想去遗忘这段记忆,但你却无法删除服务器上的副本,更无法删除搜索引擎上的存档。

    无数人引用过米兰·昆德拉的一句话来形容人与强权的关系,即“人与强权的斗争,就是记忆与遗忘的斗争”,这句话同样适用于如今的语境。在前互联网时代,人们需要拼命记住一些强权试图抹去的记忆,而在这个互联网时代,双方的位置发生了调换,人类认识到他们最希望的是去删除那些过往的记忆,然而控制这些记忆的强权,却并不允许我们这样做。当我们重新以“遗忘”的心态开始生活时,却面对着一个完全没有遗忘的数字世界。

    在这个时代,任何东西一旦放到网络上,就永远有迹可循,不可能彻底被删除。以往,人们可以通过销毁记录资料等方式来遗忘过去,而在数字时代,仅按删除键可能是远远不够的。如果个人无法真正地获得控制信息隐私的权利,一旦信息被共享,便意味着我们失去了对信息的控制能力,也就渐渐失去对记忆的所有权甚至控制权。试问你如何影响搜索引擎删去一条你的记录?

    早期的“遗忘权”,是有犯罪记录的人员服刑结束后可要求他人不公开自己的违法信息,以便可以开始新的生活。因以前多是纸质材料,且资料保密严格,所以删除信息得以实现。时至今日,“遗忘权”延伸到了网络且含义不断扩大,牵涉的群体还扩展到了上网的每个人。Google一直为默默无闻记住大家许多事儿而引以为豪,但在2014年5月,一桩西班牙男子隐私诉讼案使欧盟要求Google必须按照当事人要求删除涉及个人隐私的数据,法庭裁定欧洲普通公民的个人隐私拥有“被遗忘权”,但目前仅在欧洲有效。

    我们目前所拥有的大脑本该是最适合人类自身进化需要的大脑,该记住什么,遗忘什么,能记住多久,多久才能忘却都是大脑的生物特性,几千几万年以来,人们已经适应了这样的运转机制而生存。遗忘赋予人概括、概念化和行动的自由,人的内部记忆会不断变化、重构,并混入后来的喜好、经历与偏见,而网络时代的外部记忆正在剥夺大脑的重构权。数字记忆颠覆了人类社会长期以来形成的记忆习惯、知识积累与传播方式。如今的我们,似乎正在丧失生物记忆的能力,不知道这算不算是人类的一种退化。

    “数据化的自我”:自由与节制

    早在2007年,凯文·凯利和加里·沃尔夫提出了“量化自我”的概念,就是社会化的个体开始主动运用数据的方式展现和塑造自我。社交媒体的兴起,也预示着人类自我记录全面数据化的开始,与中国人民大学彭兰教授提出的“自我的数据化”概念类似,人们对自己行为的网络分享,其实就是一种社会交往中的“表演”。

    “晒客”,开始多是晒服饰、晒厨艺、晒孩子,随后又流行晒工资、晒股票、晒收藏,继而发展到晒经历、晒情感、晒心情等等。“晒”,已成为互联网时代人的一种生存状态。当海量数据信息见证着人们的现实生活,大数据分析技术的广泛应用,也使人们的生活变得越来越透明,传统的安全边界也越来越模糊。

    对于个人而言,大数据时代,个人数据是一种信息资产,但这种资产却在用户不知情的情况下被采集、分析,以正当或不正当的方式用以牟利,个人生活似乎时刻被注视或监视。对于企业来说,企业决策从“业务驱动”转变为“数据驱动”,企业就更需要提高安全标准和保密等级。

    人们在网络上不断分享自己的生活碎片时,难免不会有被侵扰的危险。而最低成本、最大限度地避免这一危险的有效做法便是“数字化节制”,即尽可能减少有关个人信息的暴露。

    数字化节制建立在个人知情与偏好的基础上,不依赖规章制度和相应的执法,而是立足于个人决定,立足于个人选择遵循的行为规范,而非法律或其他强加于他们的外部约束。分享个人信息能够为用户创造价值,大多数年轻的网络用户都乐于生活在一个各种信息紧密联系的世界里,在其中分享自己的生活和发掘有价值的东西,而奉行数字化节制成为数字时代的隐士似乎是不可能实现的,除非分享信息会使他们暴露在现实的威胁之中。但目前数字记忆的消极后果并未造成明显的冲击,为了防止可能存在的未来危机而放弃当下的现实利益,似乎是因噎废食。数字化节制并非旗帜鲜明地要求拒绝个人信息分享,而是提醒人们在发布信息时需要更加谨慎。

    在网络运营者方面,要远离透露个人信息的互动,适当控制用户的数据表演欲。面对数字化记忆的隐患需要的不仅仅是重复提醒,更需要的是被不断强调。而且,只有这样做才能确保在进入“大数据”时代后,不必害怕我们会失去隐私,会失去人性化的生活与行动。

    正因如此,我们要开始思考减少我们的数字足迹:不是通过戒掉互联网,而是通过规范互联网及其服务,以使得数字信息能够真正在一段时间之后被渐渐遗忘。通过给互联网设置遗忘的功能,以确保网络数据不被随意滥用,而让互联网一直充当驱动社会发展的工具。

    我们对数据隐私的困惑有一部分可能源于落后于技术的立法。中国目前还没有针对互联网个人信息保护的专门法律,“被遗忘权”更是无从谈起。2012年12月28日通过的《关于加强网络信息保护的决定》,在第八条仅仅提出了关于公民享有“被遗忘权”的主张。保障公民的网络信息安全,更多地还是要靠网民和网络运营者的自觉。

    制衡机制:博弈均衡与制度建立

    数据是最有价值的资产

    在ISO 27001:2005标准中,“数据资产”的概念为以物理或电子的方式记录的数据,如文件资料、电子数据等。2013年2月,世界经济论坛发表了一篇“揭露个人数据的价值”的报道,认为个人数据同时兼具社会重要性和意义重大的经济价值。

    20多年前,除了洞察先机的人,恐怕不会有谁会想到个人数据能够创造价值。互联网的快速发展促进了社会与科技的融合,基于信息的共享和消费的商业模式被Google、Facebook、Twitter、腾讯、360等崛起的互联网公司演绎得淋漓尽致。它们的共同点都是以免费服务来获取庞大规模的用户群,然后通过个人信息货币化的形式来创造经济价值。

    对数据的利用将成为企业提高竞争力、抢占市场先机的关键。在大数据时代,大数据带来的这一新的变革,渗透着数据蕴含的巨大商业价值,也引发了对数据处理、分析的巨大需求。最为典型的例子便是Informatica,它是全球领先的独立企业数据集成软件提供商。世界各地的组织机构依赖Informatica为其重要业务提供及时、相关和可信的数据,从而在当今全球信息经济中获得竞争优势。

    信息经济时代,基本商业模式已由B2C转到了C2B,是消费者驱动的商业时代,数据就成为信息时代最有价值的资产。现今,无论对于个人还是企业来说,资产仅仅包括货币、不动产、品牌价值等,但在未来,当智能终端可以处处时时监测和搜集数据,当一切都被互联网化变得在线时,数据将成为所有个人和企业最重要的资产,由数据所衍生的各种产品和应用将渗透到人们生活的方方面面。未来的竞争是对于数据资产的竞争,而非资本的竞争。大数据时代,谁享有的数据资产多,谁就有更大的竞争优势。

    随着普适计算的到来,利用个人信息来创造价值的可能性已经比以往任何时候都更触手可及。数据货币化的游戏中,以智能手机厂商为代表的企业竞争最为激烈,它们都在积极建设自己的内容生态圈。小米手机、乐视手机、360手机,甚至连教英语的老罗也开始做起了锤子手机,他们的主要目的并非通过卖手机挣钱,而是把手机作为采集个人信息的传感器和传播内容的终端,然后通过生态圈向终端推送内容,以服务收费。

    Informatica的主席兼首席执行官苏哈比·阿巴斯认为,信息时代最有价值的资产就是数据。目前,以搜索引擎为代表的许多企业早早踏上了挖掘数据价值的旅程,通过对用户数据的分析,提供更加个性化的用户体验,并预测每个用户正在寻找什么。

    涂子沛先生说,今天的年轻人面临的创新机会要远远多于前几代人,因为他们拥有人类有史以来最伟大的创新资源:数据。[84]数据较其他创新资源相比有不可比拟的优势,因为它可以无限次重复利用而不被消耗,数据与数据间的整合越多,创造新的价值的可能就会越大。数据的不断创造和积累是资源和知识的持续增加,数据的效用也被人类层层放大。

    数据使用者承担责任

    以个人为中心的告知与许可是隐私保护法的思想,但数据的价值更多产生于它的二次利用,这就对传统隐私保护方法产生了颠覆性冲击。“告知与许可”的原则,意味着将个人隐私保护的责任放在每个公民个体的受众,而在大数据时代,告知与许可的原则阻碍了数据潜在价值的挖掘。同时,想在大数据时代中用技术方法来保护隐私也是天方夜谭。原有的隐私保护中的告知与许可、模糊化、匿名化策略在大数据时代都已失效了。

    除了威胁本身,威胁的性质也发生了改变。菲利普·K·迪克的短篇小说《少数派报告》,讲述的就是人们为自己将做的事而受到惩罚,哪怕即使没有犯罪。如果大数据分析完全正确,那么我们的未来会被精准地预测,因此在未来,我们不仅会失去选择的权利,而且会按照预测去行动。既然别无选择,那么我们也就不需要承担责任,这不是很讽刺吗?

    大数据为我们的生活提供了便利,使用不当时也会让保护隐私的法律手段失去应有的效力。在大数据时代,我们需要设立着重于数据使用者为其行为承担责任的隐私保护模式,而非取得个人许可。政府不应假定消费者在使用网络时主动透露自己的隐私,这就意味着政府授权企业使用个人数据,而是应当要求保存和管理信息的企业承担更大的责任。数据使用者的责任只有在有强制力规范的情况下才能确保履行到位。

    大数据正在推动人类信息管理准则的重新定位,责任主体从民众转到了数据使用者。数据使用者对数据进行重新加工整理,从中挖掘价值并创造收益,当然要为自己的行为承担责任。对于个人来说,难以处理极其庞杂的数据,只有国家和大型企业等组织或集团才有可能获取到各种敏感信息。数据的安全问题涉及方方面面,无论是数据产生者、使用者,都必须对各自的安全责任有明晰的界定。

    在法庭上,经过公正的审讯之后,个人对自己过去的行为负责。然而,在大数据时代,诱使我们依据预测的行为而非实际行为对人们进行评定,人们应该为他们的行为而非倾向负责。除了完善个人信息违法行为的责任体系外,我们还需要发明并推行新技术来促进隐私保护。围绕“数据使用者承担责任”这一原则,相关学者目前又提出了数据脱敏技术和数据分类分级等一系列隐私保护手段。

    例如,为解决数据开放涉及个人和商业的隐私问题,美国普查局为LEHD系统(工作单位和家庭住址的纵向动态系统)开发的公开在线应用程序On The Map采用了“人工合成数据”技术。该技术就是在掌握全体数据统计特征的基础上,通过随机抽样或多重填补等一系列统计方法产生与原始数据特征一样的人工模拟数据,完全取代真实数据或取代敏感和关键的字段,从而降低泄露个体样本敏感数据的可能性。人工合成数据技术是开放数据使用,同时保护数据隐私的重要方法,是在保护数据隐私方面的重大创新。

    为开放的世界制定规则

    从2015年开始,中国政府对互联网、高科技和大数据产业空前重视,并且明确表态要开放大数据。李克强总理表示:“政府掌握的数据要公开,除依法涉密的之外,数据要尽最大可能地公开,以便于云计算企业为社会服务,也为政府决策、监管服务。”在此之前,中国各级政府一些部门已在大数据开放上有所尝试,然而,政府数据如何开放,开放给谁,如何使用,还存在开放规则不明朗的问题。

    规则界定之前,政府开放大数据更倾向于“大公司优先”。当前,中国政府开放大数据的案例主要是面向阿里巴巴、百度这样具有更强的技术能力和资源的互联网巨头。2014年9月19日,国家统计局展示的房地产价格预测新工具,以及新研发的网购数据统计,其数据源提供方名单之中便有阿里巴巴、腾讯的身影。除了数据贡献之外,BAT还发挥其优势,利用技术帮助政府部门建基础设施、建开放平台、开发数据挖掘工具等。

    从长远来看,政府开放数据是必然趋势,取之于民用之于民。不过全面开放、完善开放规则还需要一个过程。例如,就算政府一些数据可以公开给任何符合条件的企业使用,也不大可能是“点对点”的方式,即不是签协议战略合作这类方式,而是基于开放式的数据开放平台,可能是公共API,也可能是美国政府的“Date.gov”这样的形式,只有这样才能一次开放多家使用。

    伴随着从核技术到生物工程学其他领域的发展,人类总是先创造出可能危害自身的工具,然后才着手建立保护自己、防范危险的安全机制。在这方面,大数据也和其他领域的新技术一样,面临着一系列的政策挑战,而规则的制定又将对大规模数据集应用的创新和研究、政府开放和透明以及其他众多领域产生深远的影响。

    安全是大数据的生命线,只有更好的保护,才有更好的分享。大数据作为一把双刃剑,以大数据技术对抗大数据平台安全威胁是大数据成功的必由之路。工具没有好坏之分,只有使用的方式是否恰当,大数据的发展是要有序推进还是野蛮生长,可能会影响到一个革命性产业在未来的走向。建立健全安全防护体系,切实强化大数据安全管理和“公开的隐私”的保护,才是大数据未来发展的合理选择。

    开放信息市场的第一步是给人们数据的拥有权。让用户自己去选择个人数据的应用,赋予其主动权,这才是对大数据发展更有好处的事情。让个人拥有占有数据的权利,就像银行里的存款,可以在任何时候移走。能做自己数据的主人,必须对自己数据的使用享有绝对的控制权,并拥有处置或发布自己数据的权利,不管你是想消灭它或重新拷贝转移,都是由自己决定。

    为开放数据的使用制定规则,就需要在私有和共享中找到一个平衡点。若是国家政府部门,出资对民用数据进行采集、分析,譬如卫星采集到的土地数据,粮食农作物生成情况的数据,是可以共享的。如果是企业本身挖掘调研的数据,可以通过交易的办法获取,在某种意义上属于付费的“共享”。我们的物质资产现在已产权化,那么未来我们的数据也应当会“数权化”。

    重塑保护个人隐私的法律规范

    维克托在《大数据时代》一书中曾指出:相比传统互联网,大数据会给网络安全带来更多威胁,给用户隐私带来更大挑战。

    乔治·奥威尔的《1984》曾描绘过一幅“监视炼狱”的场景,而与30年之前相比,现在我们所受的监控不仅没有减少而是变本加厉。只是随着技术的发展,对隐私侵犯的手段变得更加隐秘,不再是强制性的物理入侵,反而以更加无形的方式衍生,我们承受的风险其实更高,只是我们没有发现它的行踪而已。

    个人网上信息的所有权在过去并不是个问题,但未来不可能不是一个问题。例如BAT三家企业,腾讯把聊天记录作为大数据样本,阿里巴巴把交易信息作为大数据样本,百度把越权抓取的非公开信息作为大数据样本,从法理上来说都是存在一定风险的。尽管数据无法捉摸,但完全自由开放式地使用数据显然不是理想的选择,仍需要设定使用的边界。在大数据时代,隐私保护问题已经突破了传统的法律界限,我们需要重塑保护个人信息的法律规范和行业道德,引入更多的监督和约束机制。

    法律制度的建立本质上是利益主体间的博弈均衡。在个人信息的法律保护方面,欧美采用了不同的法律保护模式。美国政府在大数据技术与隐私权保护之间更倾向于利用大数据技术促进经济社会发展,以保持美国在相关领域的领先地位。美国采取分行业保护的分散立法模式,保护个人信息的法律规定散见于各部门法,目前中国个人信息的法律保护模式与美国类似。在欧盟,个人数据被认为更具保护价值,因此欧盟及其成员国有着严格的个人数据保护立法。欧盟采取集中立法模式,对保护个人信息进行集中立法,统一规定个人信息保护相关法律问题。

    在个人电子信息隐私保护方面,美国国会1974年通过了《隐私权法》,之后又不断补充不同领域与个人隐私相关的法律,如《联邦电子通信隐私权法》、《信息自由法》、《有线通讯隐私权法案》等。由于网络技术发展迅速,而立法总是滞后于现实状况的现实,美国还通过行业联盟采取行业自律政策对网络隐私权提供保护。

    在欧盟国家中,1995年通过了欧盟在个人信息保护方面最重要的指令,《关于在个人数据处理过程中保护当事人及此类数据自由流通的指令》;2002年制定了旨在规范电子商务消费者隐私权保护的最新立法,《关于在电子通信领域个人数据处理及保护隐私权的指令》;在2001年设立了“欧洲数据保护监督专员”的职位,同时也建立了“欧盟数据保护工作组”,一般简称“第29条工作组”。

    在国际流通准则中,经济合作与发展组织颁布了《关于保护隐私和个人数据国际流通的指南》,欧美双方此后还推出了《安全港协议》。在处理跨国家的个人数据流动问题上,亚太经济合作组织颁布了《亚太经济合作组织隐私保护框架》。

    中国的个人隐私保护状况令人担忧,甚至已形成利用个人信息从事非法获利的黑色链条。2009年,首次将公民个人信息纳入刑法保护范畴,《刑法修正案》第七条确定了“出售、非法提供公民个人信息罪”、“非法获取公民个人信息罪”等罪名,但还未明确该罪的具体界定标准。2011年,工业和信息化部牵头制定了《信息安全技术、公共及商用服务信息系统个人信息保护指南》,然而该指南并非法律法规,也不是标准甚至是推荐性标准,而仅属于技术指导文件。

    据统计,目前国内针对个人信息保护的法律法规并不少,其中包括规范互联网信息规定、医疗信息规定、个人信用管理办法等。然而,内容较为分散,法律法规层级偏低。针对新技术的快速发展,为避免立法落后与技术的尴尬,需要不断地补充和重塑个人隐私的法律法规。

    [82] 世界经济论坛:《2015年全球信息技术报告》,2014年4月15日。

    [83] KNOWLEDGE@WHARTON:Rest in Peace:Planning for Your Demise,Digitally,2014.4.26.

    [84] 涂子沛:大数据可以治国,还可以强国,《大数据文摘》,2015年4月14日。

聚合中文网 阅读好时光 www.juhezwn.com

小提示:漏章、缺章、错字过多试试导航栏右上角的源
首页 上一章 目录 下一章 书架