人工智能时代前沿技术社区

首页 > 大数据 > 热点

数据竞争背后的思考:我们如何对待未来新石油?

毋庸置疑,石油是工业时代以来最重要的动力能源,美国国务卿基辛格(Henry Alfred Kissinger)曾言,“如果你控制了石油,你就控制了所有国家”,自然,石油也是商业竞争的核心命脉。

作者:A.D | 2017-10-11 16:29:58 | 来源:大数据周刊

大数据sss.jpg

毋庸置疑,石油是工业时代以来最重要的动力能源,美国国务卿基辛格(Henry Alfred Kissinger)曾言,“如果你控制了石油,你就控制了所有国家”,自然,石油也是商业竞争的核心命脉。

数据是未来的新石油,正在改变竞争的性质和方式

毋庸置疑,石油是工业时代以来最重要的动力能源,美国国务卿基辛格(Henry Alfred Kissinger)曾言,“如果你控制了石油,你就控制了所有国家”,自然,石油也是商业竞争的核心命脉。

当前,随着互联网、大数据产业与人工智能技术的发展,“数据”逐渐成为未来的新石油,是未来商业竞争的核心动力与命脉。

由此,自新世纪以来,在全球范围内,有关数据的争议与案件频发,从民事、行政到刑事,从反不正当竞争法到反垄断,集中体现了“数据正在改变竞争的性质与方式”的趋势。

我从2013年进入互联网行业,开始接触与关注互联网不正当竞争案件,发现在国内,从2008年开始,大众点评诉爱帮网系列案件最早涉及“数据竞争”的问题,大众点评指责爱帮网“大量复制其网站内容(商户介绍与用户点评内容),先后以著作权、不正当竞争为诉由起诉,其著作权诉由曾获海淀法院支持,后被北京一审法院撤销,但其不正当竞争诉由最终获得法院支持。在诉讼过程中,于国富律师在其博客中写到,“爱帮网如此长时间大范围的恶性侵权如果不被判令承担高限赔偿,法律难容”。

继大众点评系列案之后,有关“数据竞争”的争议不断出现。诸如:

2013年百度诉360违反robots协议案、

2015年新浪诉脉脉非法抓取微博用户数据案、

2016年大众点评诉百度抓取用户点评信息案、

2017年运满满诉货车帮盗取用户信息案(刑案),

以及新近顺丰与菜鸟有关数据接口的争议,新浪与今日头条有关微博内容爬取的争议,还包括之前淘宝屏蔽百度搜索,关闭从微信跳转到淘宝商品与店铺的通道。

我们看到,数据竞争相关的争议直指具有竞争关系的双方竞争的性质与方式,或者一方核心商业模式的合法性与合理性问题,其对于竞争双方的重要性不言而喻。

而在国外,有关数据竞争的争议已经延伸至反垄断领域。2017年6月,数据分析公司hiQ向加州北部法院提起诉讼,主张Linkedin拥有市场支配地位,推动法院于8月份发出临时禁令,要求Linkedin在24小时内移除妨碍hiQ获取其公开数据的技术障碍,目前此案并未审结。

在此案中,Linkdein曾援引Facebook v. Power Venture案,认为hiQ没有获得平台授权不得获取其网站的公开数据。法院并没有支持Linkedin的主张,因为Linkedin案与Facebook案有本质不同,前者涉及公开数据,而后案数据受密码验证系统的保护(此案详细分析可参见曾雄“从hiQ案浅谈数据竞争法律的问题”)。

竞争背后,数据流动与“数据保护”的冲突与矛盾

以上纷繁的争议也体现和印证了数据概念的复杂性、模糊性与开放性,在此,有必要先界定下“数据”的概念。

按照华政高富平教授的提法,以不同的标准,数据大致可分为:功能性信息、产品信息;商业秘密、独有信息、身份性信息、公共信息等。新近,行业较为流行的方式,是将数据信息分为版权数据与非版权数据,此论大体以非版权数据展开。

私以为,数据与知识产权具有相似的特征,在物理上,均具有无形性与可传输性;于经济学视角而言,均具有非竞争性与非排他性,可归入公共物品;从竞争的角度,我们不得不承认,基于投资激励的需要,数据在制度设计上是有可能作为一种排他性财产权存在的(按照霍菲尔德(Wesley Newcomb Hohfeld)的分析法学理论,财产权可指向有体物、法律拟制与法律关系)。

可以看到,既有的诉讼与争议原则性的承认,数据平台对于平台内的信息具有一定的控制权,即使在现阶段是否赋予其“劳动成果权”还存有一些争议,这当然是基于激励投资与创新的考虑。

基于商业竞争的考虑,具有数据优势的平台(包括社交平台、电商平台、内容平台等)倾向于将“数据”资源作为竞争优势在自有体系与合作伙伴之间传导,“数据孤岛(data island)”由此形成,特别是在移动互联网时代,APP具有天生的隔离优势,数据抓取方在全网抓取更为困难。

那么,所有的争议一定都集中在数据平台方与数据获取(抓取)方之间,新浪与脉脉、新浪与今日头条、顺丰与菜鸟(数据API模式),概莫如此。“罗马不是一日建成的”,数据平台方的数据优势建立经历了长期的投入过程,后进入市场者基于快速形成商业闭环的考虑,在平台授权存有障碍情况下非法抓取数据平台方的用户数据,直接触及数据时代平台方的核心商业资源,势必引发数据平台方与数据抓取方的激烈争议。

在现实的规则中,北京知识产权法院张玲玲法官在新浪诉脉脉案提出了数据流动与使用的三重授权原则,也即“用户同意+平台同意+用户同意”的原则。

事实上,因为平台数据多涉及用户隐私、数据安全、消费者利益以及平台利益等问题,数据平台方可以通过平台协议、robots协议、API限制以及技术保护措施等手段控制、限制数据合作与数据保护的范围与方式。

数据抓取方如未获授权,则必然动辄得咎,除了行政与民事风险,甚至面临刑事风险,比如在运满满与货车帮的争议中,后者CEO等数位高管即因涉嫌“非法侵入计算机系统罪”被刑事拘留。

大数据、AI技术发展过程中,难以避免的几个问题

其实,欧美等国家与地区探索建立数据流动规则的过程中,冲突与矛盾同样突出,在数据竞争的相关领域,我国与欧美等同步,因此,有必要在适度参考借鉴的基础上,树立制度自信,建立适应我国商业竞争与产业发展的数据竞争制度体系。余以为,大数据、AI技术发展的过程中,有3个问题需重点回应与思考:

第一,非版权类信息,或者说数据信息是否可以赋权 权属主体是谁 边界在哪

早在《民法总则》修订过程中,最初的立法文本将“数据信息”纳入“知识产权”体系,遭多数专家反对,最终全国人大将数据信息与虚拟财产单列进行财产概括性保护。

客观上,将所有数据等同于知识产权,会在事实上赋予了数据以“劳动成果权”,但现实中,数据的权属与权利边界尚未厘清。数据平台方搭建平台,但平台的原始数据来源于用户的网络行为,平台对数据进行搜集、分类、清洗、加工、利用、保护,此时,如何通过权属分配与权利设置在激励投资与用户利益保护之前寻求平衡,尚待研究。

中国法学会、清华大学与工信部知识产权中心等机构多次邀请专家讨论数据权属的问题,至今学界并未达成共识。从域外经验来看,早在1992年,欧盟委员会通过《数据库指令草案(Commission Proposal for a Council Directive on the Legal)》确立了数据库权(database right),之后历经多轮争议,最终于1996年通过。

数据库权衍生于版权体系,以保护实质投资为目的,赋予数据库控制者对抗它人对数据库内容提取的排他权利,并存在着若干平衡性安排,如对合法利用人的非实质性部分的提取或再利用行为进行限制性排除,并规定了若干“法定许可”,虽存争议,但仍可为借鉴之有益经验。

第二,三重授权原则是否适用 用户同意可否击穿平台协议的限制

三重授权也即平台之间的数据流动(Open API模式)需通过“用户同意+平台同意+用户同意”的模式,此模式由张玲玲法官在新浪诉脉脉案中提出,较为周延的平衡了用户利益、平台利益保护与数据流动的关系,广泛适用是较为妥当的。

当前,仍然存有一些争议的模式在于,未经数据平台方同意,甚至是在平台协议反对的情况下,第三方仅获用户授权,能否大批量、自动化抓取用户在数据平台方发布的信息。

也即,用户同意可否击穿平台协议的限制 新浪与今日头条的争议正在于此,8月9日,今日头条突然开始通过用户授权直接把新浪微博的内容自动搬家到今日头条。面对大量用户与数据溢出的情况,新浪坚决切断了与今日头条的内容接口,并在海淀区法院立案起诉,此案尚未审结。

私以为,即使搜索引擎与抓取技术中立,但从技术伦理与商业伦理角度,此类行为的规制应在技术创新与数据平台方激励之间寻求平衡。新浪在微博用户数据的整个生命周期中持续投入,才使得无数条单个用户数据组合具有了数据平台价值,如新浪法律专家王磊博士曾指出,“数据的集体涌现性使得“大数据”出现了系统组成前单个要素所不具有的性质”,平台为数据赋能,法律保护应有所倾斜。

第三,如何在平台权利与信息流动之间寻求平衡 反垄断法在何时适用

在版权法中,有一个重要的概念,我们称之为“公共领域”,这是现代版权制度存在的重要基础。

版权的自然原始状态,如同所有数据,具有无形性,以及非竞争性与非排他性,是公共物品。国家通过法律强制的形式赋予版权人在版权作品商业利用上的特定垄断权,同时,设置版权法的“公共领域”,以征得社会对版权垄断制度的容忍。数据同样如此,在我们考虑为数据赋权,或者数据平台对数据存在事实控制权的前提下,有必要研究数据权的“公共领域”以在平台权利与信息流动之间寻求平衡。

至于在数据经济驱动下的网络效应评估、相关市场界定、市场支配力衡量、竞争质量影响,甚至于反垄断理论更新等问题,国内外学者(Maurice Stucke, Ariel Ezrachi)已经开始关注研究,任重而道远。

【责任编辑:A.D】