Σ:构建移动互联网时代大数据用户知识图谱与画像

移动互联网时代已经来临。相比于PC端一个浏览器解决所有问题的模式而言,除了有相应的移动Web端格式的网页外,大多数厂商选择开发专属应用程序来解决用户需求,并逐渐在对应的应用程序中拓展网页服务的原有功能,使功能更全面、更大众化,也让用户对该应用程序更有依赖性,比较典型的例子有微博、携程、知乎、百度贴吧等。此外,也有传统的PC端应用程序开发对应的移动端程序的,如QQ、酷狗音乐等。另一方面,在移动互联网盛行的时代,不少创业者利用移动端的便捷性,以移动端应用程序起家,为用户提供各种服务,比如共享单车、Uber、抖音等。

互联网时代,很多人都愿意利用互联网来掘金,各式各样的应用程序和服务竞相出现在各应用商店中,在给用户带来信息冲击和爆炸时,也无形中给信息内容的监管带来了很大难度。这里不讨论新技术新应用的内容安全,不然还可以写一个报告,这里只探讨用户隐私问题。国家《网络安全法》中已经强制要求各服务提供商需要在用户提供真实身份信息后再提供其信息发布、即时通讯等服务,因此在很多应用的使用过程中,当用户需要使用一些功能时,会强制要求用户进行注册。一般而言,用户最基本的注册信息包括手机号码或电子邮箱和密码,一些应用程序还会要求提供包括年龄、性别、住址、昵称、头像、家庭信息等资料。一般,作为用户真实信息的标识是手机号码或者电子邮箱。在《网络安全法》和相关条例施行之前,这是二选一的。不过,鉴于国内早已强制施行手机号码的实名制,而电子邮箱还没有进行强制实名制认证,所以在相关法律法规施行前后,各应用程序陆续关闭邮箱注册通道,只保留手机号码注册通道,把风险甩给手机运营商。这样,各应用程序获取到了用户的手机号码。尽管大多数用户只有一个手机号码,但对于那些有多个手机号码的用户来说,他们也倾向于在注册各类应用程序和服务时优先使用某一个号码。于是,仅靠这个手机号码,便可以将用户从分散的应用程序中关联起来。

可是,问题来了,各公司收集的数据是属于本公司的资产,是不会随便提供给其他公司的。那用户信息如何进行关联?这里提供几个思路。

首先,出于经济利益之间的信息交换是一种渠道。两个互为“友好”伙伴的厂商,可以通过交换用户资料的方式谋求各自利益的最大化。不过,在《网络安全法》中,对于服务提供商收集的用户信息的使用有明确规定,未经被收集者同意,网络运营者不得向他人提供个人信息。但此处的监管难度非常大,很难有明确证据证明两个公司真实进行过用户信息的交换。这个方法虽然对于服务提供者来说确实可行,但“友好”厂商数量有限,获取到的信息也有限。

第二种渠道是通过读取用户手机应用程序列表,来获取用户使用的应用程序信息。目前很多应用程序都有申请过多权限的情况。虽然高版本的安卓系统采用的运行时权限在一定程度上对这种行为进行了限制,但一些应用程序采取“不给权限就不运行”的“流氓”行为,强迫需要使用相关服务的用户赋予其相应的权限,进而获取应用程序列表信息。这种方法虽然会招致部分用户的反感甚至卸载,但面对这么多需要使用相关服务的使用者来说,还是能获取到不少信息的。不过这种方法也游走在法律的边缘。在《网络安全法》中有规定,网络运营者不得收集与其提供的服务无关的个人信息。但是,对于网络运营者来说,这里也很好绕过,只要能找一个使用相关信息的理由即可。

如果说上述两种方法是在打法律的擦边球的话,下面这种方法便可以“堂而皇之”地进行用户信息的关联了。众所周知,现在的一些互联网巨头公司在不断注资、收购、合并小型或新兴互联网公司,使其变为自己的。典型的例子有阿里巴巴。阿里由电商起家,随着用户和数据量的不断增大,互联网技术十分成熟,实力相当雄厚。在阿里巴巴具备一定的实力之后,便开始注资或收购一些其他互联网产品,以扩充业务,并继续增强其实力,其中包括微博、神马搜索、虾米音乐、优酷视频等,构成强大的“阿里系”应用生态圈。同时,腾讯系、百度系等派系也已形成,移动互联网的各应用逐渐划了派别和归属。在同一系别内的各应用是可以共享数据的。这些互联网流量派都拥有不少用户群体,结合各自的用户信息,足以构建一个强大的用户关系网和资料库。以阿里系为例。支付宝、淘宝、天猫等阿里“本土”应用程序本身就拥有众多用户,为了资金等安全,支付宝等要求每个账户必须经过实名制认证,而它对实名制的要求是,用户需要提交其身份证信息、银行卡信息、手机号码等,这些足以唯一标识一个用户实体。此外,淘宝、天猫这类购物类应用程序,会很自然地获取到用户的消费习惯、购买力、偏好、用户地址等信息。这些信息均可和支付宝账户相关联,进一步扩充用户资料库。近些年,支付宝推出了“芝麻信用”等信用类业务与服务,而用户要想获得高信用分值,需要进一步提供自己的身份信息,包括学历、工作单位、车辆、公积金、房产等,足够判断用户的经济实力和消费水平,并潜在地刻画出用户形象。再结合其他应用程序信息,如微博、虾米、优酷、UC、飞猪等,可以获取用户的外貌、性格、兴趣爱好、好友关系、职业、出行乃至日常生活等更多信息,可以完美地构建用户信息知识图谱和用户画像。也就是说,这类公司可能比用户还了解用户自身。目前来说,这些系别内的应用程序收集的用户信息的融合可能需要过程,但这终不是障碍,所有用户信息的合并和归一终会实现,一张大的知识图谱终将呈现。

再简单地拓展一下。既然各系别都拥有了各自的用户信息关系网,那这些系别的信息可不可以融合呢?也许现阶段出于商业目的和国家法律法规的强制要求,这些信息无法在这些公司进行整合,但总有地方可以完成这一操作。这些公司还是要听国家的话的,当国家相关部门需要的时候,还是要提供这些信息的。而这些部门则可以拥有一个史无前例的巨大的用户信息网,每一个互联网用户的一言一行一举一动都将被记录,而每个用户都将处于“裸奔”状态,除非他不使用互联网。

听起来十分可怕,但只有国家机关才拥有这个权利获取所有数据。可不容小觑的是,每个系别内的数据同样可怕。大数据时代,当一个陌生人看见你的时候,他能叫出你的名字,谈论你的好友,讨论你喜欢的明星,拥有你的手机号码、微信号码、QQ号码和身份证号码,知道你曾挂过哪些科目,了解你的口味,也知道你昨天去了哪里、今天要干什么,你千万不要惊讶。现阶段已经能做到的事情,以后只会更甚。

如果说以上信息都是根据互联网公司业务和服务能够明着获取到的话,咱们可以再探讨一下用户看不到的地方。说到权限,应用程序可以说自己获取某个权限只执行一个操作,可是谁知道它是不是遵守了这一承诺呢?权限已经赋予它了,它便能执行该权限下的所有操作。谁也不能保证它没有上传你的通讯录和短信,谁也无法保证它有没有在后台监听你的一言一行。

在移动互联网时代,不存在隐私问题,因为用户已经没有了隐私。大数据时代,数据就是资源,数据就是财产。所有的信息都汇总(Σ)后,留给用户的是什么?我们只能隐约看到各自的信息在这些公司形成了对应于自己的知识图谱和画像,供这些公司分析研究,并精准地向我们推荐各种商品和服务。这是互联网之便,是用户拿自己的隐私换取的互联网之便。移动互联网时代,你“裸奔”了吗?

(本文为中国科学院大学2017-2018学年第二学期《移动安全与测评》课程作业,完成于2018年5月25日)

发表评论

电子邮件地址不会被公开。 必填项已用*标注