大话指纹

万物皆指纹。

指纹是什么?最直观的就是张开自己的手掌,看一看手掌上复杂的脉络。由于生物学上的特性,指纹能唯一标识一个人。在这里,“指纹”是“唯一标识”的充分不必要条件。如果引申一点,变成充要条件,那么就引出了指纹的广义概念,即能够在大量实体中唯一标识某一(类)实体的特征(集)。

“我和我们是不同个体的化身”(王俊凯《醒着》,作词王子)。每个人都是独立的个体。每个人都会在不同的时间空间维度拥有不一样的经历,加上先天的生物因素,每个人都会拥有属于自己的特征。这个特征可以是说话声、走路姿态、表情、眼神、对外部事件的反应等。有时单靠脚步的节奏,我们也能知道走来的是谁。泛化地说,这些都是“指纹”。

智能时代的指纹

世界上没有完全相同的两个人。在面对相同事物时,不同个体的行为差异能在最后累积成区别不同个体的特征。如果能适当量化的话,每组特征都能形成一个高维向量,使用这个高维向量能对个体进行唯一标识,这个高维向量就是一个指纹。

试想,同一班级的两个同学在同一天买了两台相同型号的笔记本。两个同学每天使用笔记本做笔记、浏览网页、打游戏、写作业……时间长了之后,我相信他们的室友一看桌面就知道两个笔记本谁是谁的。对于电脑上的应用程序来说,可能只看浏览器历史记录就能从众多用户中找到他。这些使用特征构成了唯一标识用户的一个指纹。

所以,网页可以通过检测浏览器的插件、版本、操作系统版本、型号、屏幕分辨率、语言等形成一个指纹,用于对用户的追踪。这个指纹称为浏览器指纹。同样,对于使用了加密技术的网站(HTTPS),因网页元素的不同(文字、图片、视频、广告等等),能形成具有不同特征的加密数据流,这些特征构成了标识加密网站的网站指纹(不加密的网站还用得着靠指纹来识别吗)。主机也是一样,损耗特征加上硬件特征也能构成设备指纹。很容易地,这台电脑已经在茫茫计算机中被唯一标识了。可能有人会说,我把浏览记录清除了,特征不就不一样了,他们还能识别到我吗?当然可以,因为能识别你的可不只有指纹。

也许是为了创造一个清朗的空间,也许是为了撇开不必要的麻烦,现在很多年轻人喜欢养各种小号,QQ小号、微信小号、微博小号……有人甚至在不同的设备上登录小号。可是你终是你,是别人无法取代的一个独立的个体。试想,如果两个账号所发微博的来源、地点非常相似,那么是否能把他们相关联?如果他们的语义、情感、文法、句法、配图等一些语言上的特征又高度相似,那能否进一步地认为这两个账号相关?如果他们有更多行为特征上的相似性,那这小号的意义可能就要打个折扣了。这些语言行为特征也是指纹。

哦!多么可怕!一个人可以有这么多特征被标识!那我们岂不是在互联网上裸奔?是啊。但自打决定要上网的那一刻,你已经决定裸奔了。可完全不上网呢?对不起,这时候“完全不上网”也是一个特征了。终究,茫茫人海中,可能你找不到的那个TA,已经被无数脚本标记了成千上万次。而你也会发现,最懂你的不是TA,不是你,而是那段以各种形式追随着你的程序。

事物都有两面性,指纹也不例外。如果使用得当,它能帮助人类做很多事情,能够让人们的生活变得更加便利。如果使用不当,它也会带来严重的隐私问题,威胁人们的生命财产安全。指纹不会凭空出现在各种分析系统中,决定怎么使用指纹的还是人类。所以,在这个大数据时代,要怎样使用指纹呢?It’s up to you. It’s up to all of us.

(本文始作于2019年11月19日,修订于2020年01月07日,发布于2020年03月21日)

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据