中新网北京1月26日电 (记者 孙自法)匿名数据一定匿名吗?施普林格·自然旗下学术期刊《自然-通讯》最新发表一篇技术论文指出,匿名数据也不那么匿名——人际互动数据或可长期用来识别匿名数据集中个体的身份。
该论文称,为了开展服务或出于研究目的,短信应用、手机运营商、社交媒体平台和其他应用都会收集细粒度的互动数据。这些数据已被用来研究个体间的互动模式,预测流行病的空间传播,以及评估友情对政治动员的影响。根据欧盟当前的数据保护条例,这些数据无需征得用户同意就能分享和出售,但前提是数据必须匿名。
论文通讯作者、英国伦敦帝国理工学院伊夫·亚历山大·德蒙乔伊(Yves-Alexandre de Montjoye)和同事研究发现,人们的互动数据能保持长期稳定,这或许能用来识别匿名数据集中个体的身份。他们开发出一款基于深度学习的模型,训练这个模型根据个体的互动网络来识别他们的身份,并应用于一个在不同时期收集信息的逾4万人的数据集。该模型能基于个体的2级(2-hop)互动网络(与目标个体相隔1人的个体互动)识别出52%的人,基于个体的直接(1级)互动网络识别出15%的人。
由于这类互动网络能保持长期稳定,研究者在20周后还能用个体的2级互动网络识别出24%的人。当研究者将该模型用于一个587人的蓝牙近距离数据集时,该模型可以识别出超过26%的人。但论文作者也指出,他们不认为该模型适用于针对防疫的接触者追踪协议,比如谷歌和苹果的暴露通知(Exposure Notification)。
论文作者认为,这项研究结果表明,匿名化、非连接互动数据或具有长期可识别性,这可能对隐私保护条例的遵守具有启示意义。他们认为,接入控制和隐私增强系统这类安全措施或能防止这种个人身份被识别的情况发生。此外,该研究结果还显示,处理这类数据的现行做法可能并不符合欧盟《通用数据保护条例》(GDPR)的匿名化标准。(完)