10亿张人脸数据被抓取，我们正面对无处不在的“偷脸”

[复制链接]

ziqiaomeihua

261 主题	0 好友	573 积分

高级会员

发消息

电梯直达

楼主

发表于 2020-11-14 09:16:41 |只看该作者 |倒序浏览

阴影下的人脸识别产业：被低估的风险
发于 2020.11.16 总第 972 期《中国新闻周刊》记者 / 杨智杰
清华大学法学院教授劳东燕的抗争，赢得了一次小小的胜利。
今年 3 月，劳东燕在小区单元楼电梯口意外看到一张公告：小区即将在每个单元楼门口安装人脸识别门禁系统，下方附了一个二维码，要求业主自行扫码登记，上传人脸、身份证和房产证等信息。出于职业本能，在人脸识别过度应用上，劳东燕一直是坚定的反对者。她给物业和居委会写法律函、邮寄过去，提醒对方，不经同意而收集个人的生物信息，违反现行的法律规定。在和街道、业委会与物业开展了四方 " 谈判 " 后，该小区推行人脸识别门禁的计划无限延期，至今尚未开启。
不仅是劳东燕，越来越多的知名高校法学院教授站出来说不。" 北大法学院的一位教授，他写过关于人脸识别的文章，有小区的业主拿着他的文章给物业公司看，随后物业搁置了人脸识别系统的安装。我有一位同门师兄，也是刑法专业的老师，在大学园区提出安装人脸识别系统时，他追问是哪个部门要求收集，能否拿出相应的法律依据？后来，安装的事情就不了了之了。" 劳东燕写道。
法学教授们的担心，正在逐渐成为现实。以人脸信息交易为核心的黑色产业链，不仅存在，而且非常猖獗。近日，央视新闻报道，在某些网络交易平台上，花 2 元就能买到上千张人脸照片，照片主人可能会遭遇精准诈骗、财产损失，甚至人脸可能被用于洗钱、涉黑等违法犯罪活动。" 你面前的人脸识别机，只要扫一下你的脸，比你更清楚你的银行卡余额 "。人脸数据，如果被泄露并与其他数据关联，将带来灾难性的后果。
" 人脸识别的风险超出你所想。" 劳东燕告诉《中国新闻周刊》，" 你不知道是谁在收集人脸，不知道到底收集了你哪些信息，也不知道对方保存了什么，更不知道对方怎么使用。后面全部都是黑箱。"
" 人脸 " 被偷了
"3 万张人脸库、15 万条记录，嵌入行业的深度学习算法为核心，人脸识别准确率 >99.97％、识别速度
从技术上来看，采集人脸信息很简单，只要有摄像头就可以不间断采集。很多人都有这种感受，收集并使用人脸数据的工具和场景，正变得越来越多：拥有相册读取权限的 App、提供人脸解锁功能的手机厂商、进行身份验证和面部检测的各种金融类 App，甚至是办公楼里的刷脸出入系统，以及无处不在的安防摄像头。
除了少数获得用户同意的软件或场景，大量场景下的人脸信息采集，悄无声息。" 部分商城会运用人脸识别技术，收集顾客的行为和购买手段 "" 一些高校运用人脸识别技术收集学生的抬头率、微表情、上课的姿态 "，以及 " 基于人脸图像分析的换脸、美妆、性格判断、健康状态预测等应用 "。南方都市报人工智能伦理课题组和 App 专项治理工作组发布的《人脸识别应用公众调研报告（2020）》（以下简称《报告》），列举的上述场景中，这些 " 静悄悄 " 收集的方式，被多数受访者难以接受。
" 从数据收集环节来看，人脸识别具有无意识性与非接触性，可以远距离发挥作用，并能长时间大规模地积累数据而不被用户察觉，具有很强的侵入性。" 劳东燕撰文分析。
数据采集是人脸识别产业的最前端，因为人脸识别的准确度，需要靠大量的人脸数据来 " 投喂 "。多位技术人员告诉《中国新闻周刊》，技术发展早期，数据主要来自于机构或者高校实验室的公开数据集，公司找志愿者有偿采集也是重要途径。
云从科技相关负责人告诉《中国新闻周刊》，云从科技为此构建了一个由 91 个摄像头组成的矩阵用于全方位采集人脸，2 年时间采集了 1000 个人，每个人产生了 20 万张图片，共计 2 亿张图片。采集的人脸数据场景也非常丰富，包括不同表情和服饰，比如闭眼、皱眉、微笑、大笑、戴眼镜、戴帽子等等。另外还会搜集不同光线环境下的数据，例如逆光、背光、阴阳脸等。
但线下采集的数据远远不够，云从科技还从网络抓取了 1000 万人大概 10 亿张人脸数据，加入到机器学习的数据库中。基于这些海量的数据，公司人脸识别准确率从 68％上升到 99％。
使用爬虫工具抓取互联网上公开的照片，成为整个行业的普遍做法。中科院计算所研究员山世光研究计算机视觉和机器学习，也是人脸识别公司中科视拓的创始人之一。他曾告诉《中国新闻周刊》，人们在网站上传照片，如果能找到两三张或者十几张照片，这个人的数据就可以用来给算法做能力建设。这些数据包括一些明星、体育运动员、政治人物的照片，也包含普通人的照片，数量庞大。
黄昊（化名）曾在微软研究院工作，他告诉《中国新闻周刊》，现在人脸识别模型最需要质量较差的数据，比如大角度的照片、光照不好的照片、年龄跨度较大的照片等。这些公司很少再爬取社交网站上摆拍的、质量较高的照片，而是直接在生活场景中主动放置摄像头拍摄和识别，这种无配合的数据效果最佳。
多位人脸识别从业人员都提到，在人脸识别技术上，中国之所以走在世界前列，一定程度上得益于互联网上的大量数据以及相对宽松的网络环境。在他们看来，互联网上的照片是 " 主动公开的 "，拿这些数据锻炼算法 " 不算侵犯隐私 "，公司并不会获取除人脸外的其他个人信息。
中国科学院自动化所研究员、北京智源人工智能研究院 AI 伦理中心主任、国家新一代人工智能治理专委会委员曾毅认为，这种爬虫的做法并不合理合法，" 我甚至难以相信，技术公司只是单纯采集照片，不拿走网站上其他的个人信息。" 他解释，在网上抓取的数据需要先整理和标注，再提供给算法训练。标注中，一张图可以有许多分类，比如女性、成年人、亚洲人等。曾毅指出，社交网站上有一些数据信息，比如生日、毕业院校、职业等，都可以赋予照片解释，用来帮助数据标注。
这种做法在国外也引发了争议。澳大利亚摄影师 Georg Holzer 是 Flickr（图片分享网站）的用户，他喜欢把照片发布在网站，并同意将照片免费共享给非营利组织和艺术家。但是，让他意外和反感的是，巨头公司 IBM 在未经他同意的情况下，拿走了他拍摄的照片，也包括网站上其他数百万张照片，用以锻炼人脸识别技术的准确度。
这是 NBC（美国国家广播公司）的一则报道，指出了人脸识别行业的潜规则：IBM 以及数十家研究机构免费采集网上的公开照片，用以锻炼算法，而照片中的人和摄影师并不知情，想要删除自己的照片，更是几乎不可能。
今年 1 月，美国一家面部识别软件公司 Clearview AI 遭遇行业声讨。该公司发明了一款人脸识别的应用程序，使用者只需上传一个人的照片，就能搜索出这个人在网络上的公开照片以及网页链接。更让人惊恐的是，这个系统可以识别此人的名字、住址，曾经做过什么事情，以及人际关系网。
系统背后，有一个超过 30 亿张图片组成的数据库。Clearview AI 称，这些图片是从 Facebook、YouTube、Twitter、Instagram 以及其他数百万个网站上搜集而来。此前 1 年，已经有 600 多家执法机构使用了 Clearview 的软件。由于牵扯隐私等问题，Clearview AI 公司遭到抵制。新泽西州颁布州禁令，禁止执法机构使用 Clearview AI 的应用工具服务。Twitter、Google、YouTube、Facebook 等互联网公司也对其进行封杀。
" 人脸 " 被卖了
今年 9 月，李开复在一场峰会的言论，触碰到了行业的敏感神经。李开复称，早期他曾帮助旷视寻找到了美图、蚂蚁金服等合作伙伴，让旷视拿到了大量的人脸数据，帮助分析各个行业怎么切入。
蚂蚁金服迅速做出回应，称 " 从未提供任何人脸数据给旷视科技 "，双方过往合作仅限旷视科技授权其图像识别算法能力给蚂蚁单独部署和使用，不涉及任何数据的共享和传输。旷视也紧接着在微博澄清，公司不掌握，也不会主动收集终端用户的任何个人信息，旷视高度重视 " 数据隐私安全保护 " 问题，已在企业内部制定、实施了完善的数据隐私保护制度。当晚，李开复为此事道歉，称这只是一次口误。
旷视科技成立于 2011 年，起家于人脸识别，在计算机视觉领域与商汤科技、依图科技、云从科技并称 CV（计算机视觉）四小龙。这些 AI 创业公司，位于人脸识别产业的中游。同样在这个赛道与之竞争的还有微软、BAT、Google 等大型互联网公司，坐拥海量数据。人脸识别创业公司对这些数据，也具有强烈的渴望。
AI 技术公司如何与客户合作，人脸数据被谁拿走、如何存储，受到公众大量关注，但从来都不透明。旷视科技《Face++ 人工智能开放平台开发者服务协议》中就曾指出，旷视有权保存用户的数据并用于旷视及其关联公司内部研究的目的，" 主要用来提升人脸识别的准确率、算法升级和改善我们的产品和服务等 "。

7 月 6 日，山西太原市，即将参加 2020 年全国高考的考生前往考点查看考场，考务人员运用 " 人脸识别 " 技术核验考生身份。摄影 / 本刊记者韦亮
云从科技相关负责人对《中国新闻周刊》解释，公司为客户提供服务时，不管什么合作模式，一般情况下，数据都存储在客户那边，客户不可能愿意把数据给人脸识别技术公司。" 特别是银行、公安都有内网，我们的服务器都是建在他们内网，相当于他们的私有服务器，没有办法外传数据。"
北京市安理律师事务所合伙人王新锐长期关注数据安全和人工智能，在他看来，大公司不可能把数据传给 AI 公司，数据是大公司的核心竞争力，" 万一 AI 公司把数据卖给别人怎么办？"
不过，早期一些人脸识别技术公司疏于对数据的保护。2015 年，黄昊注意到，有一家公司的人脸数据标注是由其他公司外包的，从一个网站上就能直接看到所有数据。那次泄露只有业内人士了解，他自己也下载了一批数据，不过没持续很长时间，漏洞得到了修复。黄昊解释，保护数据需要成本，对于初创公司而言是不小的费用。更为重要的是，对很多公司来说，对数据过分保护，会阻碍人脸识别技术的发展。" 一些公司只能从服务器上获取数据，我想在自己的电脑上做一些可视化处理，也拿不到数据，就少了一些做分析的手段。"
被 " 疏漏 " 的数据，很多流入了人脸信息贩卖的黑市。北京青年报曾报道，有商家在网络商城兜售 " 人脸数据 "，涵盖 2000 人的肖像，每个人有 50 到 100 张照片，共计 17 万条，照片的主人公不仅有明星，还有不同职业、不同年龄的普通人。此外，每张照片搭配一份数据文件，包括眼睛、耳朵、鼻子、嘴巴、眉毛等轮廓信息。商家告诉记者，这些人脸数据，一部分从搜索引擎抓取，另一部分来自境外一家软件公司的数据库。
更严重的是，随着越来越多的人脸数据被上传到云端，数据泄露或违规使用的可能性大大增加，不排除运营工作人员的盗取、数据库被黑客入侵、公司破产倒闭数据库被倒卖等等可能。
" 从数据保管环节来看，一旦收集主体未能善加保护，会导致大规模泄露的情况；即便其采取合理的保管措施，也仍然面临被黑客侵入而泄露的危险。由于个人的生物学数据具有稳定不变性，一旦泄露，相应的风险及危害即不可逆转，也无法有效弥补。" 劳东燕认为，可以确定的是，人脸数据的泄露，所带来的潜在的安全风险，远比手机号与账户信息的泄露更为严重。人脸、声音、虹膜等生物信息泄露后，没有办法再更改。
匹配身份后的人脸数据危害极大
中商产业研究院的一份报告显示，据预测，2020 年我国生物识别技术（含人脸识别技术）行业市场规模将突破 300 亿元。围绕人脸识别，已经形成了基础层（芯片、算法、数据）、技术层（视频人脸识别、图片人脸识别、数据库对比检验）、应用层（硬件、应用和应用方案）的完整产业链结构。
当下人脸识别技术的风险点，更多集中在存储环节。近期，央视新闻报道指出，由于人脸识别应用五花八门，也没有统一的行业标准，大量的人脸数据都被存储在各应用运营方，或是技术提供方的中心化数据库中。数据是否脱敏、安全是否到位、哪些用于算法训练、哪些会被合作方分享，外界一概不知。而且，一旦服务器被入侵，高度敏感的人脸数据就会面临泄露风险。
在曾毅看来，去年深圳深网视界科技有限公司（SenseNets，以下称深网视界）发生的数据泄露事件集中体现了存储端的薄弱。2019 年 2 月，荷兰著名安全研究员 Victor Gevers 发现，中国安防视觉领域的一家企业深网视界未进行安全保护，导致其数据库在公网 " 裸奔 "，任何人都可以访问数据。该数据库有超过 250 万名用户的信息，除了用户名，还有非常详细且敏感的信息，比如身份证号码、身份证签发日期、性别、家庭住址、出生日期、照片、工作单位以及过去 24 小时的到访记录等。
深网视界并非业内知名企业，但与多地公安部门长期合作。数据库可供任何人在线访问，这意味着有恶意的人可以随时添加和删除、倒卖记录。Gevers 曾给公司发送提醒，但是对方都置之不理。" 很显然，一些地方政府主要关注系统的功能，忽略了公司以及它服务的对象对信息安全的保护。" 曾毅对《中国新闻周刊》说。
类似深网视界这样的数据泄露，后果是灾难性的。不少业内人士都指出，单纯的个人照片不构成太大风险，但匹配了身份信息的照片，危害极大。
人脸照片与身份信息相互匹配的渠道，越来越多样化。" 第一种是通过支付软件，上面可能本来就有了个人信息，再加上人脸信息，就能匹配；第二种是一些园区、旅游景点，刷身份证进入，就有了数据库；第三种是不少金融服务公司会拿客户的信息去查询比对权威部门的数据库，对比完以后，有的公司会把信息储存下来，存在泄露的可能。" 有业内人士分析。
有专家提醒，不少场景或者应用软件，要求消费者举着身份证拍照，这是最危险的，因为既有身份证又有人脸信息，一定要尽量避免提供这样的信息。
不少媒体都曾曝光，" 照片活化 " 工具可将人脸照片修改为执行 " 眨眨眼、张张嘴、点点头 " 等操作的人脸验证视频。匹配了身份信息的照片，经过 " 照片活化 " 后，能实名注册市面上大多数软件，加上验证码破解方式，不法分子在办理网贷、精准诈骗等方面几乎毫无障碍。
2019 年 1 月，四川省公安机关网安部门打掉一个使用软件制作动态人脸图片，破解人脸识别系统，盗窃支付宝资金的犯罪团伙，抓获犯罪嫌疑人 8 名，查获公民个人信息数据 3000 余万条。
2019 年 8 月，深圳市龙岗警方抓获一个人脸识别认证黑产团队。据报道，一位市民在某机构网站办理业务时，发现自己早已是网站注册用户，而注册这个网站，必须输入姓名、身份证号、手机号、验证码，并且要进行人脸识别认证才可以注册。警方破获案件后了解到，黑产团伙的做法是，在黑市购买 " 姓名 + 身份证号 + 头像照片 " 的资料，然后利用软件，对照片进行调色、3D 建模、渲染，让照片活化，此时，照片便可以做出张嘴、摇头、眨眼等验证指定动作。团伙把事先做好的视频保存在经过特殊处理的手机上，验证时，手机会直接弹出 " 选择媒体 " 的模块，而不是打开摄像头。打开事先准备好的视频，该团伙便能顺利通过认证，注册该网站的会员。
王斌（化名）曾在腾讯优图实验室做人脸识别的活体检测工作，他告诉《中国新闻周刊》，2017 年，他就曾见过上述操作的黑产攻击用户的其他系统，获取重要资产，当时技术骗过了算法，但是幸好被后续的人工审核查了出来。" 人眼可以轻易判断这是个假人，但让当时的活体检测技术识别这种攻击，仍有一定难度。" 王斌说。
" 谷歌已经明确拒绝将人脸与身份进行匹配，担心因此遭到滥用。其他科技公司似乎没有那么坚决。亚马逊和微软都在使用云计算服务提供人脸识别，而 Facebook 也将其列为核心计划。"《经济学人》杂志在 2017 年的一篇文章中指出。
有专家指出，" 人脸识别应用主要存在技术风险（包括误识率风险、歧视风险以及技术对抗漏洞）、滥用风险以及信息风险，继而导致‘钱、安全’等各方面的风险随着人脸识别应用的普遍化而增长。"
被滥用的技术
早在 2017 年，前美国中央情报局技术分析员斯诺登就曾经预言：以手机解锁为代表的人脸应用出现，会让人脸扫描正常化，也会让人脸识别终将被滥用。
如今，预言已经成为现实。2017 年，苹果推出支持人脸识别解锁的新款手机 iPhone X，同年，支付宝、京东、苏宁也都先后开启刷脸支付功能。人脸识别的消费级应用场景开始不断延伸。
" 由于未作任何限定，随着人脸识别技术应用场景的大肆扩张，滥用与歧视的现象必将不可避免。当下常见的应用场景，除了安保、门禁、支付与认证等之外，人脸识别技术也被广泛用于商场流量统计、社区管理、养老金领取、办税认证、物品保存、景区出入与演出场所的检票等。它甚至还进一步被推广用于教学过程，以监控与管理学生的课堂行为。" 劳东燕撰文写道。
教育是人脸识别的 " 重灾区 "。不少教育科技公司都推出过类似旷视的监控功能，声称可以分析学生在课堂上的行为，并对异常行为实时反馈。除了课堂以外，高校所谓的 " 智能校门 "，教室门及宿舍的出入也都在加装人脸识别系统。《2019 年中国智慧教育行业市场发展及趋势研究报告》数据显示，2018 年智慧教育的市场规模超过 5000 亿元。众多 AI 技术公司、教育场景公司加入红利的争夺中。
小区引入人脸识别门禁系统，在今年也引发越来越多的争议。近四五年来，国内不少小区都开始引入人脸识别做门禁。2017 年，一家技术公司厦门云脉曾宣传，" 人脸识别门禁正逐渐成为国内‘智慧小区’标配，传统小区的开发模式已逐渐被颠覆。"
但是，作为法学教授，劳东燕本能地意识到其中的法律漏洞和安全隐患。" 我们上传的人脸数据怎么保存，如何使用？" 街道办主任说，数据使用局域网存储，也可以保存在政府部门的数据库，这个回答依旧让劳东燕摸不清头脑。她对《中国新闻周刊》说，假如由物业保管，此后物业如果没有动力投入安保，数据就有安全隐患。她经常接触信息泄露的法律案件，一些房地产公司、物业将个人详细的地址、联系方式等泄露出去，只要其中有利益，就难以防范。
劳东燕从多方了解到，小区安装人脸识别门禁，并非物业的主意，而是街道办的 " 规划 "。2017 年，北京有 12 家小区入选首批智慧小区示范工程建设单位，人脸识别门禁便是标配。不仅北京，作为 " 智慧城市 "、" 智慧社区 "、" 旧改 "、" 雪亮工程 " 中的一个重要系统，集人脸识别、门禁控制于一体的智能门禁闸机，正在渗透中国许多省市的社区。
北京太川科技有限公司的一位销售人员告诉《中国新闻周刊》，去年年底开始，找他们安装人脸识别门禁的小区多了起来。据他介绍，" 石景山区 30 个社区 300 台云对讲门口机、西城区旧改 23 个社区的楼宇智能化系统改造、昌平回龙观街道 5 个社区智慧化改造，以及通州的雪亮工程等 "，使用的都是该公司的产品。这些项目多是对方主动找上门合作，一些街道办有相应的补贴政策。
在劳东燕看来，政府部门有需求，公司要抢占市场，二者 " 合谋 "，让存在大量风险隐患的人脸识别应用 " 遍地开花 "。" 从政府角度，人脸识别不失为便捷的技术工具，为安全需要，尽可能做出严密的防控。在资本的维度，从事研发推广的企业，接近疯狂地拓展业务，是为了尽快提升自身的市场估值与利润。不得不说，正是二者的亲密合作，人脸识别技术跑马圈地，得以像洪水一样势不可挡。"
面对越来越多的人脸识别 " 入侵 " 生活，劳东燕一直站出来抗争。2019 年 10 月 29 日，北京市轨道交通指挥中心主任战明辉在一个论坛上透露，北京将应用人脸识别技术实现乘客分类安检，安检人员据此对应采取不同的安检措施。两天后，劳东燕便发表文章《地铁使用人脸识别的法律隐忧》，坚决反对这样的做法。目前，北京地铁引入人脸识别技术的计划被暂时搁浅。
" 由于对如何收集、保存、传输、使用与处理数据，以及是否允许出售或提供给第三方，能否放在网上等，现行法律并未做任何的介入，这就使得应用场景的大肆扩张可能引发的风险，也呈几何倍数地增长。" 劳东燕直言，这不只是细思极恐，根本就是不敢想象。
栏目主编：张武本文作者：中国新闻周刊杨智杰文字编辑：李林蔚题图来源：图虫创意图片编辑：笪曦

人脸, 数据, 识别