采集淘宝数据 刑拘「爬虫爬取微博用户信息」
今天给大家普及一下采集淘宝数据 刑拘「爬虫爬取微博用户信息」相关知识,最近很多在问采集淘宝数据 刑拘「爬虫爬取微博用户信息」,希望能帮助到您。
观察者网讯(文/胡毓靖 编辑/庄怡)近日,河南省商丘市睢阳区人民法院公布的刑事判决书显示,逯某和黎某两男子通过自己开发的爬虫软件,对淘宝实施了长达八个月的数据爬取,而在阿里发现这一问题前,他们已经获取了近12亿条用户消息。
法院裁定,逯某和黎某均犯侵犯公民个人信息罪,判处徒刑3年以上,共处罚金45万元,违法所得上缴国库。
观察者网就此事联系阿里巴巴方面,截至发稿,未收到回复。
而据《华尔街日报》援引一位阿里巴巴发言人回应称,该公司主动发现并处理了这起事件,正与执法部门合作保护用户。但该发言人并未明确说明具体有多少用户受到影响,只表示没有用户信息被卖给第三方,也没有产生经济方面的损失。
观察者网查阅判决书发现,作案者逯某受雇于黎某,从2019年11月开始,在淘宝网站上使用自己设计的网页爬虫软件收集用户ID、手机号码和用户评论等内容,并将其中淘宝客户的手机号码提供给黎某开设的浏阳市泰创网络科技有限公司用于经营活动,而自2019年8月份至2020年7月份,该公司非法获利395万元。
判决书还显示,浏阳市泰创网络科技有限公司主要业务为“淘宝客”,主要是在微信群进行淘宝商品推广,从而获得淘宝网佣金和商家服务费,证人王某证言称,其公司社群组组员建好各自的微信群后将群二维码提供给老板黎某,然后就有人自动进群。
作为国内最大的购物平台之一,淘宝积累了海量用户隐私和消费数据。据阿里巴巴最新公布的2021财年第四季度财报,其中国零售市场的移动月活用户达9.25亿。2021财年,阿里巴巴全球活跃消费者达10亿。
数据安全保护存疏漏
用户隐私泄露在互联网科技企业中频频出现,而电商平台一直是信息泄露的重灾区。2016年12月,京东因安全漏洞问题致使12G数据遭泄露,在黑市流通,信息包括用户名、密码、邮箱、QQ号、电话号码、身份证等多个维度,数据多达数千万条。
在用户信息泄露的暗面,是网络倒卖隐私的猖獗。据证券时报此前调查,有从事数据采集软件开发的公司,可从京东、淘宝、拼多多电商平台获取用户信息,软件交价仅3800元,用户只要购买,就能通过后台按照自己的需求,比如行业、地区、性别等导出自己想要的数据。
数据泄露信息频发,侧面体现了数据的重要性和价值,但也对互联网公司的数据保护能力提出了新的要求。北京观韬中茂律所胡杨律师向观察者网表示,本次案件中犯罪嫌疑人采取了非法手段爬取阿里系统内地数据,隐蔽性强。但阿里在该案件中并非毫无责任。
胡杨表示,该案件暴露出阿里对其数据安全保护的疏漏和不足,并且没有及时发现并采取补救措施。根据《网络安全法》第六十条,对其产品、服务存在的安全缺陷、漏洞等风险未立即采取补救措施,或者未按照规定及时告知用户并向有关主管部门报告的,由有关主管部门责令改正,给予警告。
拒不改正或者导致危害网络安全等后果的,处五万元以上五十万元以下罚款,对直接负责的主管人员处一万元以上十万元以下罚款。故,主管部门可对阿里巴巴给予责令改正警告的相关处罚。
胡杨认为,随着数据违法行为频发暴露了互联网公司对数据安全保护的重视和投入不足。国家近期正式发布了《数据安全法》,数据安全保护对于互联网公司来说不再是”选修课“,而是”必修课“,应当严格按照法律规定保护数据安全。
业内人士建议:加强接口管控
上海谋乐网络科技有限公司联合创始人&CTO 张雪松告诉观察者网,在本次淘宝用户信息泄露事件中,阿里有技术能力可做到数据防泄漏。他推测,造成12亿条信息泄露,可能来自淘宝内部接口设计缺陷,以及违法方使用IP池手段规避了淘宝的反查。
张雪松介绍,淘宝有两个数据接口,在正常情况下反扒机制运行很好,对于连续爬取行为会及时阻断。但在接口设计上,淘宝并没有增加权限管控,禁止非本人访问用户的手机号等信息。“可能是基于传播需求或是其他更便利的需求开放了接口”,“我认为这是一个设计问题,而不是能力问题”。
此外,代理IP池的手段也让淘宝的反查机制难以准确运行。张雪松介绍,同一个IP爬取大量信息时,会触发淘宝的反查机制,但在使用代理IP的模式下,难度就非常高,“这本身也是行业难题”,他表示。
在本次事件中,犯罪嫌疑人爬取的是淘宝的数据,但实际受害的确是用户。对于用户隐私的维护,张雪松认为,阿里可以在接口设置上加强管控手段,尤其是手机号等隐私信息。
针对IP代理模式,张雪松认为阿里也完全有能力去建构风险库,将风险IP设为威胁特征库,加入到防控和风控体系内。此外,阿里还可适当引入第三方安全公司合作机制,对于海量数据进行更全面的核查,这样会完善安全机制。
本文系观察者网独家稿件,未经授权,不得转载。