加入收藏 | 设为首页 | 会员中心 | 我要投稿 草根网 (https://www.0372zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

网络爬虫正在“入侵”你的生活......

发布时间:2022-11-19 11:01:02 所属栏目:大数据 来源:
导读:  在互联网大数据时代背景下,网络爬虫作为一项获取网络中数据和信息的技术,在使用方面一直存在争议。

  一、什么是网络爬虫

  网络爬虫大数据爬虫,又被称为网络机器人、网页蜘蛛。网络爬虫通过模仿
  在互联网大数据时代背景下,网络爬虫作为一项获取网络中数据和信息的技术,在使用方面一直存在争议。
 
  一、什么是网络爬虫
 
  网络爬虫大数据爬虫,又被称为网络机器人、网页蜘蛛。网络爬虫通过模仿人类浏览互联网的行为,将网页、应用软件等数据信息爬取,是一种按照一定规则对互联网信息或者数据进行抓取的程序或脚本。
 
  大数据爬虫_大数据开源爬虫_爬虫大数据交易
 
  网络爬虫又分为善意爬虫和恶意爬虫。善意爬虫具有促进数据共享的正面影响,而恶意爬虫极有可能造成数据泄露、侵权、不当竞争等危害。
 
  二、近十年网络爬虫发展过程
 
  网络爬虫的起源可以追溯到互联网诞生之初。随着互联网的不断发展以及数字经济的出现,数据和信息的重要性日益显现。无论是公开的信息,还是私密的数据,其背后隐藏的价值都不言而喻。
 
  1.2013年—2015年:北美地区调查显示网络爬虫流量占比约五成
 
  海外著名调查机构Aberdeen Group在2013年至2015年以北美地区几百家公司为调查对象,探究网络爬虫访问流量发现,网络爬虫访问这些公司网站的流量占比竟高达约五成。其中,2014年真人访问流量只占40.9%。
 
  除了2013年,善意爬虫访问流量(24.22%)高于恶意爬虫(20.98%)约三个百分点之外,2014、2015年恶意爬虫访问流量占比分别为36.32%、27.04%,均高于同年的善意爬虫访问流量占比(22.78%、18.16%)。
 
  2.2018年:云鼎实验室追踪恶意爬虫流量最大行业,“出行”行业居首
 
  近些年来,随着我国互联网不断发展,“大数据”的概念深入人心,数据价值更被喻为“无价之宝”。但是在利益的驱使下,许多公司或者个体开始引入“恶意爬虫”肆意爬取其他公司或者个人的重要数据、信息。
 
  云鼎实验室在2018年对海量恶意爬虫流量进行追踪,并统计出了恶意爬虫流量最大的十大行业。其中,占比最多的是出行行业(20.87%)。分析认为,购票平台数据量庞大,尤其在节假日期间,车票、机票、住宿更是供不应求,致使代购票和第三方抢票服务层出不穷,而要做到数据实时刷新,需要大量网络爬虫。
 
  3.2019年:Aberdeen Group数据显示网络爬虫流量高达37.2%
 
  根据Aberdeen Group在2019年的调查显示,纵观整个互联网,网络爬虫的流量高达37.2%。这些网络爬虫在网络中肆意游走,爬取数据、查看信息,如此循环往复。
 
  按照网络爬虫的功能进行分类,可以分为网页爬虫和接口爬虫(也称API爬虫)。
 
  4.2020年—2021年:典型案例显示API爬虫成为数据泄露主要威胁
 
  2021年6月,根据中国裁判文书网的公开判决案例显示,河南省商丘市睢阳区人民法院依法对逯某、黎某侵犯公民个人信息进行判决。原因是逯某从淘宝中非法爬取了11亿余条客户信息,并将非法获得的用户信息提供给了黎某用于商业经营,非法获利34万元。
 
  此案一经判决便在网络中引发了不小的议论,部分网友对自己的个人隐私表示担忧。该案中,逯某就是运用了API爬虫技术对用户信息进行了非法爬取。根据永安在线的统计,API爬虫已经成为了数据泄露的主要威胁。
 
  三、分析师点评
 
  舆论认为,新技术的出现标志着时代革新,技术不分好坏,用途却有善恶。恶意爬虫横行网络,且涉足领域广泛,从个人信息到开源数据,从政府网站到商业网站,相关危害不容小觑。
 

(编辑:草根网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!