网络爬虫正在“入侵”你的生活......
发布时间:2022-11-19 11:01:02 所属栏目:大数据 来源:
导读: 在互联网大数据时代背景下,网络爬虫作为一项获取网络中数据和信息的技术,在使用方面一直存在争议。
一、什么是网络爬虫
网络爬虫大数据爬虫,又被称为网络机器人、网页蜘蛛。网络爬虫通过模仿
一、什么是网络爬虫
网络爬虫大数据爬虫,又被称为网络机器人、网页蜘蛛。网络爬虫通过模仿
|
在互联网大数据时代背景下,网络爬虫作为一项获取网络中数据和信息的技术,在使用方面一直存在争议。 一、什么是网络爬虫 网络爬虫大数据爬虫,又被称为网络机器人、网页蜘蛛。网络爬虫通过模仿人类浏览互联网的行为,将网页、应用软件等数据信息爬取,是一种按照一定规则对互联网信息或者数据进行抓取的程序或脚本。 大数据爬虫_大数据开源爬虫_爬虫大数据交易 网络爬虫又分为善意爬虫和恶意爬虫。善意爬虫具有促进数据共享的正面影响,而恶意爬虫极有可能造成数据泄露、侵权、不当竞争等危害。 二、近十年网络爬虫发展过程 网络爬虫的起源可以追溯到互联网诞生之初。随着互联网的不断发展以及数字经济的出现,数据和信息的重要性日益显现。无论是公开的信息,还是私密的数据,其背后隐藏的价值都不言而喻。 1.2013年—2015年:北美地区调查显示网络爬虫流量占比约五成 海外著名调查机构Aberdeen Group在2013年至2015年以北美地区几百家公司为调查对象,探究网络爬虫访问流量发现,网络爬虫访问这些公司网站的流量占比竟高达约五成。其中,2014年真人访问流量只占40.9%。 除了2013年,善意爬虫访问流量(24.22%)高于恶意爬虫(20.98%)约三个百分点之外,2014、2015年恶意爬虫访问流量占比分别为36.32%、27.04%,均高于同年的善意爬虫访问流量占比(22.78%、18.16%)。 2.2018年:云鼎实验室追踪恶意爬虫流量最大行业,“出行”行业居首 近些年来,随着我国互联网不断发展,“大数据”的概念深入人心,数据价值更被喻为“无价之宝”。但是在利益的驱使下,许多公司或者个体开始引入“恶意爬虫”肆意爬取其他公司或者个人的重要数据、信息。 云鼎实验室在2018年对海量恶意爬虫流量进行追踪,并统计出了恶意爬虫流量最大的十大行业。其中,占比最多的是出行行业(20.87%)。分析认为,购票平台数据量庞大,尤其在节假日期间,车票、机票、住宿更是供不应求,致使代购票和第三方抢票服务层出不穷,而要做到数据实时刷新,需要大量网络爬虫。 3.2019年:Aberdeen Group数据显示网络爬虫流量高达37.2% 根据Aberdeen Group在2019年的调查显示,纵观整个互联网,网络爬虫的流量高达37.2%。这些网络爬虫在网络中肆意游走,爬取数据、查看信息,如此循环往复。 按照网络爬虫的功能进行分类,可以分为网页爬虫和接口爬虫(也称API爬虫)。 4.2020年—2021年:典型案例显示API爬虫成为数据泄露主要威胁 2021年6月,根据中国裁判文书网的公开判决案例显示,河南省商丘市睢阳区人民法院依法对逯某、黎某侵犯公民个人信息进行判决。原因是逯某从淘宝中非法爬取了11亿余条客户信息,并将非法获得的用户信息提供给了黎某用于商业经营,非法获利34万元。 此案一经判决便在网络中引发了不小的议论,部分网友对自己的个人隐私表示担忧。该案中,逯某就是运用了API爬虫技术对用户信息进行了非法爬取。根据永安在线的统计,API爬虫已经成为了数据泄露的主要威胁。 三、分析师点评 舆论认为,新技术的出现标志着时代革新,技术不分好坏,用途却有善恶。恶意爬虫横行网络,且涉足领域广泛,从个人信息到开源数据,从政府网站到商业网站,相关危害不容小觑。 (编辑:草根网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
站长推荐


浙公网安备 33038102330473号