国内的数据挖掘,大数据应用的案例有哪些?
发布时间:2022-10-25 11:58:41 所属栏目:大数据 来源:
导读: 关于大数据分析的案例,网上诸如啤酒与尿布的例子实在是太多了,但是关于数据挖掘的案例很少会有人关注。这里我分享两个关于数据挖掘的案例,希望能够体现出数据挖掘强大效果之一二。
另外我向大家分享我
另外我向大家分享我
|
关于大数据分析的案例,网上诸如啤酒与尿布的例子实在是太多了,但是关于数据挖掘的案例很少会有人关注。这里我分享两个关于数据挖掘的案例,希望能够体现出数据挖掘强大效果之一二。 另外我向大家分享我多年来整理的大数据资料,内含丰富的大数据实践案例、大数据白皮书,大数据解决方案等资料: 一、数据挖掘预测电影票房 19年春节档关注的电影一共有《疯狂外星人》、《流浪地球》、《飞驰人生》、《新喜剧之王》四部,而关于这几部电影的票房,我们的团队在电影上映一周前就做了出了预测: 除了《流浪地球》这匹黑马杀出重围之外(挖掘算法也没想到国产科幻电影也有翻身的一天),其他电影的预测结果与实际结果几乎完全吻合! 那么,我们是怎么用数据挖掘预测电影票房的呢?简而言之思路就是先根据历史票房变化预测出春节档总票房,然后根据各导演、演员制作的历史电影质量、票房情况、SEO情况等预测出各电影票房占比,之后综合预测出各电影的实际票房。 1、获取数据 从m1095、票房网、豆瓣网等获取电影票房、质量、属性等数据, 影响电影票房的三个重要因素:电影质量、电影宣传力度、档期电影总票房。 2、用算法工具进行预测 3、预测电影质量,从而预测电影在该档期的票房占比 如何使用历史数据来预测电影质量?对于电影来讲不变的就是那些导演与演员,导演的水平与演员的水平基本决定电影质量从而影响电影票房。 为了客观衡量导演、演员水平,根据历史电影评分、导演信息、演员信息、票房信息、电影类型信息、评价信息等特征进行组合最终共有74个特征,再结合历史票房数据等通过加权算法分析得到四部电影的票房占比情况,处理后的数据如下: 4、结合SEO、市场响应等优化票房占比 电影票房还与SEO等相关,我们找寻了百度指数、微信指数、淘票票指数等数据, 从历史数据发现这些指数与电影票房呈正相关关系,也就是指数越高票房越高,加入这些指数后, 使用算法重新进行预测得到我们最后的票房预测结果如下: 二、数据挖掘应用于店铺选址,预测销售额 衣架服饰是一家大型的品牌服装企业,每年都会在全国开设许多门店,那这店铺的选址怎么做呢? 一般的做法是组建一个选址团队,到现场进行实地考察,然后根据粗略统计的统计,预测一下这个地方的销售量会怎么样,然后对比分析之后靠经验选择一个地址。但这种方法成本大,效率低,误差大,而且非常仰仗经验。 为了解决这个问题,衣架服饰希望能够用更科学的方法优化店铺选址,于是就用到了数据挖掘: 1、数据处理: 衣架原有的数据包括店铺基础数据以及旧店铺的历史销售数据,项目团队首先对这些已有的数据进行格式化统一,然后收集了原始数据没有的人流量、消费水平、消费时尚等数据,将获取的数据根据业务与后续算法实施来进行预处理,比如异常值删除、缺失值填补、数据标准化等处理。 2、特征工程与模型构建 所谓特征工程就是与预测结果相关的特征(指标)组合,也就是与新店铺相关的销售额特征组合。 该项目的原始数据加上结合业务知识生成的组合特征与leakage特征,构建的特征工程共计80余个大数据运用,通过CFS、MRMR、MBF等方法综合分析,去除相关性权重不高的特征,最终剩余40余个。 然后建立算法模型,适合该项目的算法有决策树、随机森林、回归、XGBOST等。最后通过模型准确率以及模型与业务的契合度对比,选择了随机森林作为模型算法。 3、模型优化 模型优化主要是在找到模型可改进的地方之后所做的事情,比如模型算法的参数调整、特征工程调整等。该项目中模型优化过程除了参数调整,主要就是依据业务,进行特征工程的调整以及数据清洗。比如业务研究过程中发现新的相关特征,需要将其加入特征工程。 4、得出结果 在该项目中,将特征与销售额的相关性用权重来表示,权重越高表示该特征与销售额的相关性越强,权重结果如下: 5、误差分析 预测的结果究竟准确不准确呢?团队将新店铺销售额拿来与人为预测销售额、实际销售额做了个误差分析,以此来衡量店铺销量预测误差。如下图所示,人为预测月平均误差为8.08万,算法预测月平均误差为1.478万,人为预测误差大概为算法预测误差6倍。算法预测最小误差仅300元,预测精度最高为99.7%! (编辑:草根网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
站长推荐


浙公网安备 33038102330473号