服务热线:400-0033-166
万商云集 - 企业数字化选用平台

企业首选的

数字选用平台

数据挖掘或机器学习最重要的是什么?

2021-01-06 13:43:33 阅读(146 评论(0)

我是数据挖掘和机器学习的新手。我从去年7月开始接触Amazon,我以前从未接触过,因为我的工作需要被动接触。我所做的是预测与机器学习相关的需求。后来到了淘宝,主动做了几个月的用户地址相关数据挖掘工作,有了一些浅薄的经验。下面的文章主要是我作为一个新人不到10个月的数据技术经验,可能对你有用,也可能很愚蠢,无论如何,欢迎指导和讨论。另外,注意这篇文章的标题模仿了一部美剧《权力的游戏:冰与火之歌》。在数据的世界里,我们看到了许多强大而有趣的案例。然而,数据就像一个王座,就像征服一种权力和征服,但在路上却同样令人震惊。当Amazon从事机器学习时,我注意到Amazon玩数据的三个角色。DataAnalyzer:数据分析师。这类人主要分析数据,从数据中找到一些规则,为数据模型找到不同场景的TrainingData。此外,这些人也是清洗一些脏数据的人。ResearchScientist:研究科学家。该角色主要根据不同的需要建立数据模型。就像《生命大爆炸》中的Sheldon一样,他们把自己戏称为不接近人间烟火的奇异物种。这些人基本上玩的是数据上的科学Softwaredeveloper:软件开发工程师。主要是实现Scientist建立的数据模型,交给Dataanalyzer玩。这些人通常更了解各种机器学习算法。我相信这三种工作是其他公司从事数据挖掘或机器学习的,或者这三种人。对我来说,最具技术性的是scientist,因为这些人决定了数据建模和提取最有意义的向量,以及选择不同的方法。我觉得这种人在国内是找不到的。最苦最累,但最重要的是Datanalyzer,他们的工作也是这三个角色中最重要的(注:我用了三个最重要的)。因为,不管你的模型和算法有多好,你只能在一堆烂数据上做一堆垃圾。正所谓:GarbageIn,GarbageOut!但这是最脏最累的工作,也是最容易退缩的工作。SoftwareDeveloper是技术含量最低的。现在国内很多玩数据的人都认为算法是最重要的,很多技术人员都在研究机器学习算法。错了,最重要的是上面两个人,一个是Datanalyzer洗数据,另一个是真正懂数据建模的Scientist!而像什么k-means,KNearestNeighbor,或者贝叶斯、回归、决策树、随机森林等其他游戏都非常成熟,而不是人工智能。说白了,这些算法在机器学习和数据挖掘中基本没有技术含量,比如QuickSort。目前流行的BuzzWord-大数据质量是相当误导性的。在我眼里,数据不分大小,只分好坏。在处理数据的过程中,我首先感受到的是数据质量。下面我分几个案例来说明:案例一:数据标准在Amazon,所有商品都有唯一的ID,叫ASIN——AmazonSingleIdentifyNumber,该ID用于识别商品的独特性(来自条形码)。也就是说,无论你把商品描述成什么,只要ASIN是一样的,这就是完全一样的商品。这样,就不像淘宝了。当你搜索iPhone时,你会有一堆各种各样的iPhone,有的叫“超值iPhone”,有的叫“苹果iPhone”,有的叫“智能手机iPhone”,有的叫“iPhone白/黑”...这些同一产品的不同描述是商家为了吸引用户。但有两个问题:1)用户体验差。对于消费者来说,以商品为中心的商业模式明显优于以商家为中心的商业模式。2)只要你不能正确阅读(识别)数据,你背后的算法和模型都是无用的。所以,只要你玩数据,你就会发现如果没有建立数据标准,什么都没用。数据标准是数据质量的第一关。没有这个东西,你什么都不玩。所谓的数据标准,唯一的数据识别只是最基本的一步,数据标准只是这样,更重要的是,数据标准抽象成数学向量,没有数学向量,以后不能挖掘。因此,您可以看到,洗涤数据的大量工作是合并和聚合混乱的数据,即建立数据标准。人肉的工作是绝对不可或缺的。无非是:聪明人在数据生成前定义标准,并在数据生成时进行数据清理。一般人只有在数据产生并大量积累之后才会这样做。此外,让我们谈谈Amazon的ASIN。这件事从十多年前开始。我在Amazon内部网站上看到的信息并没有说为什么我有这样一个ID。我认为这不是因为Amazon需要推荐一个商品ID,因为玩数据,也许是因为Amazon的商业模式被设计成“商品为中心”。如今,ASIN仍然存在许多问题。ASIN不能完全保证商品是一样的。不同的ASIN并不意味着商品是不同的,但超过90%的商品是有保证的。Amazon有专门的团队CategoryTeam,每天都有很多业务人员拼命纠正ASIN的数据。案例二:数据的准确用户地址是我从事过数据分析的另一件事。我还记得看到数亿用户地址数据的兴奋。但后来我就不能兴奋了。因为地址是用户自己填写的,里面有很多坑,不容易做。第一个是假/错地址,因为有些商家作弊或者用户测试。所以地址是错误的,比如直接输入“地址不存在”、“13243234asdfasdi”等等。我的程序可以识别出这样的地址。我的程序也能识别出来。例如:“宇宙路地球社区”等等。但是这种地址是可以识别的。甚至连人都认不出来,比如“北京市东四环路23号南航大厦5楼540室”,这个地址根本不存在。二是真实地址,但由于用户写作不规范,很难处理,如:缩写:“建国门外街”、“建国门外街”、“中国工商银行”、“工行”。。。错别字:“潮阳门”、“通惠河”。。。逆转:“东四环中路朝阳公园”和“朝阳公园(东四环)”。。。别名:有些人写开发商的社区名称“东恒国际”,有的写行政地名“八里庄东里”...这样的例子太多了。如果数据不准确,会增加你处理的难度。可见,如果数据不准确,会增加你处理的难度。有个比喻很好。玩数据就像挖金矿。如果含金量高,挖掘难度小,容易产生效果。如果含金量低,挖掘难度大,效果差。以上,我给出了两个案例,旨在解释-1)数据没有大小,只有含金量大的数据和垃圾量大的数据。2)数据清洗是一项多么重要的工作,也是一项人肉工作量很大的工作。因此,最好在数据生成时一点一点地完成这项工作。有一种观点:如果数据的准确性是60%,你所做的事情肯定会被用户骂!假如数据准确度在80%左右,那么用户会说,还不错!只有当数据准确度达到90%时,用户才会感觉到真正的牛B。但从80%到90%的数据准确性要比60%到80%的成本要大得多。大部分数据挖掘团队都会在70%的地方停下来。因为,以后,这是一项相当累的工作。我不知道有多少数据挖掘团队真正意识到业务场景和数据挖掘之间的重要关系?我们需要知道,数据挖掘和分析模型是不可能满足所有业务的。推荐音乐视频与电子商务中推荐商品的场景完全不同。在电子商务中,只要你买东西不退货,那么,我可以相信你喜欢它,然后,对于音乐和视频,你不能通过用户听歌曲或看视频武断地认为用户喜欢歌曲和视频,所以,我们可以看到不同业务场景下推荐算法的难度完全不同。说到推荐算法,你是不是和我一样,有时候对推荐有一种感觉——推荐是按不同维度排序的算法。就我个人而言,我认为在某些商业场景下,推荐有两种(不是根据用户关系和项目关系),一种是普遍推荐,结果是推荐流行的东西,这可能很好,但这可能是用户已知的,例如,在北京,我想找一家餐馆,你总是推荐烤鸭,我想去一个地方,你总是向我推荐天安门故宫的天坛(因为大多数人来北京吃烤鸭或去天安门广场)。我不知道所有这些。你想推荐吗?此外,水军通常可以刷普通的东西。此外,常见的东西通常可以被水军刷掉。另一种是个性化推荐,需要分析用户的个人喜好。好的总是给我我喜欢的。坏的是,也许我的口味会随着我的年龄和环境而变化。此外,我总是推荐符合用户口味的,这不能帮助用户探索新的点。例如,我喜欢辛辣的食物。你总是向我推荐川菜和湘菜。过了很长一段时间,我会感到无聊。有时候推荐不是民主投票,而是专业用户或者资深玩家的建议;有时候推荐不是流行的,而是新鲜的,我不知道。你可以看到,不同的商业场景和不同的产品形式可能会有完全不同的游戏玩法。此外,即使对于同一个电子商务,书籍、手机和服装的商业形式也完全不同。我之前在Amazon做过DemandForecasting(用户需求预测)——通过历史数据预测用户未来的需求。对于书籍、手机、家用电器等产品,你可以认为它们是“标准产品”(但不一定),预测更准确,甚至可以预测相关产品属性的需求。然而,Amazon已经工作了十多年,无法很好地预测服装等叫做Softline的产品,因为这些东西受到太多的干扰因素,比如用户对颜色和风格的偏好,是否合适,爱人和朋友是否喜欢。。。这种东西太容易改变了。如果你买得太多,你就卖不好,所以你根本无法预测,更不用说Stock/VenderManager提出的“预测某个品牌某种颜色的衣服或鞋子”了。对于需求的预测,我发现长期在这个行业努力工作的人的预测是最准确的,任何机器学习都是浮云。对于需求的预测,我发现长期在这个行业努力工作的人的预测是最准确的,任何机器学习都是浮云。机器学习只有在你必须面对成千上万种不同的商品和类别时才有意义。数据挖掘不是人工智能,而是太远了。不要认为数据挖掘可以做任何事情。找到合适的业务场景和产品形式比什么都重要。数据分析结果我看到很多玩大数据的人,基本上做数据统计,从多个不同维度统计数据的表现。最简单最常见的统计就是网站统计。比如:PV是多少,UV是多少,来源在哪里,浏览器,操作系统,地理,搜索引擎分布等等。唠叨,不要以为你一天有十几个T的日志就是数据,也不要以为你会用Hadop/Mapreduce分析日志。这就是数据挖掘。说得好听点,你在做的只是一份统计工作。那些T的RawData基本没有意义,只能叫日志,连数据都不算。只有你统计的数据才有意义,才能叫数据。当用户面对自己网店的数据时,比如每千人下单5人,65%的访客是男的,30%的18-24岁的访客等等。你甚至给出了这样的数据,你打败了同类型商家的40%。身为商人,面对这些数据,大多数人的表现都是完全不知道自己能做什么?是把网站改成更男性化,还是让年轻人更喜欢?我完全不知道该怎么办。只要你看一看,你会发现很多数据分析的结果看起来不错,但你不知道下一步该怎么办?所以,在我看来,数据分析的结果不仅仅是呈现数据,更重要的是,这些数据背后能做什么?如果你不知道看了数据分析的结果后能做什么,那么数据分析就失败了。综上所述,以下是我认为数据挖掘或机器学习最重要的事情:1)数据质量。分为数据标准和数据准确性。尽量消除数据中的杂音。为了数据的质量,大量的人肉工作是必不可少的。2)数据的业务场景。在所有的场景下,我们都做不到,所以,商业场景和产品形式都很重要,我个人觉得商业场景越窄越好。3)数据分析结果,让人们能够理解,知道下一步该做什么,而不是数据。有很多人从事数据挖掘,但成功的案例并不多(与大量的尝试相比)。目前,我似乎认为当前的数据挖掘技术是一种过渡技术,仍处于探索阶段。此外,许多数据挖掘团队使业务不是业务,技术不是技术,对技术人员感到遗憾。对不起,我只给了一个问题,没有建议,这也表明数据分析有很多机会。最后,我想提到的是“数据中的个人”

内容来源:数据分析网,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

矿泉水品牌有哪些 矿泉水品牌排行榜

  随着中国经济社会的发展,人们生活水平的提高,人们消费的品牌意识越来越强。重视品牌,反映了消费者生活理念的转变。同质同价的矿泉水,消费者更青睐品牌产品。那么国内知名常见的饮用矿泉水中,到底哪个牌子的水质最好呢?下面万商云集小编就给大家来详…查看详情

视频剪辑软件哪个好?这5款超好用!

随着抖音、快手等短视频的普及和发展,拍摄视频成为了当代人日常生活娱乐重要的形式,而只会拍不会剪辑视频还不够,很多朋友也在向小万咨询视频剪辑软件哪个好用?小万推荐各位试用下这5款,从初学到专业级的剪辑软件都有。 第一款:PremierePre…查看详情

微信小程序怎么开的?三个步骤帮你搞定

微信小程序可以说是使用比较便捷,也是使用率比较高的一款工具,深受很多行业的商家以及顾客的喜爱,尤其是很多的商家能够开发出自己想要的微信小程序,能够带来很好的发展,但是也有些商家并不懂技术,在这种情况下就应该要学习微信小程序如何来…查看详情

怎么查询公司是不是中小企业?

  现在处于全民创业时代,不论是刚毕业的大学生还是已经工作已久的在职人员或者个体商贩,都有着自己当老板的想法。现在整个市场上也是有很多的中小企业的存在的,中小企业算是整个市场的主力军,下面小编就给大家来详细介绍一下怎么查询公司是不是中小企业…查看详情

推荐几款电脑优化软件,让电脑运行更流畅

相信有很多用户都遇到很大一个问题,电脑怎么莫名其妙就变卡了呢?开机时长越来越慢,加载网页时长越来越长等等。这是因为电脑里面垃圾信息文件等等太多了导致的原因,今天小编给大家推荐几款电脑优化软件,一起来看一下吧。 1.软媒魔方…查看详情

家用吹风机排行榜 公认最好的四款吹风机

吹风机所吹出来的吹发效果与风的温度,风嘴的形状还有吹风机的内部负离子功能有关。不同形状的风嘴利用于不同发质的头发。扩散的风嘴形状可以有利于吹出更好的蓬松头发的感觉。额,集中状态的封嘴有利于吹出更好的柔顺的头发。以下几款吹风机品牌…查看详情

网上卖房子怎么发布

  随着互联网的发展,网上买卖房屋已成为一个非常流行的趋势,在互联网上发布房产信息已经成为很多房主和经纪人的常规操作。而如何发布房屋信息以便快速被寻找,吸引更多的潜在买家,是一个非常重要的问题。下面将详细描述如何在网上卖房子。  1.选择合…查看详情

2021最新手机跑分测试软件排行榜

目前市场上的手机越来越多,很多人都想测试下手机能跑多少分,虽然跑分结果并不一定代表手机真实的性能度,但也从侧面反映出一款手机的优劣度。所以,小万整理出了市场上比较主流的8款手机跑分测试软件,供各位做一个参考。 第1名:鲁大师鲁大师不仅在PC…查看详情

浏览器内核版本过低怎么升级

浏览器内核版本过低可能导致页面显示问题、功能不兼容以及安全漏洞等问题。为了解决这些问题,您可以尝试以下方法来升级浏览器内核版本:1. 更新浏览器: - 首选方法是直接更新使用的浏览器软件。现代浏览器如Google Chrome、Mozi…查看详情

适合孩子的学习机有哪些 学习机排行榜十强

  都说教育从来都不是短跑,而是马拉松!而这场马拉松中最关键的就是家长的陪跑!可现实中家长往往因为种种原因无法保证高质量的陪伴,以前可以“偷懒”把孩子送各种课外辅导班进行学习,不过现在双减政策的实施,让这种方式直接受到了限制!下面小编就给大…查看详情

照片处理软件哪个好 修照片软件app哪个好

  最近有许多小伙伴都在咨询小编修照片软件app哪个好,下面小编就给大家介绍几款照片处理软件。、一、迅捷图片转换器  这是一款电脑端的图片处理工具,软件内包含了格式转换、图片压缩、抠图换背景、去水印、照片修复和拼图等多个实用功能,接下来就为…查看详情

手机通讯录管理软件 免费管理通讯录的软件

  作为iOS 系统内置的官方应用,通讯录一直以来都处于一个「不温不火」的状态,究其原因,一方面,对于绝大多数人而言,通讯录的使用场景主要还是「新增」和「查找」联系人;另一方面,有人认为它设计不够漂亮,功能还不够强大。  也许正是因为这样…查看详情

英汉互译软件哪个好 英汉互译软件排行榜前十名

现在生活中对于翻译的需求是越来越大了,英汉互译的软件需求也是越来越大了,下面万商云集小编给大家介绍下英汉互译软件哪个好 英汉互译软件排行榜前十名这方面的内容。  1.google翻译  谷歌翻译(google tra1late)可翻译64…查看详情

python基本命令大全

python如何查看库信息?Python中有多种方式可以查看库信息,以下列举几种常见的方法: 1.使用help函数:在Python交互环境中,我们可以使用help函数查看库的文档信息。例如,我们要查看numpy库的文档,可以输入以下命…查看详情

免费好用的预算管理软件有哪些 2022预算管理软件排行榜

  现在在很多的工程装修这个板块都会使用到预算这一块的软件,现在市面上的预算软件是非常的多的,下面小编就给大家来详细介绍一下免费好用的预算管理软件有哪些 2022预算管理软件排行榜这一块的相关内容,希望能帮助到大家。  2022预算管理…查看详情

最新文章