淘宝排序算法是怎样的
关注:61 发布时间:2022-02-09 18:36:01
一、算法模型
当用户输入关键词进行搜索的时候,系统依据算法模型来给匹配到的每个商品进行实时的计算,并按照分数的大小对商品进行排序。 google 的 pagerank,可以理解为一个网页入口超级链接的数目:一个网页被其他网页引用得越多,则该网页就越有价值。特别地,一个网页被越重要的网页所引用,则该网页的重要程度也就越高。 bm25 等。 spam,网页重复等等作弊的问题,电子商务搜索也面临同样的问题,比如商品关键词堆砌,重复铺货,重复开店,广告商品引流等等,也有商品特有的问题如价格作弊,交易作弊等,需要利用统计分析或者机器学习来做异常行为,异常规律的发现和识别并运用到排序中。 learning to rank 等的学习模型。 对人工评测的结果数据,使用预定义好的评价计算公式比如 dcg 等,用数值化的方法来评价算法模型的结果和标注的理想结果的接近程度。 side)的评测方法,针对一个关键词,把两个不同算法模型产出的结果同时展示在屏幕上,每次新模型和对比模型展示的位置关系都是随即的,人工判断的时候不知道哪一边的数据是新模型的结果,人工判断那一边的搜索结果好,以比较终的统计结果综合来衡量新模型和老模型的搜索表现。 rcfp(relevance,coverage,freshness,perspective)等,淘宝搜索线下评测时候一般统计 dcg 和 sbs 的指标。 system)系统就是这样的一个环境,在用户搜索时,由搜索系统根据一定的策略来自动决定用户的分组号(bucket id),保证自动抽取导入不同分组的流量具有可对比性,然后让不同分组的用户看到的不同算法模型提供的结果。用户在不同模型下的行为将被记录下来,这些行为数据通过数据分析形成一系列指标,而通过这些指标的比较,比较后就形成了不同模型之间孰优孰劣的结论。只要分组的流量达到一定的程度,数据指标从统计意义上就具有可比性。 pv 展示,和的集中度,在保证用户体验的前提下,给更多的优质或小小而美的卖家展示的机会。
对于好的算法模型,首先需要考虑我们能够有哪些特征因子可以应用。比如在网页搜索中,算法模型基本就是按网页的重要性和相关性给网页计算一个分数,然后进行排序。这里的相关性,和重要性就是网页排序模型中两个重要的因子。具体来说相关性因子是指搜索关键字在文档中出现的度数,当这个度数越高时,则认为该文档的相关程度越高。重要度因子比如 google 的 pagerank,可以理解为一个网页入口超级链接的数目:一个网页被其他网页引用得越多,则该网页就越有价值。特别地,一个网页被越重要的网页所引用,则该网页的重要程度也就越高。
考虑淘宝搜索的时候,有些特征因子是很容易能想到的,比如:
a、文本的相关性:关键词和商品的匹配,匹配的程度,是否重要词的匹配,匹配词之间的距离等,都可能影响相关性。比如搜索“小鸭子洗衣机”的时候,一个商品的中心词是洗衣机的要比卖洗衣机配件商品的相关性高,小鸭子连在一起的相关性要比“小”和“鸭子”分开时候的相关性高等。文本相关性比较基本的计算方式可以参考 bm25 等。
b、类目热点:淘宝数据的一个重要特质是每个商品都挂靠在类目属性体系下面,每个商品都做了一个很好的分类。在搜索过程中,同一搜索词的大量用户行为数据很容易聚焦到相应的热点类目,比如“手机”的搜索行为会集中到手机类目,而不是配件类目。
c、图片质量:图片是电子商务网站非常重要的一个数据,图片是否精美吸引人,图片上是否有各种各样的“牛皮”,和商品匹配度等都很大程度上影响着用户的和购买决策。
d、商品质量:每个商品都有不同的质量,商品的描述真实性,是否物美价廉,受人欢迎的程度等。
e、作弊因子:类似于搜索有关键词堆砌,link spam,网页重复等等作弊的问题,电子商务搜索也面临同样的问题,比如商品关键词堆砌,重复铺货,重复开店,广告商品引流等等,也有商品特有的问题如价格作弊,交易作弊等,需要利用统计分析或者机器学习来做异常行为,异常规律的发现和识别并运用到排序中。
f、公平因子:淘宝的商品很丰富,每个搜索词下都有足够多的商品在竞争,需要在相似质量的情况下让更多的商品和卖家有展示的机会,而不是像网页搜索一样是一个基本静态的排序,照成商品和展示的马太效应。
类似的商品,卖家,买家,搜索词等方面的特征因子有很多,一个排序模型就是把各种各样不同的特征因子组合起来,给出一个比较终的关键词到商品的相关性分数。只用其中的一到两个特征因子,已经可以对商品做一些比较基本的排序。如果有更多的特征参与到排序,我们就可能得到一个更好的排序算法。组合的方法可以有简单的人工配置到复杂的类似 learning to rank 等的学习模型。
那么如何衡量不同算法之间的优劣呢?
二、线下评估
算法模型的评估一般分为线下的评估和线上的评估,线下的评估很多都体现在搜索中常用的相关性(relevance)指标。相关性的定义可以分为狭义相关性和广义相关性两方面,狭义相关性一般指检索结果和用户查询的相关程度。而从广义的层面,相关性可以理解为用户查询的综合满意度。当用户在搜索框输入关键词,到需求获得满足,这之间经历的过程越顺畅,越便捷,搜索相关性就越好。
在淘宝搜索衡量狭义相关性的时候,一般是使用 pi(per item)测试的方法:
a、抽取具有代表性的查询关键词,组成一个规模适当的关键词集合
b、针对这个关键词集合,从模型的产出结果中查询对应的结果,进行人工标注(人工判断为相关性好、中、差等), 对人工评测的结果数据,使用预定义好的评价计算公式比如 dcg 等,用数值化的方法来评价算法模型的结果和标注的理想结果的接近程度。
利用人工标注数据来计算相关性的分数,来判断模型的好坏;在这个过程中人工不可避免的会有主观的判断,但综合了多人的判断结果还是可以获得一个有统计意义的结果,另一方面标注数据也可以帮助我们找到一个算法表现不理想的地方,有针对性的提升。
广义的相关性线下评测比较困难,受人工主观因素的影响更大,一般使用 sbs(side by side)的评测方法,针对一个关键词,把两个不同算法模型产出的结果同时展示在屏幕上,每次新模型和对比模型展示的位置关系都是随即的,人工判断的时候不知道哪一边的数据是新模型的结果,人工判断那一边的搜索结果好,以比较终的统计结果综合来衡量新模型和老模型的搜索表现。
线下评测的方法和指标有很多,不同的搜索引擎会关注不同的指标,比如以前 yahoo 的搜索引擎比较关注 rcfp(relevance,coverage,freshness,perspective)等,淘宝搜索线下评测时候一般统计 dcg 和 sbs 的指标。
线下的评测方法从统计上有一定的指导意义,能从一定程度上区分模型的好坏,但要真正验证算法模型的好坏,还需要接受真实的流量来验证。
三、线上测试
为了真实验证一个算法模型的好坏,需要有一个系统能提供真实的流量来检验。淘宝搜索实现的 bts(bucket testing system)系统就是这样的一个环境,在用户搜索时,由搜索系统根据一定的策略来自动决定用户的分组号(bucket id),保证自动抽取导入不同分组的流量具有可对比性,然后让不同分组的用户看到的不同算法模型提供的结果。用户在不同模型下的行为将被记录下来,这些行为数据通过数据分析形成一系列指标,而通过这些指标的比较,比较后就形成了不同模型之间孰优孰劣的结论。只要分组的流量达到一定的程度,数据指标从统计意义上就具有可比性。
不同的 bts 系统会关注不同的数据指标,在淘宝搜索,有一些重要的指标是很多算法模型测试的时候关注的:
访问 uv 成交转化率:来淘宝搜索的 uv,比较终通过搜索结果成交的用户占比。
ipv-uv 转化率:来淘宝搜索的 uv,有多少比例的用户了搜索结果
ctr:搜索产生的占搜索产生的 pv 的比例
客单价:每个成交用户在淘宝搜索上产生成交的平均价格
基尼系数:基尼系数是一个经济学名词,考量社会财富的集中度;如果社会财富集中到很少一部分富人手中的时候,基尼系数就会增大,社会的稳定性和可持续发展性就会出现问题;淘宝搜索借用了这个概念来衡量搜索带给卖家的 pv 展示,和的集中度,在保证用户体验的前提下,给更多的优质或小小而美的卖家展示的机会。
淘宝运营比较重要的一部分就是站内搜索优化,这样能提升商品的自然排名,不过,这并不是运营的全部,大家应该站在全局的角度来做好运营策划。如果大家没能完全理解,请不要因此失去信心,坚持下去才会给自己带来意外收获哦。
上一篇:淘宝饿了么拼图红包怎么领
下一篇:淘宝定向推广是什么意思
猜你喜欢
-
小红书退货诈骗是怎么回事40人支持
事实案例分析告诉大家是怎么回事:社交电商小红书最近可谓风头无两,通过话题植入全民现象级综艺《创造101》,将“标记我的生活”这句slogan打入人心。同时,邀请范冰冰、张雨绮、林允等众多娱乐明星入驻,营造权威时尚、可信赖的社交电商形象。然而,一边是平…
-
淘宝怎么查关键词展现92人支持
我们可以单独的看pc和移动关键词的展现情况,所示:pc和移动排名下面分别出现【分布】,点开分布,会出现流量分布图,所示:这里可以清晰的看到某一个小时内关键词的展现情况,在不同的排名上有不同的展现比例。关键词的出价更细致了,所示:选择不同的出价排名,右侧会…
-
阿里组织架构再调整103人支持
1月13日消息,阿里巴巴集团今天宣布,为实施“五新”(新零售、新金融、新制造、新技术和新能源)战略,全面升级和调整阿里组织架构。ceo张勇在全员公开信中表示:2017年是阿里巴巴集团“五新”战略开始的一年。激动人心的战略,必须有强大的阿里巴巴文化,不断升…
-
淘宝双11预热什么意思93人支持
所谓的双11活动预热,是双11大促的活动阶段之一。是为客户做的预热工作,不同阶段有不同的目标。预热期的目标,就是说不以日常的销售为主,就努力的推广和引流。如何互动预热?1、提前公布购物清单&购物攻略一方面让买家知道当天店铺活动怎么玩,帮助他们更快…
-
淘宝益起来在哪里展现79人支持
加入“益起来公益计划”,您的店铺和商品可以获得以下帮助:1、产品首页千人千面展现当前捐赠的商家名称。 一旦您参与了公益捐赠活动,该等捐赠即无法撤回、退回或取消,该等捐赠既不受公益项目开展进度的影响,也不受淘宝因您的违规行为对您做出的违规处理的…
-
淘宝客鹊桥如何返利15人支持
安装并注册【淘客助手】或者【查淘客】插件,安装完成重启下浏览器就可以使用了。淘客助手:http://www.taokezhushou.com/查淘客:http://www.taoqueqiao.com/安装完成设置pid码使用淘鹊桥玩返利,最关键的一步就是设置pid码。首先,打鹊桥,网页上方最右边有个…
-
淘宝中差评如何处理34人支持
1.如果是骗子,中差评师,坚决不妥协。直接向淘宝投诉。2.先联系顾客,沟通解决问题。如果顾客同意更改中差评最好,如果不能,一定要在淘宝店铺中差评里解释说明原因和解决办法。3.拉长中差评相邻上下的评价。简单说:假如你的中差评在第五条,你可以劲量让该条评…
-
芝麻信用社交暴露了什么12人支持
事实上这是一次支付宝芝麻信用圈子的内测活动,开放了校园、白领等圈子,只有女性才可以发帖,然后只有芝麻信用超过750分的才可以留言回复,此举一下子就激活了朋友圈,芝麻信用火了。不得不说对于做了那么多年社交梦的阿里来说,这次做出的产品是最具备社交基…
-
淘宝店铺直通车单价太高应该如何去降低44人支持
如果是点击成本过高,按花费排序,找出roi低,而且点击成本高的关键词。看看哪些词点击成本高,分出哪些是亏损词,哪些是主要的引流词,哪些又是辅助的引流词。 。 报,调整出价,让停留至合理的展现页面。或是单独建个移动端的计划,用目前引流成本较低的移动端给转…
-
淘宝达人大v怎么认证54人支持
淘宝达人新版后台发布之后,无论是新晋达人认证,或者已有认证达人修改认证信息,都会通过“达人成长”模块进行申请。 之类的。这里不是表决心的地方,而是体现你职业身份的地方,所以请不要这样写。很多淘宝达人对于认证身份和认证信息存在疑惑,甚至有些人随…
-
淘宝卖家想要推广产品,首先就需要找到一个合适的推广方式,而淘宝直通车就是淘宝店铺卖家最常用的、也是用得最多的一种付费推广方式。当然,即使是卖家使用淘宝直通车推广,有时候也会出现一些问题,特别是一些新手卖家,在不了解直通车的情况下就去胡乱的开车…
-
双11晚会详细情况介绍58人支持
7月12日,天猫双11晚会招商发布会,公布优酷是主办方,另外还有浙江卫视和东方卫视两个内容合作伙伴,三方会拿出各自优质ip并整合在一起。大优酷事业群内容产业化总经理崔延宁在7月12日天猫双11晚会招商发布会上举例道,东方卫视《极限挑战》、浙江卫视《奔跑…
热门十大品牌
- 2021年我国十大黄金品牌排行榜31003人
- 眼镜品牌十大排行榜前10名26367人
- 十大证券公司排行榜前10名23244人
- 2021年我国杂志排行榜前10名20056人
- 我国十大杂志排行榜前10名16361人
- 2021我国十个宜居城市排行榜前11489人
- 男士裤子品牌十大排行榜前10名11188人
- 2021十大火热电脑游戏排行榜前11059人
- 十大卫生巾品牌排行榜前十名8850人
- 我国十大袜子品牌排行榜前十名8373人
微商营销
- 微商:你什么都舍不得改变,还谈328关注
- 做微商选择产品时必须注意的393关注
- 2019年最新微信营销技巧424关注
- 微信营销技巧都有哪些?409关注
- 朋友圈里一些营销策略,你知道390关注
- 微商发朋友圈不被屏蔽的四大1044关注
- 微商营销怎么和客户建立信任475关注
- 做微商不懂引流?实用引流小技587关注
- 做微商哪里找货源?有哪些合适451关注
- 我想做微商怎么加入?需要怎么12598关注
- 创赢微商培训导师教你促成客1059关注
- 【入门微商必学】微商货源怎1275关注