搜索电商怎么运营「聚焦爬虫爬取网页的流程」
今天给大家普及一下搜索电商怎么运营「聚焦爬虫爬取网页的流程」相关知识,最近很多在问搜索电商怎么运营「聚焦爬虫爬取网页的流程」,希望能帮助到您。
本文作者从具体的工作实践出发,结合案例等分享了非常实用的大范围排序中的类目预测知识,供大家一同参考和学习。
在上一章节中,给大家简要的介绍了下搜索的具体流程,从输入关键词点击搜索按钮那一刻起,到搜索结果页呈现给用户的眨眼间,是经过了怎样的步骤和流程才呈现到我们面前。
其中有一些步骤我觉得可以深入讲解一下,但是睡了一觉后,觉得可能对于产品运营的读者你们有点过于晦涩和枯燥,即便知道了其中的奥妙对你们未来的运营工作也没有太大的帮助比如分词算法。
因此为了节省大家的时间,我还是挑重点说,本章就着重讲解一下大范围排序中的类目预测环节。以及结合我现在所在的单位起初的一些沙雕的操作,也顺带给各位立志想进入产品圈的小年轻一些产品设计以及沟通中的建议,方法论什么的我就不想说了,太虚,就直接上操作吧。
类目预测什么叫类目预测?举个简单的例子吧。如果输入关键词“手机”排在前面出来的是手机类目而不是手机壳类目,这就是类目预测。
根据搜索全词匹配的原则,只要商品标题或者属性或者类目名称等带有“手机”关键词的商品,都会被召回,而类目预测的作用就是将这些已经召回的商品按照类目优先级进行排序的过程。
说起来简单,做起来就老费劲了!如果仅仅从营销数据来进行排序,手机壳单价低,商品数量众多,相比于手机类目 单价高,数量可能远远不及配件。
那么如果我是个没有感情的排序机器,我应该优先排哪个呢?
肯定是手机壳在最前面,因为手机壳类目全方位的数据都比手机类目要好,为什么不排手机壳呢?很有道理。但是从消费者意图来讲,用户要的是手机,不是手机壳,你这个数据再好看,对于消费者肯定也是不准的。
所以对于消费者来说,类目预测的效果如何,是衡量搜索准确性的入门指标。由于目前国内的电商巨头都已经通过了前期的人工收集,机器算法辅助阶段,亦或已经通过第三方的搜索解决方案提供商能够提供比较完备的预测算法和方案。
那么此篇文章针对那些初创,或者对搜索结果页还不甚满意且有至于自己优化的企业有参考意义。(我将在最后一期给大家介绍一下,如何搭建一个比较完备且经济的站内搜索产品方案)
类目预测我们分为两部分讲解,人工和机器算法
人工很简单,直接在产品后台搭建一个关键词和类目的关联表。做这个产品时,产品经理需要注意的问题点有如下几个:
(1)该产品面向的使用用户是谁?肯定是搜索运营人员。首先要满足的是用户的使用方便,可以批量导入和导出功能,增删改查一个都不能少。
(2)该产品运营的主要内容是什么?关键词,因此对于关键词我们要区分语言,如果app涉及到多个语言区国家,因此就要分开运营,而且不同语言之间的互通生效;且对于音型文字需要对多种时态变体,以及同义词生效。
同样的关键词,互换位置后也一样生效,比如“手机苹果”和“苹果手机”等。这样可以减少人工维护的词量。(我现在所在的单位依旧采用的是绝对匹配的逻辑,这个坑依旧没有填。这个也给了我一个启示,做产品规划时一定要先期做好细节处理,虽说不用100%的面面俱到,但是最起码的主要矛盾还是要考虑的)
(3)精确全词匹配还是以中心词匹配,一直是我入职以来的争论,从一个站内搜索体系搭建以来,人工全词匹配一直是领导层最相中的。因为能够更快出成绩,只需要几个人 每天对着top词来维护一遍就能达到数据提升的效果。
①精确全词匹配预测
什么叫精确全词匹配预测,就是我搜索“苹果手机128g”如果在人工维护的词库里只有“苹果手机”这个词,一样是无法命中人工类目预测,因此人工维护的全词匹配的词量是极其巨大的。
而且用户输入的关键词是没有规律可循的,什么样的顺序都无法预测,因此词功能只能作为快速修补关键词呈现bug的功能。
②中心词匹配预测
那什么叫中心词匹配预测,这个其实是基于一个合理的假设,即电商网站是来购物的,用户进行app浏览和搜索都是基于某种物品或者品牌需求,那么我们有理由相信只需要收集有限物品词以及品牌词就能涵盖绝大部分搜索类目预测需求,那么这些物品词或者品牌词就是我们的中心词。
比如用户搜索“手机128g”那么“手机”就是中心词,人工的中心词词库只需要维护“手机”对应前端/后端类目就能起到类目预测的效果,以点带面会取得不错的效果。
也许有人会说,如果用户输入“手机壳”不也是预测到手机类目了么,也是预测错了。因此在此需要引入n-gram的策略,一般而言词组优先级要高于单词。也就是说词库是优先匹配词比较长的,如果词长的没有,再去匹配词短的。
类目预测的逻辑是,某个关键词只要通过算法或者人工预测到了类目,则会在预测的类目优先进行and查询并召回排序,然后在非预测类目and查询并召回排序。
也就是说如果在预测的类目里如果搜索不到产品,这个预测也没啥用。或者说是预测错类目。(当然也有例外,当一个用户搜了一个特别刁钻的词“苹果土豪金128g送给妈妈的礼物”算法或者人工预测到的类目是手机类目,但是and查询在该类目无结果,此时可以采用减词算法进行智能减词,提取关键词主干供用户选择)。
机器算法所谓机器算法是根据用户的行为数据以及商品本身的固有信息得来的。
那么采用机器算法的逻辑基于词频和用户的点击行为基于贝叶斯理论(百度的意思就是:如果你看到一个人总是做一些好事,则那个人多半会是一个好人。这就是说,当你不能准确知悉一个事物的本质时,你可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。 用数学语言表达就是:支持某项属性的事件发生得愈多,则该属性成立的可能性就愈大)。
贝叶斯算法需要有一定的数据训练集,而这些数据训练集是需要商品数据以及关键词对应的(关键词与用户点击类目商品的概率)。
通过不断的对训练集训练结果的优化和评估,最后得出一个比较好的贝叶斯模型。这样关键词即与商品数据结合在一起,成了我们的机器类目预测。
然而类目预测的算法还有很多,这里只是给大家提一下,如果我把公式亮出来就显得装x了,因为我也看不懂。
好了今天就到这吧。
预告下一期内容,搜索算法的形成与原理。
#专栏作家#作者:王欢,微信:wanghuan314400,运营小灰一枚。
本文由 @王欢 原创发布于人人都是产品经理,未经许可,不得转载。
题图来自Unsplash,基于CC0协议