语音识别性能评价指标「功能评分」
今天给大家普及一下语音识别性能评价指标「功能评分」相关知识,最近很多在问语音识别性能评价指标「功能评分」,希望能帮助到您。
这是一份前面四篇评测维度介绍文章的总结,同时也是一份清单使用说明书。
知己知彼,百战不殆,调研评测其他公司的产品是从业者的日常操作,那么当一个产品放到我们手里的时候,到底看什么呢?看哪些方面呢?专业性不到位的同学怕是无法下手。
而往往具备专业视角的人则游刃有余,他们知道考虑哪些点,结构清晰,主次分明,用解构的方式去理解一款产品,这才是AI从业者专业化思考的表现。
如何定义权重哪位同学问了,这四大维度,什么是重点呢?答案是:基于需求自定义。
定义权重高低,两个维度考量,一个是行业需求,一个是硬件载体。
行业需求(出行、教育、医疗、金融、电商、旅游、餐饮、客服等)硬件载体(音箱、耳机、手表、车机、机器人等)AI智能助手,往往都会解决某个行业领域的特定业务需求。AI智能助手,往往都存在于一个或多个硬件载体上,与人类进行交互行为。跟买房子、招聘员工所考虑的标准非常多一样,你在意什么,就给对应维度,对应指标以高权重。
比如:某产品的定位是用来听歌的,【意图理解】各个模块做得非常好,但是由于版权原因,无法播放,这个对用户而言就非常糟糕,因为满足不了听歌的需求。
再比如:某助手的定位是线下生活服务,比如订外卖或者是电影票,这类往往不具备版权垄断特质,但由于业务流程的复杂,有太多叠加查询条件,自然对【意图理解】有很高的权重要求。
再比如:某个玩具/手办具备语音交互功能,用户非常在意玩具/手办的语音交互是否匹配角色气质,故而对这类用户而言,【人格特质】就是高权重。
大维度自定义权重,同理,每个维度上的指标也基于需求自定义。
指标的选择和量化做清单真的是一件非常麻烦和费脑力的事情,这份清单花了笔者太多的时间,有太多的问题值得讨论。
为什么是4个维度,而不是5个或者是3个?各维度是否穷尽了“智能化”评测的角度?每个维度的指标是不是做到了穷举?每个维度的指标是不是平行、独立关系?每个指标的用词的和定义是否精准无歧义且易于理解?基于什么依据设置每个维度的重点和加分项?特别是在保留哪些指标,合并哪些指标之间,笔者做了很多权衡。
哪位同学说了,你遗漏了一个指标:语音识别表现,这个指标,与其说是遗漏,不如说是笔者的选择。
笔者所知道的,目前最好的ASR识别率是97%,且这已经是非常成熟的技术。ASR和TTS在未来属于AI领域水电煤一样的基础服务,就跟选腾讯云还是阿里云一样,花钱选技术买服务就能搞定,差距不会太大,故而不值得纳入评测范畴。
故而这类语音识别的基础表现,就直接归到【交互流畅】维度“服务稳定性”指标上了。
ASR这项技术未来差距一定会被抹平,而如果做到了方言(音轨)转普通话(音轨)然后转文本那就是另外一个话题了,方言转普通话和任何一种语言转普通话才是同一逻辑。那笔者可能会归纳到【意图理解】维度上。
这就是笔者选择指标,以及归类的逻辑。上面的这些问题考虑,笔者已经尽自己所能去做到MECE了。
笔者力求全面,但并非每一个都需要用到,各位同学也可以基于自己的需求,自由添加、删除和修改分类。
例如:如果是一个智能耳机或者语义翻译棒,那么“反馈样式丰富性”上,就不必要纳入评测范围了。
但选择本身就是一个难题,这件事情非常考验认知,我举个例子:苹果手机前面几代产品,玻璃屏幕特别不耐摔,这在诺基亚的评测维度里面,是无法出厂的。后来的故事,我们都知道了,这个故事各位细品。
指标的量化标准,这对大家也不是一个难题。拿测试集去验证,最终统计各个指标的表现,然后再横向比较竞品就好。
商业比得是相对位置,而不是绝对指标,即,我不需要考满分,我只要在这个科目上,领先与其他竞品一段距离就好,然后就可以宣称,这是当前市面上“某某指标”表现最好的产品。
产品的上限和下限除去调研和评测其他AI助手,这份清单的还可以用于立项做产品定位,以及当checklist评价产品表现。
产品在立项的时候,要哪些不要哪些,边界范围有多大,就是一个思考题。一开始,各音箱都是没屏幕的,大家都在抄亚马逊的Echo,后面为什么又出现了有屏幕的音箱呢?这个就是产品的定位和选择。
从商业逻辑上来看,有明显缺陷的产品无法存活于市场,没有长板的产品也注定平庸。而企业也没法把所有的资源平均分配,那样的东西注定平庸,唯有极致才可以生存。
上限就是自己的产品卖点,这样才能够从竞争之中脱颖而出。
典型如一些千元智能手机,大多数资源都分配到CPU和大屏幕上,其他的硬件一律堪堪及格线就好,这2个卖点到位,就能够出现在各种评测上做到前列,继而去影响消费者选择。
而再烂的智能手机也要搭配一颗摄像头,且摄像头的性能表现不能低于某个标准,如果这个太烂的话,注定无法存活。前面苹果手机的例子,其实也抗震,不是一摔就碎的东西,这种就是下限保障。
下限要做到什么程度,这个就是及格线,存活于市场的前提。
在保证了及格线达到平均线标准之后,理所应当把更多的资源堆到某个维度上。大家比的是在资源有限的前提下,基于定位做产品交付。
每个维度都做好,不现实,也不正确。
战略的第一步就是放弃,敢放弃什么,拼的是认知。
总结综上所述:
基于产品定位选择重要的维度和指标,做权重优先级排序。基于选择的指标,使其数值可衡量,做量化标准。基于公司资源保障产品下限,基于人才禀赋提升上限。说明书介绍完毕,可用于立项定位产品,也可以就已有产品做评测,量化优缺点,做迭代改进升级。掌握使用说明书,这份清单的价值也就到位了。
在遇到问题时,高手和普通人的思维决策过程不一样。
普通人是逢山开路遇水搭桥,也就是我们常说的见招拆招。高手却总是为自己制定各种决策系统,在遇到问题时直接依据清单做决策。
人的理性是有限的,见招拆招,总会遇到环境影响,情绪波动的时候,结果往往不可控。而以原则清单行事则更加可控,减少纠结犹豫,提升效率,所以高手有时候就像是一台稳定而又客观的程序,冷静而又客观,更容易做出正确理性的决策。
笔者在设计评测指标的时候,往往是朝着最理想的人工智能去做比对的,它能帮助我们在各个维度上去逼近超级人工智能,打造令人尖叫的产品。
谢谢各位看到这里,希望这份业务清单能够帮助到大家。
相关阅读如何评测语音助手的智能程度(1):意图理解
如何评测语音助手的智能程度(2):服务提供
如何评测语音助手的智能程度(3):交互流畅
如何评测语音助手的智能程度(4):人格特质
作者:饭大官人,微信公众号:fanfan19860403《游戏运营:高手进阶之路》作者。
本文由 @饭大官人 原创发布于人人都是产品经理,未经许可,禁止转载
题图来自 Unsplash,基于 CC0 协议