仅只有未实名的,新媒易不收取任何费用,公益非盈利机构
24小时服务热线: 4000-163-302
请扫码咨询

新闻动态

NEWS CENTER

引进处理问题需求的更多维度,尤其是正交维度的信息,就能够显着提高模型作用

2023-07-07

以“从交互中发掘潜在需求”这个例子共享下我的一些考虑,在最开端的拆解中,我分解了三个初始问题:

  1. 界说什么叫“潜在需求”?
  2. 交互中包含什么能够使用的信息?
  3. 如何进行发掘的流程规划?

在前面我做了第一个问题的剖析,下面两个问题由于涉密用户和事务信息了,我就简要论述下:

① 交互中包含的能够使用的信息

实践上这个是经典的信息论原理的使用,一般应用到的会包括以下两点,相同的我以非算法的视角论述下我的理解:

A. 信息的输入必定要大于输出,存在冗余才能经过算法紧缩输出需求的信息,而且还原信息。

浅显点,比方模型彻底没有学习过小学数学,就不行能能够处理小学数学题。像GPT这种大模型能够让你输入很短的几句话,就帮你写出论文,原因在于GPT本质上是一个言语模型,是言语模型练习进程输入紧缩了相关的常识信息,因而才能够在很少输入的情况下,让言语模型补足需求的输出。其实从GPT核算小学内容常常出错也能够看出这个原理,由于这类信息不在GPT的练习数据中。

另一个直观的理解办法是,给定1的输入就最多只能有1的输出,不行能发生1.1,实践上AI需求冗余信息,才能够保证紧缩传递后能够输出相同的成果,即10的输入发生1的输出,由于处理就必定会损失一些东西,有冗余才能够忍受更多处理空间。

B. 引进处理问题需求的更多维度,尤其是正交维度的信息,就能够显着提高模型作用。

其实这也是最常用的大幅优化作用的办法,例如在语音类的AI规划中,【用户输入的语音音频】和【用户的言语表达】便是两个不重叠的正交维度,即使一些纯粹的语音AI才能,例如声纹识别、语音合成,引进言语的维度也能够大幅提高作用,因而寻觅需求处理场景的更多相关正交维度,便是一种最常见的优化办法。

当然信息论的原理有很多条,只是在这件事上,我首要应用了以上两条。由于AI的基础是信息论,即使是在大模型年代,信息论的根本原理就像物理学根本法则,属于目前根据计算的AI无法跨越的根本法则。

关于语音交互来说,一般寻觅到的正交可使用信息维度类别有用户音频、用户文本、用户操作、交互周围环境、操作发生时间等等方面进行寻觅,这个其实很简单我就省掉了。

② 如何进行发掘的流程规划

关于这件事,其实本质上是检验逻辑链合理性和条件假定成立可能性,做过根本的逻辑学练习的人都能够做到,实践这件事我也是辅导一个校招生就让他完成了,大致能够这么考虑这件事:

A. 首要经过界说一些交互失利的特征,一般都是经过界说【显性正反馈】【显性负反馈】【隐性正反馈】【隐性负反馈】来完成交互失利的case判断,灵敏原因我省掉详细特征。可是其实这样无法差异几类问题:

  • 作用有问题:由于算法作用问题、或许用户自身问题导致交互失利;
  • 已有需求新的表达范式:例如【影视】新增“制片商说法办法”;
  • 新领域需求:比方奥运会来了,咱们需求重新界说一个奥运会领域。

关于这种边界很含糊的分类问题,AI根本无能为力,因而思路上只能并行结构两套体系,一套发掘“作用问题”的case,一套发掘“新需求/新范式”的case,一套规划上侧重使用已有常识发掘关联性,一套侧重新需求发现。两套体系必定会有重叠,可是合作也能够处理问题。


一种典型的交互失利事例

B. 要施行发掘,能够想到的逻辑链及匹配的条件假定有:

a. 假定线上用户的交互说法,同类的需求具备一些显着的共性,不同类的具有显着差异。

  • a.i. 那能够直接测验先进行无监督聚类,将数据划分红一堆类别,即可拿到比方,线上100w数据,有几类需求(比方气候1w,股票2w),当然没有先验常识注入的情况下我只能得到【category1】【category2】【category3】
  • a.ii. 接下来第二步处理如何知道【category1】【category2】【category3】,别离是什么,能够想到最简单的办法是,假定我能够先给体系注入常识,告知它什么样的数据叫“气候”那不就能够完成任务


需求发掘流程的简单主意

b. 这种流程下,接下来的子任务界说就很简单,“聚类+分类”就能够完成,可是这中逻辑链存在显着的问题:

问题1:这个流程里无监督聚类的准确度是最重要的,由于后续的分类环节是根据已有聚类流程展开的,逻辑上第一个环节的作用就尤其重要,由于如果第一个环节作用只有50%,那根本后面就和抛硬币瞎猜相同了。

可是实践上,调研了下业界的无监督聚类SOTA,的确低的吓人,可是能够看到在加入一些常识做半监督之后,作用提高显着,可是与此同时却丧失了发现练习外的新需求的才能,这个关于咱们事务场景来说是不行承受的。


Discovering New Intents with Deep Aligned Clustering(https://arxiv.org/abs/2012.08987)

问题2:假定我真的有这样一份结构化的常识,那本质上我的任务还没开端其实现已完成了,由于我已然现已都能够知道什么数据是什么需求了,直接去匹配就能够了,没必要做一个发掘体系了,这是一个典型的先有鸡还是先有蛋的问题。

c. 所以在咱们没有一个完善的结构化常识,而且无监督聚类作用肯定无法商用的条件下,要怎样来做这件事呢?这儿细节就不论述了,以下是最初考虑的某几个主意:

  • 思路1:我拿不到精准的结构化常识,那么我是否能够拿到一些相对粗的常识呢?比方维基百科、SNS社区、各种门户网站都有很好的粗粒度非结构化或许半结构化常识;
  • 思路2:像Google、Baidu这类搜索引擎,他们结构原理上需求爬虫爬取全世界的网页,而且进行相关性检索,因而咱们能够假定一个新query的相关实体或许query本身,搜索引擎能够供给高相关度的网页,那咱们就能够用搜索接口的Top N成果去发掘一些潜在粗粒度常识;
  • 思路3:直接拿到大量数据聚类处理不行行的话,咱们是否学习“新query发现”的思路,从单条数据切入,先找到单条的新需求数据,然后再推广找到类似新需求范式的影响面,可是其实这样规划会有一个问题,便是以【新范式】代替了【新需求】,范式界说就很重要,比方引进语义、语法等等就比单纯的文本近似靠谱得多,可是这样实践上发掘到的需求影响面会比实践小;
  • 思路4:技术不行达的话,经过人机耦合来完成任务,比方结构一个发掘渠道,每天把发掘到的同一类的新大类需求抛到上面,由人工去标记这是什么需求。这种思路的话就需求内部拉通一个“需求闭环团队”,要求大家每天都上渠道做需求剖析。
相关推荐