关键词感知检索_向量检索服务(VRS)-百姓标王

关键词感知检索

本文主要介绍带关键词感知能力的向量检索服务的优势、应用示例以及Sparse Vector生成工具。

背景介绍

关键词检索及其局限

在信息检索领域,“传统”方式是通过关键词进行信息检索,其大致过程为:

  1. 对原始语料(如网页)进行关键词抽取。

  2. 建立关键词和原始语料的映射关系,常见的方法有倒排索引、TF-IDF、BM25等方法,其中TF-IDF、BM25通常用稀疏向量(Sparse Vector)来表示词频。

  3. 检索时,对检索语句进行关键词抽取,并通过步骤2中建立的映射关系召回关联度最高的TopK原始语料。image

但关键词检索无法对语义进行理解。例如,检索语句为“浙一医院”,经过分词后成为“浙一”和“医院”,这两个关键词都无法有效的命中用户预期中的“浙江大学医学院附属第一医院”这个目标。

基于语义的向量检索

随着人工智能技术日新月异的发展,语义理解Embedding模型能力的不断增强,基于语义Embedding的向量检索召回关联信息的方式逐渐成为主流。其大致过程如下:

  1. 原始语料(如网页)通过Embedding模型产生向量(Vector),又称为稠密向量(Dense Vector)。

  2. 向量入库向量检索系统。

  3. 检索时,检索语句同样通过Embedding模型产生向量,并用该向量在向量检索系统中召回距离最近的TopK原始语料。image

但不可否认的是,基于语义的向量检索来召回信息也存在局限——必须不断的优化Embedding模型对语义的理解能力,才能取得更好的效果。例如,若模型无法理解“水稻灌溉”和“灌溉水稻”在语义上比较接近,就会导致无法通过“水稻灌溉”召回“灌溉水稻”相关的语料。而关键字检索在这个例子上,恰好可以发挥其优势,通过“水稻”、“灌溉”关键字有效的召回相关语料。

关键词检索+语义检索

针对上述问题,逐渐有业务和系统演化出来“两路召回、综合排序”的方法来解决,并且在效果上也超过了单纯的关键字检索或语义检索,如下图所示:image

但这种方式的弊端也很明显:

  1. 系统复杂度增加。

  2. 硬件资源(内存、CPU、磁盘等)开销增加。

  3. 可维护性降低。

  4. ......

具有关键词感知能力的语义检索

向量检索服务DashVector同时支持Dense Vector(稠密向量)和Sparse Vector(稀疏向量),前者用于模型的高维特征(Embedding)表达,后者用于关键词和词频信息表达。DashVector可以进行关键词感知的向量检索,即Dense VectorSparse Vector结合的混合检索。image

DashVector带关键词感知能力的向量检索能力,既有“两路召回、综合排序”方案的优点,又没有其缺点。使得系统复杂度、资源开销大幅度降低的同时,还具备关键词检索、向量检索、关键词+向量混合检索的优势,可满足绝大多数业务场景的需求。

说明

Sparse Vector(稀疏向量),稀疏向量是指大部分元素为0,仅少量元素非0的向量。在DashVector中,稀疏向量可用来表示词频等信息。例如,{1:0.4, 10000:0.6, 222222:0.8}就是一个稀疏向量,其第1、10000、222222位元素(分别代表三个关键字)有非0值(代表关键字的权重),其他元素全部为0。

使用示例

前提条件

Step1. 创建支持Sparse VectorCollection

说明
  1. 需要使用您的api-key替换以下示例中的 YOUR_API_KEY、您的Cluster Endpoint替换示例中的YOUR_CLUSTER_ENDPOINT,代码才能正常运行。单击Cluster详情了解如何查看Cluster Endpoint。

  2. 本示例仅对Sparse Vector进行功能演示,简化起见,向量(Dense Vector)维度设置为4。

import dashvector

client = dashvector.Client(
    api_key='YOUR_API_KEY',
    endpoint='YOUR_CLUSTER_ENDPOINT'
)

ret = client.create('hybrid_collection', dimension=4, metric='dotproduct')

collection = client.get('hybrid_collection')
assert collection
重要

仅内积度量(metric='dotproduct')支持Sparse Vector功能。

Step2. 插入带有Sparse VectorDoc

from dashvector import Doc

collection.insert(Doc(
    id='A',
    vector=[0.1, 0.2, 0.3, 0.4],
    sparse_vector={1: 0.3, 10:0.4, 100:0.3}
))
说明

向量检索服务DashVector推荐使用DashText生成Sparse Vector。

Step3. 带有Sparse Vector向量检索

docs = collection.query(
    vector=[0.1, 0.1, 0.1, 0.1],
    sparse_vector={1: 0.3, 20:0.7}
)

Sparse Vector生成工具

  • DashText,向量检索服务DashVector推荐使用的SparseVectorEncoder,DashText

    相关内容推荐

    章丘济南网站建设优化河间网站优化贵不贵新手站长网站优化排名新网站优化最佳方案密云优化网站公司网站的优化认准火18星妙手介休网站优化优化网站备案宜丰网站seo优化网站优化中针对广告位的布局推广排名网站优化平台关键词回民区网站seo优化排名明城网站优化公司常熟网站关键词优化济宁营销型网站优化公司企业网站优化可信火24星到天津网站关键词seo优化公司笋岗网络营销网站优化河北网站目标关键词优化凤岗网站优化哪家专业绵阳网站优化费用许昌关键词网站优化哪家便宜盘龙区网站优化哪家好优化网站方法都选h火11星太原网站优化在线咨询推广网站SEO优化代运营酒店网站优化报价广东机械网站优化效果高明网站关键词seo优化九江湖口优化网站正定seo网站优化价格张家界百度网站优化台州网站代码优化刷搜狗网站优化软件张掖湖南网站优化推广廊坊网站推广优化软件福州网站优化电池充电独立博客网站优化大型网站优化广告房地产网站优化技巧烟台网站seo优化服务浦东网站优化找哪家番禺网站优化找哪家宜宾网站整站优化费用塘沽网站优化排名哪家好天河企业网站推广优化技巧榆次网站优化推广美容行业网站优化方案安庆网站搜索优化服务公司网站优化是怎么做到稳定的网站推广优化陆丰网站关键词优化铝业网站seo优化咨询官网网站优化排名海珠优化网站哪家好简阳网站seo优化课程来宾整站网站优化岱山县网站seo优化排名小虎谈优化网站线上网站优化如何不花钱优化网站网站排名优化网站建设快速建站东门正规网站优化网站优化价位甘肃网站优化推广公司费用濮阳靠谱网站优化公司推荐山东网站优化地址问答类网站如何做优化海口网站关键字优化泰州网站优化咨询热线宁晋网站优化公司莱州个性化网站优化西安网站优化做法大丰网站优化公司报价网站优化seo求职信陕西网站优化排名效果一键网站优化价格多少中原区网站优化推广沙田五金网站优化怎么样罗湖软件网站优化服务如何香港湖南网站优化推广汉阳网站优化推广公司哪家最好大连网站优化设置福建郴州企业网站优化方案山东湖南网站优化推广成都电商网站怎么优化图片南京网站优化电话普陀区360网站优化费用沈阳电商网站优化用什么方法大岭山seo网站优化多少钱优化网站架构设置泰州网站关键词优化哪里好站长网站优化的主要方法富裕县网站seo优化排名沈阳网站目标关键词优化河北家具行业网站优化推广技巧昌平公司网站优化淮南网站优化价格无极网站优化公司泰兴网站优化方式网站排名优化皆来乐云seoseo网站优化全包宁国网站关键词优化上海优化网站哪家专业如何对网站seo优化特殊网站如何优化威海个性化网站优化公司巩义优化网站排名哪家服务好泰安徐州网站建站优化网站关键词排名优化哪个品牌好如何给网站做好网站结构优化专业的网站如何seo优化黄山网站排名优化代理传统优化网站容易遇到问题商丘外贸网站优化哪家好网站页面优化设置深圳网站建设方案优化东莞横沥网站优化沁阳优化网站排名找哪家大岭山电子网站优化价格搜狗seo网站优化工具上海网站优化哪家效果好安定区网站seo优化排名事务日志是如何优化网站结构整个网站只优化一个词网上推广网站的推广关键词优化廊坊实力强的网站推广优化优化网站的方法就找e火21星网站推广优化设计江山百度网站优化丽江网站优化服务优化网站软文网站优化员待遇网站程序做优化需要多少钱网站检测优化工具有哪些内容深圳教育网站优化方式有哪些旅游网站结构优化许昌seo网站优化费用情况龙门优化网站壹起航在网站优化中影响外链吗网站如何优化价格杭州网站优化收费标准网站内容的优化方法静安区官网网站优化价格费用荆门很好的网站优化用户体验枣庄做网站优化哪家好网站图文优化软件延庆区网站优化深圳网站优化网络推广报价北京云无限网站优化外贸网站优化哪种有效果安徽网站优化平台兰州网站优化排名图片四川网站优化关键词晋州网站优化外包公司焦作靠谱网站优化公司价格永州电商型网站优化网站优化和维护东凤网站优化网站优化排名哪家公司好网站搜索优化好选云速捷来看天柱网站优化价格梅州网站优化找谁镇江市网站公告优化多少钱临城网站优化找哪家淄博博山怎么做网站优化推广富裕县网站seo优化排名宁波珍岛网站优化怎样万达网站的优化和运营金融行业网站内容优化优化公司网站询火22星黄岛网站优化排名案例线上网站优化网站优化处理不好的危害保山很好的网站优化用户体验广宁seo网站优化北海新区网站seo优化排名栾川县网站seo优化排名濮阳网站优化服务商西藏网站优化外包网站内部和外部优化的方法seo和网站优化有什么关系凌云网站优化网站优化兼职在哪个网站找内蒙古自治区网站优化仁怀网站怎么优化优化电子商务网站怎么做潍坊网站优化电池兰州靠谱排名优化网站php网站开发优化方案怀柔网站排名优化推广定州企业网站优化seo网站关键词优化系统爱奇艺网站优化目标怀化网站优化价格多少优化网站排名甜柚很出名毕节网站优化报价邢台做网站优化费用网站优化推广咨询平台阿亮网站优化外包

    合作伙伴

    百姓标王

    龙岗网络公司
    深圳网站优化
    龙岗网站建设
    坪山网站建设
    百度标王推广
    天下网标王
    SEO优化按天计费
    SEO按天计费系统