一文详解如何使用Python SDK在Collection中进行相似性检索

 更新时间:2025年10月16日 09:23:32   作者:DashVector  
这篇文章主要为大家详细介绍了如何通过Python SDK在Collection中按分组进行相似性检索,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下

前提条件

已创建Cluster

已获得API-KEY

已安装最新版SDK

接口定义

Python示例:

Collection.query_group_by(
        self,
        vector: Optional[Union[List[Union[int, float]], np.ndarray]] = None,
        *,
        group_by_field: str,
        group_count: int = 10,
        group_topk: int = 10,
        id: Optional[str] = None,
        filter: Optional[str] = None,
        include_vector: bool = False,
        partition: Optional[str] = None,
        output_fields: Optional[List[str]] = None,
        sparse_vector: Optional[Dict[int, float]] = None,
        async_req: bool = False,
    ) -> DashVectorResponse:

使用示例

说明

需要使用您的api-key替换示例中的YOUR_API_KEY、您的Cluster Endpoint替换示例中的YOUR_CLUSTER_ENDPOINT,代码才能正常运行。

Python示例:

import dashvector
import numpy as np

client = dashvector.Client(
    api_key='YOUR_API_KEY',
    endpoint='YOUR_CLUSTER_ENDPOINT'
)
ret = client.create(
    name='group_by_demo',
    dimension=4,
    fields_schema={'document_id': str, 'chunk_id': int}
)
assert ret

collection = client.get(name='group_by_demo')

ret = collection.insert([
    ('1', np.random.rand(4), {'document_id': 'paper-01', 'chunk_id': 1, 'content': 'xxxA'}),
    ('2', np.random.rand(4), {'document_id': 'paper-01', 'chunk_id': 2, 'content': 'xxxB'}),
    ('3', np.random.rand(4), {'document_id': 'paper-02', 'chunk_id': 1, 'content': 'xxxC'}),
    ('4', np.random.rand(4), {'document_id': 'paper-02', 'chunk_id': 2, 'content': 'xxxD'}),
    ('5', np.random.rand(4), {'document_id': 'paper-02', 'chunk_id': 3, 'content': 'xxxE'}),
    ('6', np.random.rand(4), {'document_id': 'paper-03', 'chunk_id': 1, 'content': 'xxxF'}),
])
assert ret

根据向量进行分组相似性检索

Python示例:

ret = collection.query_group_by(
    vector=[0.1, 0.2, 0.3, 0.4],
    group_by_field='document_id',  # 按document_id字段的值分组
    group_count=2,  # 返回2个分组
    group_topk=2,   # 每个分组最多返回2个doc
)
# 判断是否成功
if ret:
    print('query_group_by success')
    print(len(ret))
    print('------------------------')
    for group in ret:
        print('group key:', group.group_id)
        for doc in group.docs:
            prefix = ' -'
            print(prefix, doc)

参考输出如下

query_group_by success
4
------------------------
group key: paper-01
 - {"id": "2", "fields": {"document_id": "paper-01", "chunk_id": 2, "content": "xxxB"}, "score": 0.6807}
 - {"id": "1", "fields": {"document_id": "paper-01", "chunk_id": 1, "content": "xxxA"}, "score": 0.4289}
group key: paper-02
 - {"id": "3", "fields": {"document_id": "paper-02", "chunk_id": 1, "content": "xxxC"}, "score": 0.6553}
 - {"id": "5", "fields": {"document_id": "paper-02", "chunk_id": 3, "content": "xxxE"}, "score": 0.4401}

根据主键对应的向量进行分组相似性检索

Python示例:

ret = collection.query_group_by(
    id='1',
    group_by_field='name',
)
# 判断query接口是否成功
if ret:
    print('query_group_by success')
    print(len(ret))
    for group in ret:
        print('group:', group.group_id)
        for doc in group.docs:
            print(doc)
            print(doc.id)
            print(doc.vector)
            print(doc.fields)

带过滤条件的分组相似性检索

Python示例:

# 根据向量或者主键进行分组相似性检索 + 条件过滤
ret = collection.query_group_by(
    vector=[0.1, 0.2, 0.3, 0.4],   # 向量检索,也可设置主键检索
    group_by_field='name',
    filter='age > 18',             # 条件过滤,仅对age > 18的Doc进行相似性检索
    output_fields=['name', 'age'], # 仅返回name、age这2个Field
    include_vector=True
)

带有Sparse Vector的分组向量检索

Python示例:

# 根据向量进行分组相似性检索 + 稀疏向量
ret = collection.query_group_by(
    vector=[0.1, 0.2, 0.3, 0.4],   # 向量检索
    sparse_vector={1: 0.3, 20: 0.7},
    group_by_field='name',
)

到此这篇关于一文详解如何使用Python SDK在Collection中进行相似性检索的文章就介绍到这了,更多相关Python相似性检索内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python中argparse的使用小结

    Python中argparse的使用小结

    argparse是Python标准库中用于的模块,比sys.argv更强大、灵活,并自动生成帮助信息,下面就来介绍一下argparse的具体使用小结,感兴趣的可以了解一下
    2025-08-08
  • Ubuntu 14.04+Django 1.7.1+Nginx+uwsgi部署教程

    Ubuntu 14.04+Django 1.7.1+Nginx+uwsgi部署教程

    django+uwsgi的部署实在是太蛋疼了.网上已有的教程似乎有新版本的兼容问题。最后跑到uwsgi官网上找的教程终于跑通了.. 不过官网的教程似乎有引导教学性质,部署的时候就显得很绕弯路,在这里记录下来精简内容
    2014-11-11
  • python 链接和操作 memcache方法

    python 链接和操作 memcache方法

    下面小编就为大家带来一篇python 链接和操作 memcache方法。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-03-03
  • PyQt5每天必学之布局管理

    PyQt5每天必学之布局管理

    这篇文章主要为大家详细介绍了PyQt5每天必学之布局管理的相关资料,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-04-04
  • python验证公网ip与内网ip的实现示例

    python验证公网ip与内网ip的实现示例

    本文主要介绍了python验证公网ip与内网ip的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-07-07
  • Python中用altzone()方法处理时区的教程

    Python中用altzone()方法处理时区的教程

    这篇文章主要介绍了Python中用altzone()方法处理时区的教程,是Python入门中的基础知识,需要的朋友可以参考下
    2015-05-05
  • 通过Python读取照片的Exif信息解锁图片背后的故事

    通过Python读取照片的Exif信息解锁图片背后的故事

    这篇文章主要为大家介绍了通过Python读取照片的Exif信息解锁图片背后的故事探究,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-12-12
  • Python图片转gif方式(将静态图转化为分块加载的动态图)

    Python图片转gif方式(将静态图转化为分块加载的动态图)

    这篇文章主要介绍了Python图片转gif方式(将静态图转化为分块加载的动态图),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-11-11
  • Python递归函数 二分查找算法实现解析

    Python递归函数 二分查找算法实现解析

    这篇文章主要介绍了Python递归函数 二分查找算法实现解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-08-08
  • python 实现单通道转3通道

    python 实现单通道转3通道

    今天小编就为大家分享一篇python 实现单通道转3通道,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12

最新评论