早期项目|向量数据库风起时,闭源「墨奇AI数据库」想成为第三种存在

吴思瑾·2023年09月26日 15:33
托管在AWS上,可同时支持结构化数据和非结构化数据的存储、查询、搜索、联合分析和处理功能,广泛应用于图像检索、视频分析、自然语言理解等 AI 驱动场景。
墨奇科技
B轮北京市2016-04
全球领先的生物特征识别平台
我要联系

作者 | 吴思瑾

编辑 | 王与桐

*

AI大模型时代下,图片、视频、自然语言等多模态的非结构化数据量陡增,而大模型支持的token数有限,虽然可以在RLHF的配合下具备一定程度的“短期记忆”,但正是因为“长期记忆”的缺失,导致大模型经常会出现“一本正经地胡说八道”的情况。

区别于用来处理结构化数据的传统数据库,向量数据库专门用来存储、管理、查询和检索向量化的非结构化数据;它就像一块外接的记忆盘,可供大模型随时调用,以形成“长期记忆”。对大模型应用开发者来说,向量数据库是非常重要的基础设施。

目前,向量数据库大致可分为两种。一种是原生向量数据库产品,比如Pinecone(累计融资1.38 亿美元)、Milvus(累计融资1.13 亿美元)、Weaviate(累计融资6770 万美元)等,另一种是基于传统数据库增加的插件式向量搜索引擎产品,如 ClickHouse、ElasticSearch、Redis等许多开源数据库都增加了这类产品。

36氪近期接触到一家介于两者之间的第三种数据库——墨奇AI数据库,它在托管在AWS上,可同时支持结构化数据和非结构化数据的存储、查询、搜索、联合分析和处理功能,广泛应用于图像检索、视频分析、自然语言理解等 AI 驱动场景。

之所以成为第三种存在,墨奇AI数据库副总裁孟卓飞告诉36氪:“墨奇曾在国内与许多真实用户进行交流,在这个过程中,公司发现在真实的大模型集成应用场景里,向量数据往往会与结构化数据做混合查询,这就决定了其分析查询的性能是非常重要的,也就是说,向量数据库在未来很难会作为一个单独的技术栈存在。”

官方信息显示,墨奇团队在ClickHouse的底层架构上结合向量数据特点和任务特性,在分布式、存算分离、检索策略等方面,对其上百万行源代码进行了30-40%的修改,同时还集成了自主研发的多尺度树图(multi-scale tree graph,简称MSTG)向量索引算法,以实现高性能的结构化数据和非结构化数据联合处理能力。

除具备结构化数据和非结构化数据的联合处理能力外,孟卓飞告诉36氪墨奇AI数据库还有两个特点,一是其关系型数据库的基底,导致天然对SQL在数据类型和语法有完全的兼容性,并具备健全的、成熟的关系型数据库的周边生态组建和一些包括数据安全、权限管控、数据备份等在内的完整工具链;二是在同等资源用量上处理同样规模的数据时,墨奇AI数据库消耗计算资源的成本是其他向量数据库的1/5。

恒定500万数据量每100次QPS的月成本对比 图源:墨奇AI数据库

单QPS(向量数据库服务一个C端用户一次查询可能会消耗的计算资源大小)成本一直是影响企业对向量数据库选型的关键要素,也是向量数据库厂商们火拼的重要战场。

依据孟卓飞介绍,墨奇AI数据库在性价比上优于插件式的向量数据库和原生向量数据库,而实现这样的结果,主要与墨奇自研的MSTG算法有关。

“该算法在索引构建、数据分片、搜索调度等方面进行了大量底层调整,在支持用户向量搜索的同时,可大大节约内存使用。对于过滤查询,特别是复杂的联合查询,由于墨奇AI数据库AP类业务的优化和列式存储特点,将比同类方案提升更为显著。”

其实,墨奇并不是向量数据库行业的新人。在2022年之前,墨奇就在生物安全识别场景中,基于超大规模向量和图的检索算法创新,实现了超高精度的百亿级指纹底库秒级检索。在这个过程中,公司积累了大量原创的向量索引算法和复杂场景检索技术。后来随着业务的发展,公司开始构建面向向量场景的数据库产品,也在2022年通过私有化部署的方式进行市场验证,数据库业务当年收入达到千万级别。

2022年底,AI大模型开始爆发,墨奇观察到海外AI生态和技术栈正在以非常惊人的速度迭代,为了积极拥抱迅速进化的行业和技术生态,和更加高效地进获取客户反馈并完成产品迭代,墨奇加速推进以闭源SaaS的形态走向海外,面向全球市场。

对于选择闭源路线的原因,孟卓飞的说法是,首先,原生向量数据库Pinecone的成功已经证明了闭源路线并非完全走不通。截至目前,Pinecone是目前向量数据库产品中声量最大、用户认知程度最广的产品,且在2022年就已经率先实现了数百万美元ARR。

其次,墨奇认为,开源产品如果想要在海外产生较好的收入,需要产品在性能和功能等方面与竞品之间形成足够强的差异化,否则对中国团队来说出海会非常困难。而墨奇AI数据库和竞品相比,价格是对方的1/5,在某一些功能上,墨奇觉得只有自己能够满足。因此在这种情况下,闭源不再是用户付费的障碍。

即便产品独特的同时兼具性价比,但“酒香也怕巷子深”。如何在海外市场获取种子用户是摆在初入者墨奇面前的首要难题。

从行动来看,墨奇选择了一个讨巧的方式——跟着Pinecone的步伐前行吸引和收获用户。

孟卓飞告诉36氪,Pinecone在LangChain等大语言模型相关的工具链和社区中做了非常多贡献,已经把市场和用户教育的非常好。因此,有的事情无需重复再做,只需沿着对方的脚印对目标用户群体宣传墨奇AI数据库的产品特点即可。

墨奇有计划的在这些社区中贡献对用户有价值的功能和开源代码,同时也会和其他数据库产品一样分享一些共识性的用法。据介绍,这已经成为该公司最主要的获客渠道。

在2023年第二季度上线的墨奇AI数据库测试版本中,该公司获得了上百个活跃用户,据介绍,其中很大一部分很快在第三季度转为首批付费客户,近半用户来自插件式向量搜索引擎PG Vector和Pinecone的用户群体;通常情况下,一两次沟通会即可确定是否转化,周期很短,转化率也很高,超过80%。

对中国公司来说,如何go to market是全球化路上要面对的首要挑战,比如招募本土人才,比如运营不同文化和语言的海外社区……但是中国公司也有海外公司难以企及的竞争优势,比如在中国这种超大体量的市场规模、应用场景和丰富的数据的环境中,成长起来的一批优秀工程师,他们是中国公司全球化的底气。

36氪会持续关注向量数据库领域,如果您也是该领域的创业者、从业者,欢迎来聊。

+1
2

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

报道的项目

墨奇科技
我要联系
全球领先的生物特征识别平台

下一篇

究竟健不健康?

2023-09-26

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业