大模型的“海马体”, 向量数据库逐渐吸引资本关注
(资料图)
当下,大模型的火热已成为行业共识,从时间线上看,2022年12月大模型实现破圈爆火,2023年3月,因NVIDIA CEO 黄仁勋在NVIDIA GTC Keynote 中首次提及向量数据库,强调其在构建专有大型语言模型的组织中的重要性,行业内部人士逐渐意识到,向量数据库可以支持大模型进行信息召回,弥补大模型长期没有记忆等问题,拓宽大模型边界。
近日,腾讯云发布AI 原生(AI Native)向量数据库Tencent Cloud VectorDB。该数据库能够被广泛应用于大模型的训练、推理和知识库补充等场景,是国内首个从接入层、计算层、到存储层提供全生命周期AI化的向量数据库。自2019年开始在内部PCG业务团队进行孵化,目前已应用在了腾讯视频、QQ浏览器、QQ音乐等多款产品中。
何为向量?机器学习与数据科学中,向量代表一组数字,构成多维数值空间。向量的每个维度代表该空间的一个不同的特征或属性,如文本中每个词的出现频率等。通过对向量进行数学运算,可以实现各种机器学习算法和数据分析技术。单就数据而言,只有向量化之后的数据才能被AI模型所分析。向量数据库是一种专门用于存储和管理向量数据的数据库。
行业内将大模型称为“大脑”,向量数据库则是其“海马体”。腾讯云数据库副总经理罗云表示,团队内部有一个共识——如果你看好AI,你就可以看好向量数据库。因为在AI市场中,大模型有两大限制——一个是时间上,一个是空间上。前者因客户希望使用最新数据进行训练,后者系客户不愿将私域数据放在公开场合进行大模型训练。而这两方面问题,向量数据库都可以解决。
相对于大模型的高调火热,向量数据库更多在静悄悄地发生迭代。近一个月内,向量数据库迎来融资潮,Qdrant、Chroma、Weaviate先后获得融资,Pinecone宣布1亿美元B轮融资,估值达到7.5亿美元。东北证券预测,到2030年,全球向量数据库市场规模有望达到500亿美元,国内向量数据库市场规模有望超600亿人民币。
罗云透露,目前每天不止一到两位客户会前来咨询向量数据库什么时候能够给他们使用。整体来讲大家对向量数据库的关注度、对它需求的迫切度都很高。
但需注意的是,从技术与行业层面,向量数据库仍面临几方面的挑战。其一是向量化数据有着高昂的计算成本,寻求存储成本替代是必要的。该部分成本主要来自数据预处理、特征提取和向量化表示的生成,涉及大量复杂数学运算,消耗大量的计算资源和时间。
对此,罗云对第一财经记者表示,数据库主要解决低成本存储数据与高效检索数据的问题,向量数据库也一样。目前主要在检索层面成本非常高昂,业界目前有几种解决方案,其一是在算法层面进行优化,其二是通过云上资源调度体系,用更合适的资源对底层算力成本做更好的补充。
但成本层面,短期内,罗云判断不会发生数量级的差异,更多会发生在应用性方面,推动数据库与云资源体系结合,让产品更稳定,实现单价成本有20%~30%的提升。
第二方面的挑战是平台产品与开源社区之间的关系。向量化技术并非新鲜事物,目前已十分成熟,并存在大量开源解决方案,在不同的领域也存在不同的向量化方案,如目前存在Zilliz等做开源向量数据库的公司。
对于大平台与开源社区之间的关系,罗云对第一财经记者表示,目前国内外在云计算领域的发展阶段不同,国内场景更多的企业对公有云持有观望态度,这样的背景下,更多客户对数据类产品相对谨慎,因此公有云厂商提供的数据服务相对而言更有竞争力。
广发证券计算机团队表示,在过去AI模型训练数据量较小、数据类型单一的情况下,向量数据库可应用的场景较小。自2017年Transformer模型推出后,各科技厂商开始大语言模型的探索,对于向量数据库的需求开始形成规模。但向量数据库适于AI大模型非结构化场景,市场需求尚处于初期,中远期规模还不到夸张之时。