国内60%AI应用背后的搜索公司,怎么看AI幻觉问题?|AI幻觉捕手

WhatsApp群发 by:WhatsApp群发 分类:谷歌排名优化 时间:2025/05/30 阅读:6 评论:0

这个问题只能尽可能减少,很难彻底消除。我们现在能做的,主要是通过技术手段去做信息过滤。

21世纪经济报道:有哪些有效的技术手段,让AI提供尽可能准确的搜索结果?

刘勋:准确性和权威性需要从多方面判断,现在比较普遍的策略是“模型+人工”。

首先在大模型层面,我们有一套对抗性的模型体系——在互联网信息进入我们的索引库之前,大模型会先判断可信度。比如有人在我们的信任站点雪球(一个投资者社区)上,发帖说 DeepSeek 是李开复发布的产品,而且整篇内容都是胡编乱造的,我们能用大模型识别出来,大幅降低其权重。

但也有一些内容是大模型判断不出来的。比如大S去世时,有人说汪小菲包机把遗体运回中国台湾了,甚至他妈妈(张兰)都在抖音上点赞了这条消息。很多用户都以为这是真的,大模型也无法准确识别,这时候就需要人工介入了。当我们确认某条信息被官方媒体明确辟谣、证实是造谣后,我们会主动将这类内容清除。

翁柔莹:初步得出相关结果之后,我们会再进行一轮排序(re-rank)。会沿用谷歌EEAT 的维度(EEAT:专业性、经验、权威性、可信度;谷歌算法用来评估网站排名的重要指标)给每条结果打分。通过加权评分,对搜索结果进行重新排序。

21世纪经济报道: AI搜索还有哪些挑选标准?我们之前实测发现,有一些阅读量很少但面面俱到的自媒体内容,在传统搜索引擎里位置特别靠后,但会被AI看到和引用到。这可能是什么原因?

刘勋:目前我们权重最大的评估指标是“语义相关性”,核心原则是返回的内容里必须包含用户问题的答案。

如何理解?大家用DeepSeek搜索,会直接提问一段完整的句子。以前把这么长一段话放到搜索引擎里,是搜不出什么结果的,因为传统搜索引擎是匹配关键词,而AI搜索引擎的技术架构是“语义搜索”,即基于自然语言匹配结果。

大模型在处理一个用户的问题时,可能会一次性接收到 30条~50 条网页内容。我们通常会用1到 10的分数来评估这些内容质量。总共划分成四个区间,分数越高,代表网页内容越能完整地回答用户的问题,甚至还能额外补充一些信息。

当然,我们不是AI产品本身,而是为 AI 产品提供联网搜索的API,也就是说我们没有最终输出的决定权。AI产品会根据语义相关性再做一轮筛选,从这几十条候选网页中,最终选择几条内容进行总结。

21世纪经济报道:所以即使是接入相同的搜索API接口,不同AI产品最终输出回复的准确度也会有差异。

刘勋:其实AI 产品接入的信息源也往往不止一个,我们只是内容来源之一。比如豆包,它既接入今日头条、抖音等字节系信息源,同时也接入我们这些第三方的数据源。这在技术上叫“多路召回”——从多个内容池子里一起抓取结果。多路召回之后,怎么排序、优先展现哪些内容,是由AI厂商自己决定的。

一般来说,AI厂商会优先展示自家生态里的内容,因为这些内容不仅有更高的信任度,而且在它们自己的平台上也更容易实现流量变现和生态闭环。

GEO在兴起,低质量内容涌入

21世纪经济报道:传统搜索引擎的一些问题被诟病许久,比如广告太多、优质内容藏在“围墙花园”里不对外开放等等,这些老问题对AI搜索会有影响吗?你们是怎么应对的?

翁柔莹:这个情况其实还好。首先,广告的问题不在于内容本身,而是搜索引擎公司在选择在用户界面加入广告,也就出现了你说的问题。我们的定位是“给AI用的搜索引擎”,在商业上没有引入竞价排名机制。

其次,关于信息质量差、优质内容不开放,还是技术问题。传统搜索引擎基于关键字搜索,围绕着这套架构,低质内容可以通过一些手段让自己排名更靠前,比如只要付钱就能被推到前面。

21世纪经济报道:说到竞价排名的商业模式,SEO (搜索引擎优化)已经发展成一个庞大产业了,而AI流行后出现了一项新服务叫GEO(生成引擎优化),即让某个网页内容更容易被AI引用。你们有没有关注到这个现象?

翁柔莹:我就用一句话总结:你要精准知道用户会提什么问题,然后基于这些问题来写答案,就能大幅提高内容排名。

当然,无论是 GEO还是传统的 SEO,高质量内容都是基础。在此基础上,结构清晰且有明确回答的内容,就更容易被 AI 搜索并引用。

已经有一些原本做 SEO 的公司在转型做 GEO,但我们目前不打算跟进这条路径。因为我们发现,大模型真正需要的是最权威、最准确的内容源。如果允许低质量内容通过GEO 技术“混进来”,反而容易加剧AI幻觉问题,所以我们并不鼓励低质量内容的涌入。

相反,其实我们更希望建立一种全新的内容合作机制。过去大家是花钱买搜索排名,未来我们希望能够反过来:不需要买排名,而是主动奖励好内容。如果你能给我们提供高质量、结构清晰、可信的内容,我们可以进行内容分润或其他形式的合作激励。这是我们正在探索的一种新模式。

刘勋:提供优质内容会是我们坚持的原则。不过目前国内的 AI 生态仍在快速演化,AI 应用的最终形态,尤其是在 C 端用户场景中的具体形态,其实在未来2~3年内仍存在较大不确定性。我们希望在行业形态更加明朗之后,建立一套成熟、清晰的内容合作机制。

21世纪经济报道:现在很多AI回答的来源,其实是另一个AI生成的内容,“AI引用AI”的自循环越来越常见,目前有没有比较可行的应对策略?

翁柔莹:我们一直在推进信息过滤的工作。第一步是清理黄赌毒等违法违规内容;第二步,也是目前重点投入的方向,是识别并拦截 AI 生成内容,尤其是“投毒型”AI生成内容。

这类内容有两个明显特征:一是结构、用词、语义风格与人类创作存在差异,我们可以训练一套专门的大模型来识别,类似论文AI查重;二是经常夹带虚假细节。比如同一事件,网上可能有十篇真实报道,而 AI 写的那一篇可能加入了杜撰内容,我们可以通过交叉对比剔除这些内容。

21世纪经济报道:我们还注意到了延时问题。此前有一家媒体报道全国秋粮收购3.45亿吨, 当时AI搜不到“秋粮收购3.45亿吨”的数据出处,直到第二天整体报道数量多了,AI才收录到这一信息。为什么会出现这一情况?

刘勋:跟传统搜索引擎的架构类似,当我们抓取到一个网页后,数据需要经过一系列处理流程,包括原始内容的提取、黄暴等合规性识别、内容清洗、结构化处理,最终才会进入索引库。这一套流程是需要时间的,目前我们能实现的最快数据处理时长大约为半小时,这是一个技术限制。

未来AI的搜索调用量可能是人类的5~10 倍

21世纪经济报道:你们的不少合作方是国内互联网厂商,本身拥有成熟的技术团队和互联网经验。他们找博查合作时最主要的需求是什么?

翁柔莹:最核心的需求就是搜索质量。

其实无论是互联网大厂还是中小厂商,只要做AI搜索,面对的都是一套全新的技术架构。行业最早将“语义搜索”应用于 AI 场景,是微软基于必应搜索开始为 ChatGPT 提供搜索服务。直到 2023 年 5 月, ChatGPT 接入必应实现联网搜索后,这套架构才被广泛关注。但要推翻几十年的技术积累、重新搭建架构,难度和成本都很高,所以整体推进速度比较慢。

另一方面,有一些客户本身并不具备搜索引擎技术,仅能做站内搜索,无法支持全网检索,因此希望通过我们补足从 0 到 1 的能力。

过去这些客户通常会接入微软必应的搜索API。但必应有两个问题:一是数据出海,存在安全合规隐患;二是价格高。博查对标的是必应,所以会选择我们作为更安全可控的国产替代方案。

21世纪经济报道:可以说说提供AI搜索服务的技术和成本吗?门槛高在哪里?

刘勋:举个例子,做搜索引擎的第一步,是构建一个“索引库”,可以简单理解为内容的底层数据库。谷歌的索引量大概是万亿级,必应略低一些。即便在国内刚起步,索引库的规模也至少要达到百亿条数据。

这个数据量级意味着什么?我们目前支持百亿级数据的实时检索,而且要实现毫秒级响应,这背后需要非常庞大的基础系统。仅服务器部分,我们使用的数量就在1万到2万台之间。支撑这套系统的成本也非常高,“起步价”至少就要每月几千万元。

更重要的是,我们的技术架构完全围绕内容相关性设计,没有广告干扰,这对AI 搜索是最基本的要求。传统搜索引擎公司如果也想转向做AI搜索的 API,就意味着要抛弃原有的关键字搜索架构,重做一套向量索引系统。另外,如果要提供一个没有广告干扰的 API,也会冲击他们原有的商业模式和收入结构。

21世纪经济报道:那博查预计的盈利周期大概多久?接下来在技术优化和商业布局上有什么打算?

刘勋:我们目前并不着急盈利,更关注如何推动整个 AI 生态的发展。等国内AI应用生态成熟起来了,我们再跟着去实现商业变现。

现在全球范围里,所有人类主动发起的搜索总量大概在 100亿次~200 亿次之间(包括谷歌、必应以及微信等平台内搜索)。但我们认为,未来 AI 的搜索需求会远远超过这个量级。

举个例子,当你向 DeepSeek 这样的模型提问时,大模型会把一个问题拆解成多个子问题的同时调用搜索。尤其是像 Manus 这样的 AI 智能体,为了完成一个复杂任务,往往需要反复调用搜索服务接口。我们估计未来的AI搜索调用量会是人类的 5 到 10 倍,甚至更高。

也就是说,搜索能力未来会像地图、支付一样,成为AI 应用不可缺的基础模块,而为此掏钱的是上层AI应用。所以我们会等待国内 AI 应用生态跑起来。

我们一直是以谷歌和必应为对手,明年希望至少达到谷歌一半——5000 亿条索引库。其实接下来的关键挑战在基础设施上,我们的资源部署在各大云厂商上,目前的成本和限制依然是所谓的“三架马车”:算法、算力、数据。所以我们需要整个基础设施的进一步发展,来支持下一阶段的扩展和突破。

非特殊说明,本文版权归原作者所有,转载请注明出处,技术交流微信号:chinacarcar

本文地址:https://whatapp.com.cn/whatsapp/1828.html


TOP