AI出现幻觉的原因有很多,数据缺陷、数据不足、知识更新滞后等语料方面的问题尤为致命。”迪安诊断首席科学家王宇说。前几年,大模型所用的数据主要来自网络,质量很难保障。“想要让大模型做专业的事,就得提供垂直领域的专业语料库。比如想让它给人看片子,就得让它像医生一样,不断阅读医学影像等专业文献。”
在迪安诊断实验室,工程师与检验专家正持续优化该公司的医检语料库。该语料库基于迪安诊断20余年积累的数据建立,涵盖已完成数据清洗、匿名化等处理的多组学、多模态数据,包括基因组学、微生物组学和影像组学等内容。仅病理切片数据就有约1500万份。基于该语料库,迪安诊断去年底向杭州一家科技企业交付了一款用于疾病辅助诊断的高质量临床数据集。这也是杭州城市可信数据空间在医疗领域的首单数据集交易。
“我们在拓展专业用户,加快产品落地。”王宇介绍了同行们在努力的一个方向:培育更多市场需求。
去年,迪安诊断发布了一款订阅版科研文献智搜智能体——Repilot。它是基于海量医疗文献语料库建立的一个AI智能体。在以前,医生做课题,光文献调研,可能就要一个月,但现在输入关键词,几秒钟就能出来完整框架,还能自动匹配最新研究。
多位浙江三甲医院的医生评估,Repilot可以让他们省去约80%的低水平重复工作。
“大模型应用的重心,正由通用对话转向高价值垂直场景。融合领域知识与工作流的智能体,已成为AI商业化的关键突破口。这也可以让专业语料库建设形成资源化、价值化的闭环。”王宇说。
2月24日,迪安诊断发布了革兰氏染色涂片智能识别系统2.0版。革兰氏染色检测是识别细菌感染、指导抗生素治疗的关键手段。临床要求该检验能又快又准,但经验丰富的检验师完成一张涂片镜检,平均也要约15分钟。该系统基于迪安诊断的医学生物语料库研发,平均用时可缩短至约1分钟。
其实,在浙江日报两会前夕发布了这篇《杭州语料库:给AI大模型“喂好料”》的文章,我个人认为这是浙江省要坚决打造人工智能产业制高点的一次宣言,同时本身就具有很强的信号意义和战略意图!浙江在发展人工智能方面是具有得天独厚的优势的。
以deepseek为代表的杭州六小龙,同样还有阿里、蚂蚁为代表的互联网时代的巨头继续深耕AI时代,也就是算力、算法方面,杭州都处于全国的第一梯队。。人工智能三要素,算力、算法、数据。。这个时候进一步强调数据的价值,其实就是在进一步确保未来在AI应用领域依然继续领跑!
这里,我们可以从产业趋势、国家战略、区域经济、行业痛点以及未来展望五个维度来深度解读这篇文章的意义:
1. 释放国家战略信号:数据从“资源”正式升级为“核心资产”文章开篇即点出“2025年,我国启动布局新型国家语料库建设”,而杭州作为先行者公布了建设图景。
信号解读:
这意味着国家对AI产业的支持已经从“鼓励创新”进入“夯实基础”的阶段。语料库被定义为“未来的石油”和“决定大模型能力上限的核心生产要素”,这标志着国家层面已经意识到,没有高质量的数据底座,AI产业的“高楼”是建不高的。
两会前瞻:
在两会前夕发布,很可能是在为接下来关于“新质生产力”和“数字经济”的讨论定调,预示着2026年乃至“十五五”期间,国家将投入更多资源进行公共数据开放、行业语料库共建以及数据基础设施建设。
文章通过生动的比喻(从92号油到98号油)和数据(2026年高质量语言数据可能耗尽),点出了当前AI产业的深层焦虑:
“幻觉”的根源:
解释了为什么大模型会“一本正经地胡说八道”——不是因为算力不够,而是因为“吃进去”的语料质量不高或不够。
产业升级的瓶颈:
通用对话已经不能满足需求,未来的竞争在于“垂直领域”。文章强调要让AI“看片子”、“教英语”,就必须有专业的医检语料库、教育知识库。这揭示了一个趋势:未来的大模型之争,核心将从拼参数转向拼数据资产的深度和质量。
文章浓墨重彩地描绘了杭州在语料库建设上的具体举措,这不仅是新闻报道,更是一份“成绩单”和“招商广告”:
生态构建者:
杭州没有只盯着几个大厂,而是通过“揭榜挂帅”、“数据合伙人”、建设“中国数谷”等方式,试图构建一个涵盖采集、清洗、标注、交易、应用的全产业链生态。
从“油田”到“炼化基地”:
这个比喻非常精妙。杭州意识到,仅仅拥有数据(原油)是不够的,必须掌握将数据转化为高附加值产品(98号汽油)的“炼化”能力。这正是杭州希望在未来数字经济版图中占据的不可替代的位置。
文章并非空谈技术,而是具有很强的商业洞察:
从成本中心到利润中心:
过去数据建设是烧钱的,但现在像迪安诊断、景联文这样的企业,正在探索“资源化、价值化”的闭环。比如迪安的Repilot智能体,医生节省了80%的重复劳动,这就是直接的生产力提升;而景联文把语料库做成产品卖给教育公司,这是数据资产的直接变现。
产业链条的延伸:
企业从“卖数据”升级到“卖工具”(如数据标注平台、众包平台),这标志着语料库产业正在从劳动密集型(过去的标注产业)向技术密集型和知识密集型转型。
文章通过具体案例拉近了高大上的AI与普通人的距离:
杭州互联网法院的案例:
通过梁某状告AI平台“幻觉”的案例,让读者直观感受到语料质量问题对自己生活可能造成的实际影响(查错信息)。
医疗场景的落地:
革兰氏染色涂片智能识别系统将15分钟缩短至1分钟,这不仅是技术突破,更是普通患者未来能享受到的医疗效率红利。
这篇文章是杭州在数字经济领域的一次“亮剑”,也是一份面向全国乃至全球的“宣言书”。
AI的下一站是拼“内功”:比拼的不是炫酷的对话,而是背后扎实、精准、高质量的数据底座。
杭州正在抢占“定义权”:谁制定了语料库的标准,谁就掌握了AI产业的未来。杭州正在试图成为那个“规则制定者”和“核心枢纽”。
数据要素改革进入深水区:建设语料库不仅是技术问题,更是涉及数据确权、流通、交易、安全的制度问题。杭州的探索将为全国提供可复制的经验。
这是一个长期价值赛道:对于投资者和从业者来说,文章暗示了未来巨大的商业机会将出现在专业语料库建设、数据标注工具研发以及垂直领域AI智能体开发上。
简而言之,这篇文章不仅记录了杭州的实践,更描绘了中国AI产业从“野蛮生长”迈向“精耕细作”的关键转折点。
那么,迪安诊断出现在这篇宣言里面,这是一种褒奖的同时,也说明迪安诊断是杭州乃至全国在“专业垂直领域语料库建设”上的一个标杆性案例。
具体可以解读出以下几层深意:
1. 叙事逻辑的需要:从“宏大叙事”到“具体而微”一篇好的政策解读文章,既要有宏观的蓝图,也要有微观的体温。
让“语料库”概念具象化:
“高质量语料库”听起来很抽象,但迪安诊断的例子让这个概念落地了。通过“1500万份病理切片”、“革兰氏染色涂片识别从15分钟到1分钟”、“Repilot智能体节省80%重复工作”这些具体数字,读者能直观感受到语料库的威力。
验证商业闭环:
文章反复强调语料库要实现“资源化、价值化”。迪安诊断不仅建了库,还用它交付了数据集(交易)、开发了产品(Repilot)、升级了系统(2.0版)。这说明它已经跑通了从“投入建库”到“产出效益”的完整商业闭环,是文章论点最有力的论据。
选择医疗领域的企业作为重点,本身就代表了产业引导的方向。
高门槛决定高价值:
医疗数据涉及隐私安全、专业壁垒极高(需要专家标注)、对准确性的要求近乎苛刻(人命关天)。迪安诊断能做好医疗语料库,说明它在数据脱敏、专家协作、专业标注等方面具备了极强能力。这向外界传递了一个信号:杭州不仅能做通用数据,更能攻克最难的专业领域。
社会效益与经济效益的统一:
医疗AI直接关系民生福祉。通过报道迪安诊断,文章巧妙地展示了杭州语料库建设不仅是商业行为,更是提升社会公共服务水平(如医疗效率)的重要途径,具有很高的政治高度和社会价值。
迪安诊断的身份很特殊——它原本是第三方医学检验的龙头企业,是“数据拥有者”和“场景拥有者”。
“油田主”变身“炼化厂长”:
它本身拥有20年的海量数据(油田),现在它又在建设语料库(炼化),还向别人交付数据集(卖油)、开发AI工具(卖高附加值化工品)。这种角色的转变,完美契合了文章提出的“从油田到炼化基地”的杭州愿景。
鼓励存量数据激活:
重点报道迪安诊断,也是在鼓励其他传统行业(如金融、法律、制造)的龙头企业:你们手里也握着金矿,只要像迪安这样投入语料库建设,就能在AI时代抢占先机。
对于关注浙江日报的投资者、企业家和地方政府来说,迪安诊断的大篇幅出现,暗示了未来的投资和扶持重点。
“专业+数据”的复合价值:
迪安诊断的成功在于它既有医学专业知识,又有数据能力。这引导市场关注那些在垂直行业深耕多年、拥有海量独有数据的“隐形冠军”。
政策资金的支持方向:
文章中明确提到“对多模态语料库最高可给予200万元补助”。迪安诊断作为先行者,很可能就是这类政策的受益者。报道它,就是告诉市场:只要你能做出高质量的专业数据集,政府不仅有荣誉,更有真金白银的支持。
这还值得述说的是:在迪安诊断实验室,工程师与检验专家正持续优化该公司的医检语料库。该语料库基于迪安诊断20余年积累的数据建立,涵盖已完成数据清洗、匿名化等处理的多组学、多模态数据,包括基因组学、微生物组学和影像组学等内容。仅病理切片数据就有约1500万份。
当我们外行人听到“1500万份病理切片”时,往往只是一个模糊的“很多”的概念。要理解这1500万份病理切片的价值含量,我们不能只看数字,而要从“数据密度”、“时间壁垒”、“获取成本”以及“产业稀缺性”这四个维度来拆解。
1. 从“时间维度”衡量:这是20年的生命积淀首先,这1500万份不是一夜之间从互联网上爬取来的,而是迪安诊断20余年积累的结果。
不可压缩的时间成本:
对于一家新创的AI医疗公司来说,即使有再多的钱,也买不来“时间”。要从零开始积累1500万份真实世界、覆盖各类病种的病理切片,必须依靠漫长的临床检验过程。这构成了最核心的时间壁垒。
对生命的记录:
每一份病理切片的背后,都对应着一位真实的患者、一种真实的疾病状态(是炎症还是肿瘤?是早期还是晚期?)、一次真实的临床检验过程。这种真实世界的数据,是任何实验室里人工合成或模拟的数据都无法比拟的。
病理切片不同于普通的照片。为了看清细胞层面的异型性,病理切片往往是“数字化的巨幅画卷”。
超高分辨率:
一张标准的数字病理切片,为了看清细胞的细节,通常需要放大40倍甚至100倍扫描。一张切片扫描后的图像,大小通常在几百MB到几个GB之间。
数据总量的换算:
如果我们保守估计,按平均300MB/张计算。
1500万张 × 300MB =
450亿MB。
换算成更直观的概念:这大约是
4.2PB(拍字节)的数据量。
4.2PB是什么概念?
相当于可以存储约
900万部高清电影。如果一个人不间断地观看,需要数千年才能看完。这是名副其实的医学影像数据的“天文数字”。
病理诊断被称为肿瘤诊断的“金标准”。这意味着,这些切片不仅仅是图像,更是附带了“标准答案”的图像。
专家智慧的结晶:
每一份切片在成为语料之前,通常已经经过了主治医师的初诊、高级职称专家的复核。切片上的病灶区域可能已经被圈画标注,并且对应着最终的确诊结论(例如:肺腺癌、鳞状上皮异型增生等)。
长尾病的覆盖:
1500万份的规模,意味着它几乎覆盖了人类已知的绝大多数疾病亚型。对于AI训练来说,最难的不是识别常见的感冒炎症,而是那些发病率只有百万分之一的罕见病。只有拥有足够海量的样本,才能捕捉到这些“长尾数据”,让AI也能识别罕见病例。
如果说普通互联网文本数据是“煤”,用来发电(算力)发热,那么这1500万份病理切片就是
“稀土”。
极高的获取门槛:
病理切片的获取受到严格的伦理审查和患者隐私保护法律的约束。数据不能像网络小说一样随意买卖。迪安诊断作为第三方检验机构,在合规前提下通过长期服务积累的数据,具有天然的
“排他性”。
变现路径清晰:
正如文章提到的,基于这个语料库,可以开发出“革兰氏染色涂片智能识别系统”。在医院病理科医生严重短缺(培养周期极长)的当下,一个能辅助筛查、将15分钟工作缩短到1分钟的系统,其商业价值是巨大的。
战略价值:
在国际竞争中,高质量医学语料库是医疗AI大模型的“弹药”。谁拥有最大、最全、最干净的医学影像语料库,谁就能训练出最顶尖的医疗大模型。
它不仅是4.2PB的存储数据,也不仅是20多年的时间结晶;它更是一个包含了数百万患者生命信息、凝聚了数千名病理专家诊断经验的庞大知识库。如果用一句话让你理解其价值含量: 对于任何想要训练出一个“顶级病理科主任医师级AI”的科技公司来说,这1500万份病理切片,就是通往那个目标唯一的、绕不开的、最昂贵的入场券。
我一直在提,迪安诊断最有价值的部分,市场根本没有给出估值!!!之前也提了,AI应用一次次的A型走势,根源还是数据产业的发展严重滞后。。。浙江、杭州已经在冲锋了,相信数据产业的高速发展期即将到来。。。那么,AI医疗的黄金期还远吗?
#迪安诊断##数据要素#
作者声明: 本文转载自第三方,旨在提供资讯参考,并非证券推荐或投资建议。作者对内容的真实性、准确性不承担保证责任。本文不构成任何投资建议或证券推荐。截至发文日,作者与文中提及的标的不存在持仓关系。