探索中国CIO人才现状 | 第四季调研报告
中国生物:数据治理在生物医药企业的实践与思考
2025-04-16  作者:王宇 来源:CIAPH 医药健康信息化联盟

本文根据中国生物信息部主任姜宝刚在“CIAPH第13届医药健康行业数字化高峰论坛”的分享整理

摘要:"当前普遍都在谈AI,但AI离不开数据治理,离不开高质量的结构化和非结构化数据。数据这个话题会伴随AI的全生命周期,所以我们必须先夯实数据基础。"

姜宝刚.png

中国生物 信息部主任 姜宝刚

数据治理是AI时代的底层基石

当前都在热议AI技术,但我们需要认识到:任何人工智能的应用都需要建立在高质量数据的基础之上。数据是一个永久的话题,会伴随着AI和智能化的的全生命周期。今天我将从企业的数据治理和研发数据治理思考两个维度,分享我们在数据治理领域的实践经验。

一、中国生物的数据治理实践

1、数据治理的规划与框架

作为一家央企,中国生物将数据治理纳入数字化转型核心战略。

众所周知,从数据建设到数据使用的全生命周期中,数据治理能有效保障有好数据用,促使数据产生价值。为了实现从生产数据到使用数据的转变,充分发挥数据治理在企业数字化转型中的支柱作用,在开展数据治理之前,我们也做了大量的思考与咨询,目前形成了咨询规划框架。

平台是数据的基础:我们现在搭建的数字化应用是数据产生的基础,有高质量的数据才是数字化的基础。

治理是质量的保障。要完成各系统之间的数据统一,主数据要统一、业务数据要统一、历史数据统一;业务语义和技术语义统一。同时保障数据使用的安全、准确。

服务是价值手段:业务有哪些应用、怎样挖掘数据价值,未来数据资产怎样进行融通、交易,结合业务完善数据精细化经营管理,也是我们现在考虑的方面,要以不同的服务模式挖掘数据价值。

姜宝刚1.png

2、数据治理愿景

在数据治理的支持下,我们期望能实现的管理愿景,主要有三个层次:第一层次,(集约化的数据平台底座)把数据采上来、存起来,让它"可用";第二层次,(常态化的精益治理体系)提高数据质量,将数据汇聚起来治理好,让它"好用";第三层次,(智能化的分析运营生态)"慧用",实现智能化分析运营生态。

3、对数据治理的认知

数据治理工作是一个完整的流程,包括组织、流程、制度和技术四方面:

姜宝刚2.png

组织:织包括数据治、理相关部门、角色和职责;

流程:治理角色执行治理政策的规范化的过程;

制度:数据治理的规定、办法和细则的总称;

技术:通过信息化手段实现治理治理体系的落地。

4、数据治理的价值

聚焦到中国生物做好数据治理的价值,主要体现在三方面:

第一管理价值。构建公司数据治理管控架构,规划数据治理蓝图;以数据治理为抓手,构建管理组织体系、制度体系,明确责权,为管理提供有效抓手。可以自上而下的提高公司对数据资产的认知,提高数据管理的能力。

第二,经济价值。降本增效,中国生物形成的成熟数据管理机制和高质量数据,高质量数据保障数据开发的高效和应用准确性,即快又准,可以降低管理成本、沟通成本和数据开发成本50%以上。同时,它还能促进业务创新,降低合规的风险,提高企业竞争力,将数据价值变现等。

第三社会价值,中国生物作为国有企业,要承担相应的社会责任,探索药企数据治理先进实践,打造行业标杆,提高企业影响力,参与行业标准制定,引领行业发展。为国家和人民服务。

5、数据治理框架:

我们的数据治理框架,也是参照了通用型框架的特点,大致有战略、机制、专题和技术实现四层建设,为企业数字化转型提供稳定数据保障基础。同时,基于行业的数据治理体系及公司的数据痛点,我们规划了数据治理框架,这个框架可以指出我们在数据治理方面的痛点,包括共享应用、实现数据价值、搭建统一的数据标准、主数据、组织职责、制度机制、安全机制、数据质量等。另外,我们对数据治理体系场景进行了统一标准的规划,包含了所有的核心业务领域数据,生产质量数据、工程数据的标准。

姜宝刚3.png

6、数据治理实践-需求背景

当前,数字化已成为国家战略和时代主题,社会企业积极推进数字化转型和数据治理。同时,数据治理是行业发展趋势,能助力企业管理和生产提质增效,基于业务发展要求和行业趋势,中国生物未雨绸缪,在参照了国家的法规要求、战略要求以及上级单位要求的前提下,布局数据治理顶层架构。

7、数据治理实践-体系规划方案思路

中国生物在数据治理项目上,拥有体系规划方案思路。首先从背景现状分析找问题,其次找最佳实践和现有市场上的解决方案,然后寻找数据治理发展策略,再次是归结治理体系规划方案,最后才是花钱,打造演进蓝图及实施路径。

姜宝刚4.png

数据治理需要考虑公司关注需求紧迫度与管理专项能力的成熟度,以及专项的阶段重要性,以此确定数据治理任务的重点优先级。

依据中国生物数据治理战略目标,规划了数据治理实施路径。为了实现五年内,中国生物数据治理能力达到量化管理级这一目标,我们将实施路径分了三个:第一阶段规划体系,建章立制(组织规划、组织落地等);第二阶段深化治理,扩建平台(数据治理体系落地、管理制度落地优化);第三阶段智慧应用,创造价值(健全数据治理组织、持续培训与推广等)。

8、数据治理实践-成果

最终形成了完整的数据治理体系框架,框架遵循了中国生物数据治理发展策略,突出了生物医药企业的特点,结合最佳实践案例和中国生物数据治理现状,提出了中国生物数据治理体系框架,即“1+7+2+3”数据治理体系。

为了后续实现企业的智能化,所以我们也在思考,将企业Data Infra需要升级为AI Infra,比如将SQL形成自然语言、提高非结构化数据处理能力、从数据即服务转向知识即服务、数据分析转向知识应用等。

姜宝刚5.png

二、探索中国生物在研发数据的治理思考

24年以来,AI大模型的突飞猛进,给业内带来了AI运用的很大刺激。越来越多的生物医药企业加大研发投入,积极布局创新,药物研发管线,推动行业不断向前发展。

1、AI For Science 新范式

AI For Science 新范式也开创生物医药研发新时代。

人工智能技术在生物医药领域的应用呈现出迅猛发展的趋势。在药物研发中,AI通过对海量数据的分析,实现药物靶点的快速识别、化合物的高通量筛选以及药物分子动力学指标的预测,大大缩短了药物研发周期,降低了研发成本,但海量数据的管理却面临着诸多困境。比如说:

数据存储分散:数据存储分布在不同部门、系统和存储设备中,导致数据难以整合和共享,增加了数据管理的难度,还可能因为数据更新不及时而导致数据不一致,影响决策的准确性。

数据格式不统一:不同类型的数据采用不同的格式进行存储,数据需要进行复杂的数据转换和适配工作,容易在转换过程中出现数据丢失或错误,影响数据的质量和可用性。

数据标准缺失:使得企业在进行数据分析,处理数据、统一术语标准耗时费力,严重影响了数据分析的效率和准确性。

2、研发全生命周期的数据治理痛点

我们来看一些头部生物药企研发全生命周期的数据治理痛点,这些痛点还是很有代表性的,包括药物发现环节的模型训练数据缺乏、临床前研究中实验室数据采集未电子化、临床试验中临床数据格式标准不一致、注册申报环节科研与注册数据标准不一致、生产上市环节的工艺数据不匹配等。

同时,某MNC集成跨部门数据并引入AI的案例,对我们是非常有借鉴意义的。其数字化转型全力以赴人工智能与数据科学,人工智能覆盖所有业务活动,提高价值链生产力。

研究方面:建立了多个人工智能AI程序,通过改进预测模型和自动化操作来扩大和加速突破性的研究过程,缩短研究时间,提升研发效率。

临床方面利用AI提示的见解支持临床试验各项决策,更好地开展临床试验。

协作方面:流程数字化从纸质审批记录转向电子审批记录,利用数字和数据化来提高资产利用率。

3、研发数据治理的未来方向

在研发数据治理上,中国生物也有一些未来的探索方向:

海量数据汇聚与管理:构建多模态科研大数据管理平台,通过对接信息化平台API接口、部署仪器设备数据同步采集工具、公共数据库定期采集更新和产学研项目共建等方式,采用“MPPDB + Hadoop”混合架构实现多模态健康医疗数据管理。确保数据的完整性、准确性和安全性,为AI研究提供坚实的数据基础。

提高数据处理效率与质量:针对不同类型的数据,采用多种分析技术提高数据处理效率与质量。利用自然语言处理AI模型和大数据ETL技术,构建数据提取、脱敏、治理和质量评估标准化流程,实现标准化数据要素供给。

保障数据安全与隐私:保障数据安全与隐私至关重要,建立“定点调取、分类使用、全程监控、多方监管”的数据安全共享管理规范。采用安全认证、权限控制、数据加密/匿名化、配套数据安全计算环境、实行数据全生命周期管理等方式,切实保障数据存储与应用安全。

强化多模态数据融合分析:推进数据驱动的药物研发创新,需要强化多模态数据融合与分析。将临床数据、基因组数据、蛋白质组数据医学影像数据等多模态数据进行融合,挖掘数据之间的潜在关联和规律。通过数据分析和建模,利用深度学习算法整合跨模态数据,突破单一数据维度局限,显著缩短新药研发周期。

中国生物企业的领域相对较窄,是做疫苗、血液制品的特殊行业,药监局对行业的监管非常严格。所以企业在生产和质量方面,信息化的基础做的相对比较扎实,希望后续能和优秀的行业同仁多多交流。