2023年7月5日下午,北京市科委、中关村管委会直属北京信息科技发展中心(以下简称“信息中心”)徐晨副主任、崔茜、张瀚翔等一行4人到访东华医为科技有限公司(以下简称“东华医为”),围绕2023年中央引导地方专项-大模型技术与应用项目布局展开调研。
东华医为科技有限公司大数据研究院负责人王士泉、市场部总经理黄红霞、医学知识图谱产品经理蔡浩哲等相关技术人员参加了会议交流。
会上,徐晨副主任介绍了北京信息中心的基本情况,中心的主要职责为承担信息技术领域科技创新布局、项目管理和创新主体服务等工作。同时,还介绍了本次调研交流的背景,需求及近期工作重点,希望借助本次交流深入了解东华在多模态大模型、医学知识图谱、医学自然语言处理等研究方向的进展,以及中关村高新企业对北京市科技计划等相关政策及工作的意见建议。
王士泉首先对徐晨副主任一行的到来表示欢迎,随后介绍了东华医为的基本情况,并希望借此次交流座谈推进企业在大模型、GPT领域的创新发展,以期进一步做好新产品的研发工作。
之后,围绕调研问题,王士泉分享了他在医学知识图谱领域的研究成果和内容。王士泉表示:大型语言模型(LLM)已经很强了,但还可以更强。通过结合知识图谱,LLM 有望解决缺乏事实知识、幻觉和可解释性等诸多问题,而反过来 LLM 也能助益知识图谱,让其具备强大的文本和语言理解能力,将两者充分融合,可以得到更加全能的人工智能。
“知识图谱是一种知识库,它使用图形模型来表示和存储结构化的知识,以及知识之间的语义关系。知识图谱的基本组成单位是实体、关系和属性,它们可以形成三元组(实体-关系-实体)或(实体-属性-属性值)来表达事实。知识图谱可以用于多种应用场景,如智能搜索、智能问答、个性化推荐等”。王士泉进一步解释,知识图谱的构建和维护需要多种技术的支持,主要包括知识抽取、知识表示、 知识融合、知识推理和知识更新。
王士泉指出,建立基于 Language Model(如LLM, BERT, GPT 等)的知识图谱,这种方法通常被称为知识图谱增强或知识图谱抽取。这是一个多步骤过程,其中,使用语言模型来帮助从文本中提取实体和关系,并将它们组织成知识图谱的结构。王士泉进一步描述了使用语言模型建立知识图谱的基本步骤:(1)数据收集:收集你想从中提取信息的文本数据。这些数据可以来自网站、论文、书籍、社交媒体等。(2)实体识别:使用语言模型识别文本中的命名实体。在这个步骤中,你可以使用预训练的 NER (命名实体识别) 模型来标记文本中的实体,如人名、地点、组织等。(3)关系抽取:一旦你识别了实体,下一步是识别它们之间的关系。语言模型可以通过分析实体在句子中的上下文来帮助识别这些关系。(4)构建知识图谱:将识别的实体和关系组合成图形结构。在这个图中,节点表示实体,边表示它们之间的关系。(5)增强和验证:使用语言模型来验证和增强知识图谱中的信息。例如,可以使用模型来检测不一致或错误,并利用其生成能力来增强图中的信息。(6)知识图谱查询和分析:一旦构建了知识图谱,就可以使用查询语言(如 SPARQL 或 Cypher)来检索信息,或使用图分析技术来发现模式和洞察。(7)持续更新:随着时间的推移和新数据的可用性,不断使用语言模型更新和维护知识图谱。
王士泉表示:这个过程可能是迭代的,并且可能需要大量的数据清理和验证。此外,构建和维护知识图谱还需要相当多的计算资源和专业知识。有些现成的工具和库可以帮助简化这个过程,例如 spaCy(用于实体识别和关系抽取)、Neo4j(用于构建和查询知识图谱)以及 Hugging Face Transformers(提供预训练的语言模型)。
之后,双方围绕ChatGPT、人工智能等领域,就相关技术研发中的难点、堵点、热点问题进行了深入交流。王士泉并对北京市科委中关村管委会长期以来对东华工作的指导和帮助表示了感谢。随后,王士泉还介绍了所申报的“基于多模态大模型的医疗知识图谱构建系统研究”课题的布局方向以及“中关村智慧医院产业协同创新平台”建设情况,解答了关于申报内容、技术路线等相关问题。
最后,双方表示会进一步加强沟通交流,巩固在创新驱动发展方面协同联动,携手推动政产学研深度合作。东华医为将继续发挥在北京市智慧医院领域的研发优势,期待为北京市人工智能领域科技创新做出更大贡献。(张燕 于涵)
责任编辑:kj005
文章投诉热线:156 0057 2229 投诉邮箱:29132
[email protected]