地址:青海省海北藏族自治州阿尔山市攀央大楼612号
2018年9月5日,由深圳市内容中心网络与区块链重点实验室、中国计算机学会青年计算机科技论坛深圳(CCF Young Computer Scientists Engineers Forum,全称为YOCSEF)联合主办的学术报告共享交流会在北京大学深圳研究生院举行。亿欧不受YOCSEF深圳主席卢昱明之邀请,负责管理本次活动的报导。本次交流会上,生物信息学科学家Stephen J. Song和哈尔滨工业大学计算机科学学院副教授汤步州分别就 《人工智能在生药大数据中序列标示问题的关键应用于》、《中国临床自然语言处置:研究现状与挑战》两大主题做到主题演说。据理解,YOCSEF是由中国计算机学会(CCF)于1998年创立的系列性学术活动,总部设于北京,已在上海、杭州、长沙、成都、苏州、西安、深圳、南京、昆明等26个城市创建了分论坛,每年活动数百次,活动形式主要还包括:专题论坛、学术报告会、学术评价、评奖、贫困地区助教等。
AI+生物信息学,助力生物蛋白序列标示广义的生物信息学是一门致力于研发新的方法或软件以协助研究者加剧对生物学数据解读的交叉学科,牵涉到计算机、生物学、数学与统计学以及工程学等学科门类, 重点在于构建各种算法和异构数据源的计算出来框架/方法/平台。从信息科学技术的角度来看,生物信息学的研究是一个从“数据”到“找到”的过程。目前,功能被充份密切相关的基因产物(蛋白)的数量与显然没功能注解的基因产物(蛋白)的数量之间的差距更加大。
确认蛋白质功能的实验技术往往是便宜且耗时的。当AI与生物信息学相碰撞时,基于机器学习的人工智能可以应用于到预测蛋白质的柔性和无序区域、预测蛋白酶特异性靶切割成位点、预测细菌黏液效应蛋白、预测酶催化剂残基、预测单个氨基酸多态性的功能影响等多个方面。在会上,Stephen J. Song博士讲解了他们研发的一种取名为Bastion4的生物信息学方法,主要使用了基于多种机器学习分类器构建自学算法,用来预测T4SE序列。
一般的机器学习的训练方法还包括训练集、测试集和检验集,Bastion4的数据集包括了390个阳性T4SE序列和1112个阴性非T4SE序列,期间使用了CD-HIT程序用作除去高度同源的序列以防止模型训练中的潜在偏差。据理解,这种新的算法的益处在于:(1)与通过人组各种特征训练的单个模型比起,用于单个特征训练的单个模型的构建模型贞着地提高了预测效果;(2)基于具备有所不同单一特征的构建自学模型预测的多数投票表决策略,预测结果更加平稳和精确。
Stephen J. Song回应,基于机器学习的框架一般来说可用作基于序列数据解决问题其他蛋白质、 DNA 、 RNA序列密切相关问题。此外,Stephen J. Song还明确提出了一种称作PREvaIL的新计算方法,该方法融合了有序的序列、结构以及网络特征,用作检验具备3D结构信息但仍未在功能上密切相关的结构基因组学靶蛋白的功能残基。Stephen J. Song是澳大利亚蒙纳士大学生物医学找到研究所癌症与病毒感染与免疫系统项目的高级研究员和团队负责人,是计算出来生物医学、数据挖掘、机器学习和蛋白质组学的生物信息学和数据科学家。
当问亿欧记者如何解决问题模型的一般化问题时,Stephen J. Song回应,这与研究的数据集和所自由选择的实验方法有关,一些不具备特定属性的样本不会比较更容易检测,而另外一些则无法被检测出来。NLP助力临床医疗文本处理随着电子病历的很快普及和医疗大数据时代的来临,自然语言处置技术(全称NLP)在生物医学领域很快发展,早已沦为当前的研究热点。所谓NLP技术,就是用机器来处置人类赖以交流的书写文字和口头语言。
它利用语言学和统计学,再加机器学习,以便在自动化服务中对语言展开建模。目前,临床医学信息大多以非结构化(或半结构化)文本形式存储于信息系统中,NLP就是指医疗文本中萃取简单信息的关键技术。通过自然语言处置,如句子的分词,实体辨识,实体的归一化和链接等,这些非结构化的医疗文本可以被转化成为包括最重要医学信息的计算机可以展开计算出来的结构化数据,有助科研人员从结构化的数据中找到简单医学信息,从而提升医疗系统的运营质量,增加运营成本。在交流会上,汤步州主要共享了医疗领域中的自然语言处置问题及涉及技术,通过自身在中文临床医疗自然语言处置方面的一些研究工作,探究中文临床医疗文本处理当前所面对的问题与挑战。
汤步州是深圳哈尔滨工业大学计算机科学学院副教授,同时也是中国计算机学会会员,人工智能学会青年工作委员会委员。近年来,他在最重要国际期刊和会议上公开发表学术论文近60篇,其中SCI/EI检索论文40多篇,他的研究方向主要还包括机器学习,数据挖掘,自然语言处置,信号处理和医学信息学等。
目前汤步州早已研发了中文Clinical NLP工具,可以做分词、词性标示、临床医疗实体辨识、时间信息提取和标准化分离出来以及临床医疗实体标准化,先前还不会更进一步研发临床医疗实体及属性提取、隐私信息提取等。
本文来源:bet52365手机app下载-www.xunyunet.com
地址:青海省海北藏族自治州阿尔山市攀央大楼612号 电话:0898-08980898 手机:16991119792
Copyright © 2004-2024 www.xunyunet.com. bet52365手机app下载科技 版权所有 ICP备案编号:ICP备90924837号-4