近日,上线了一款写稿机器人,它看起来挺有文化。这款机器人叫做小柯,其系由中国科学报社以及北京大学科研团队共同研发而成。
小柯所撰写的并非平常的稿子,而是中文的科学类新闻稿件,据相关介绍可知,小柯借助于自然语言的处理技术,以英文论文的摘要作为基础,能够迅速地创作出中文科学新闻的底稿来,随后由专业人士以及报社的编辑进行相关把关操作以及信息完善工作,以此能够协助科学家以中文的形式快速地获取全球高水平英文论文里的最新科研进展情况。
目前小柯的作品已经上线。人工智能的触角,也在伸向各个领域。
小柯:一个尽职的摘要翻译转写者
被记者发现,在7月5日这一天,小柯机器人发出了它的第一篇稿子,一直到8月22日记者进行统计的时候,小柯机器人总共发布完了415篇稿子。刚开始的时候更新时间距离论文发表时间间隔大概是一个月,如今能够做到在当天或者隔天就进行更新,每天更新的数量从几篇跨越到二十几篇不在固定范围。小柯机器人所选择的论文乃是来自生命科学等领域,其中涉及到《自然》《细胞》《新英格兰医学杂志》等期刊这也是事实中存在的情况。
记者针对小柯作品《单细胞测序揭示冠状动脉疾病保护机制》,将其与英文原文做了对照分析。在新闻里,小柯开始先对该论文的主题、研究的单位以及发表的期刊进行了一番简单的介绍,之后紧接着接上了英文原文摘要的翻译,这译文大致能够反映原文的内容。在进行翻译的时候,会针对原文进行适度的语句简化处理,并且在针对专业词语的翻译方面,也运用了像“血管平滑肌细胞”“保护性纤维帽”这类的专业表述。
不过,这这般样子也并非完全全都是小柯的功绩功劳,毕竟,在稿件发出去之前,还是存在着人工审校这么一个步骤阶段的。北京大学计算机科学技术研究所的研究员万小军团队承担负责着小柯的系统总体设计以及联合技术攻关这方面工作的。他告知记者说,现今当下机器翻译系统的性能在很大程度上,是依赖于其所运用使用的训练数据的,也就是平行语料。目前现有的平行语料大多都是新闻语料,所以因此训练获取得到的机器翻译模型对于日常新闻的翻译效果是比较良好不错的。不过呢,学术方面的文献,就像是生物领域的学术论文那样,和日常所见到的新闻,在运用词汇用词以及构造句子造句等诸多方面状况上,都是存在着比较大为不同的差异的,而机器的翻译系统针对学术文献所进行的翻译,其最终达成的效果是并不让人觉得理想的。
这一回,他们借助融合领域知识开展语句智能筛选,挑选出适宜大众理解的语句,并且基于语句简化来提高语句翻译质量。英文学术论文摘要适宜专业科研人员阅读,然而摘要里的语句并非全都适宜写入科学新闻中面向大众传播,所以要结合编辑提供的先验知识,运用计算机算法对语句进行筛选,留存适合大众新闻传播的语句。万小军讲。
自然语言处理技术不只能让机器人写稿
万小军指出,研发小柯耗费了半年时间,他还表明,相较于一般的写稿机器人,一个优质的跨语言科技新闻写稿机器人要经历两次关键的信息转变历程,其中一次是不同语言之间的转变,也就是把英文文本转变成中文文本,另一次是语言风格的转变,即将学术性文字表述转化为大众能够接纳的通俗文字表述。万小军称:“这两次转变都存在较大的挑战性,当前尚未得到完全解决。后续必须进一步积累数据,调整算法模型,进而才能收获更好的成效。”。
继续优化小柯,使它所撰写的科学新闻,内容进一步丰富起来,并让表达愈发生动,这是接下来团队会去做的。
当然,翻译撰写科技新闻稿件,这是自然语言处理等人工智能技术在学术交流里能够充分展示本领的一个领域,只是其中之一。

有个人叫万小军说,基本上人类交流以及工作进程里只要涉及语言和文字这样的地方,自然语言处理技术都存在发挥作用的可能性。在科研论文写作过程中借助自然语言处理技术能来帮助去推荐参考文献,还能自动生成相关章节的文字,此外业界也历经了基于自然语言处理技术自动编撰图书方面的尝试。万小军还说自己个人也碰到过好多既有意思又颇具挑战的应用需求,然而很遗憾不少需求依据当前的自然语言处理技术是无法实现的。自然语言处理技术,仍需进一步去发展和突破,对此,我秉持着相信的态度,觉得在未来,它会存有更多的用武之地句号。
长期关注自然语言处理,大数据以及人工智能方面应用研究的中国知网常务副总经理张宏伟告知记者,在数字出版和知识服务全程链条里,人工智能和机器学习技术的踪迹都能够被看见。
赋能数字出版的选题策划、协同撰稿、内容编审,是人工智能能够做到的事。大数据标注机器人呢,它可以针对海量数量的文献信息资源,展开OCR文字识别,进行智能版面分析,实施知识元抽取,施行自动分类,执行自动标引主题的操作,完成自动生成英文摘要这一行为,开展自动翻译这一动作,持续、不间断地持续自动标注引用和参考文献。
人们所熟知的论文抄袭检验,同样离不开智能技术。它并非单纯的语句重复检查,而是要针对文本内容(涵盖图片、公式、表格等)开展语义索引,以此判断在思想方面有无抄袭他人情况。要是存在不同语言间的相互抄袭现象,那就还得运用“机器翻译”。张宏伟指出,初级的语义抄袭能够被机器发现,然而,要是足够有心机,完全用自身语言“清洗”了别人的思想,那么对人工智能的技术要求便一下子提升了许多。现今,已然有借助神经网络模型,针对文本内容构建高维度语义索引等新的技术现身,不论中文,还是英文,一概映射到一个统一的语义空间,达成真正基于内容理解的语义级全文比对检索。
知识库是智慧社会的基础设施
在学术研究里,有那样一种资料索引,它是必不可少的物品,看起来好像蛮简单,然而实际上!它依旧是挺有技术含量的!
张宏伟讲,数字出版、数字图书馆的资源类型丰富异常,存在诸多文本、图像以及音视频数据,并且数据属于非结构化的,要是打算对其展开深度的挖掘利用,困难程度不小。
要说到平常经常会有的信息检索,首先要保障达成的是结果得全面涵盖,相关程度得处于较高水平;进一步深化发展之后,可不可以运用自然语言交互的型式展开检索;提升难度层级往上更进一步,采用智能问答的方法去追寻查找信息,能不能得以直接给出答案呢?提到要促使检索功能变得更为贴心周到,计算机需要“学到”去阅读资料,加以总结、进行推理随后予以回答。它应当将数量极其庞大的数据资源转化成自身能够理解明白的知识库。张宏伟如此表示。
深度学习这类统计方法,严重依赖大样本数据,可是,身处现实世界,好多实际问题,仅靠统计方法是解决不了的,如此一来,就得建立专门的,计算机能够理解的知识库,去实现真正的人工智能,然而,构建知识库,本身是一项极其艰难,并且耗时漫长的工作,毕竟,机器和人对知识的理解方式,差别极大。
张宏伟讲,诸如知网这般的机构正投身于深度融合全球知识信息资源,开展世界知识大数据建设的工作。这项工作还包括使文本文献碎片化、网络化,按照知识运用的场景,运用半自动知识抽取算法去构建面向垂直领域的知识图谱。2019年,知网相继推出了一些基于知识图谱的行业智慧应用产品,像是医疗领域的临床智能诊断,法律领域的智能量刑判案等。
话虽如此,我们处于这些方面才刚刚开始,我个人认为,应当少滋生一些浮躁情绪,稳稳当当做些具有基础性的工作。要是没有知识给予的支撑,那就谈不上所谓的“智慧”。按照张宏伟的看法,知识库与人工智能,其自身便是彼此促进之时也相互赋能彼此的关系。搭建知识库借助人工智能,而人工智能的进步,同样离不开知识库。怎样把人的知识库化为计算机能够理解通透的知识库属于人工智能的关键要点,面临诸多难题,急需学术界以及产业界携起手来努力。(记者 张盖伦 陆越)