预览已结束,请登录阅读全文。
本文共9页,您只能预览前8页,下载后可全文阅读
<> 版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领 全文如下: ChatGPT对文献情报工作的影响 张智雄1, 2, 3 于改红1 刘熠1 林歆1, 2 张梦婷1, 2 钱力1, 2, 3 摘要 【目的】 研究探讨以ChatGPT为代表的人工智能技术对文献情报工作的启示和影响,为文献情报领域提出在人工智能时代下的发展建议。【方法】 基于对人工智能发展历程的总结,分析了人工智能技术飞速突破的本质。基于ChatGPT的技术能力特点,分析了其对文献情报工作的影响。基于文献情报工作的优势和价值,提出了人工智能时代文献情报领域发展的建议。【结果】 总结出了人工智能技术迅速发展对文献情报工作的五点启示。从数据组织方式、知识服务模式、情报分析方法、文献使用方式、文献情报队伍建设要求以及文献情报工作重点六个方面分析了ChatGPT对文献情报领域的影响。基于文献情报工作的特点,提出人工智能时代文献情报领域发展的九条建议。【结论】 知识获取能力提升是人工智能技术飞速突破的本质所在。ChatGPT的成功也表明高价值语料是一切人工智能的基础。文献情报领域组织和管理着蕴含人类知识的高价值数据资源,这对人工智能的发展有着非常重要的价值和意义。ChatGPT重在内容生成,而文献情报工作重在循证,文献情报工作要顺应时代发展,积极应用和拓展人工智能技术,为人工智能的发展贡献文献情报领域的智慧和方案。 关键词:ChatGPT 大规模语言模型 人工智能 文献情报工作 科学研究 引用本文:张智雄, 于改红, 刘熠等. ChatGPT对文献情报工作的影响[J]. 数据分析与知识发现, 2023, 7(3):37-43.(Zhang Zhixiong, Yu Gaihong, Liu Yi,et al. The Influence of ChatGPT on Library & Information Services[J]. Data Analysis and Knowledge Discovery, 2023, 7(3): 37-43.) 01 引言 近年来,以ChatGPT[1](Chat Generative Pre-training Transformer,面向对话的生成式预训练转换模型)为代表的人工智能技术取得飞速突破,相关成果广泛应用于各个领域,对社会各行业都产生了巨大冲击。 ChatGPT是由OpenAI公司于2022年11月发布的人工智能对话系统。由于其在诸多领域都能给出清晰、完整的答案,甚至写出接近真人撰写的文章,仅上线两月活跃用户便突破1亿,成为全球各个领域热议的重要话题[2-5],对咨询服务、教育培训、科学研究、语言翻译、文学创作、程序设计等行业都产生了重大影响[6] 。 各个行业领域都在研究分析如何将ChatGPT引入自身行业体系中。如雷塞尔大学研究表明ChatGPT可助力预测阿尔茨海默病[7-8];美国新闻聚合网站使用ChatGPT“增强”和“个性化”其新闻内容[9];伦敦大学研究发现ChatGPT在程序错误修复方面已超越当前最佳模型[10]。 在文献情报领域,由于ChatGPT出众的知识获取、知识处理能力,以及可对外提供知识问答、知识综合、内容创作等方面的服务功能,直接挑战着文献情报领域中的信息组织管理、信息检索查询、情报研究分析、科技监测评估等核心职能和主体业务。ChatGPT对文献情报工作产生哪些影响成为一个亟待回答的问题。文献情报行业迫切关注的是ChatGPT是否会颠覆文献情报行业,是否会让文献情报人员失业,ChatGPT会如何变革文献情报工作,文献情报领域要如何应对技术变革等等问题。 为了回答上述问题,笔者基于对人工智能发展历程的总结,分析了人工智能技术飞速突破的本质,提出了人工智能技术迅速发展对文献情报工作的五点启示;基于ChatGPT的技术能力,分析了其对文献情报的数据组织方式、知识服务模式、分析方法、文献使用方式、文献情报队伍建设要求及工作重点等的影响。基于文献情报工作的优势和价值,提出了人工智能时代文献情报领域发展的九条建议。 02 人工智能技术迅速发展对文献情报工作 的启示 计算技术的发展,使得计算机学习知识、开发利用知识的模式得到改变,从各类数据资源(语料)中学习和开发利用知识的能力得以不断提升。数据资源是人工智能获取知识的源泉,高价值语料是一切人工智能的基础。文献情报工作应当从人工智能的技术突破、突破方法、技术积累过程中汲取经验,积极寻找行业价值定位,增强行业自信,融入人工智能时代的发展潮流。 2.1 计算机解决问题模式已改变,机器学习成为获取解决问题所需知识的重要手段 人工智能技术近年来取得的飞速突破,主要得益于机器学习的进步。机器学习,改变了计算机解决问题模式,实现了从人类输入知识让机器完成任务,到让机器自动学习知识再让机器利用所学到的知识去完成任务的转变。 早期基于规则的人工智能(Rule-based AI)是由人类输入知识让机器完成任务,但是随着规则之间的相互作用成倍增加,人工编写的规则无法穷尽人类知识且难以灵活修改[11]。而机器学习是让机器直接分析大量数据,自动学习隐藏在语料中的知识,再利用所学到的知识去完成任务。这种改变,让机器具备自我学习的能力,能够通过不断地迭代提升知识获取能力。知识获取能力的提升正是AI飞速突破的本质。 2.2 深度学习的性能提升,除模型突破之外,更要归功于语料和算力 深度学习是当前人工智能学习和获取知识的主导技术。作为一种更能自动分析语料、自主学习相关知识的机器学习方法,深度学习大幅提升了从语料中获取知识的能力。回顾深度学习算法模型的发展历史,可以窥见,只有具备了大规模的语料和必要的算力,这些算法模型才能充分发挥作用。 深度学习方法的基础是人工神经网络[12],神经网络的概念最早可以追溯到1943年。而现在我们熟悉的很多神经网络模型(如RNN[13]、LSTM[14]等),也早在上世纪90年代就已经被提出。但当时,由于可计算的数据资源和计算能力有限,无法支持较深和较大规模的神经网络训练,导致这些模型的效果赶不上同期的一些传统机器学习方法。当前,由于数据资源非常丰富,训练语料的规模不断扩大,深度学习方法能够在大规模计算集群的支持下,从大规模的训练语料中挖掘出解决问题的知识,将机器学习模型的拟合能力提升到了新的高度,使机器获取知识的能力大幅提升。 2.3 自然语言处理的技术模式已经改变,无监督的预训练对于知识学习有重要价值 随着基于BERT、GPT等预训练模型的自然语言处理方案不断刷新自然语言处理界的各项测评分值记录,基于预训练(Pre-Training)和微调(Fine-Tuning)的两阶段学习方法成为了当前自然语言处理的发展主流,改变了自然语言处理的技术模式。 两阶段学习,预示着无监督的文本知识学习也是重要的学习环节。对未经人工标注过的特定类型语言文本的学习,让机器可以学习到相关语言文本中的词语搭配、结构组成、行文风格等语言知识,使机器可以处理这类语言文本,进而能够提升后续自然语言处理任务的处理效果。以大规模语言模型为代表的无监督语料的学习,进一步提升了机器获取知识的能力。 2.4 ChatGPT并不是无来由地横空出世,而是学习能力从量变到质变的重大突破 ChatGPT的推出标志着人工智能技术实现了质的飞跃。但要看到,ChatGPT并不是无来由地横空出世,它是人工智能技术长年积累的结果,更是人工智能技术从量变到质变的体现。 从GPT系列模型的发展来看,从最初的GPT-1到现在ChatGPT所依靠的GPT-3.5,也是不断进步的结果。GPT系列模型在研发过程中,不断堆叠扩展了神经网络Transformer结构(从GPT-1[15]的12层到GPT-3[16]的96层),不断扩大了训练语料规模(从GPT-1的5GB到GPT-3的过滤前45TB,过滤后570GB),不断增加了训练参数数量(从GPT-1的1.17亿到GPT-3的1750亿),并引入了人类反馈指导(Reinforcement Learning with Human Feedback,RLHF[17-18])的强化学习算法框架,最终造就了ChatGPT的出色表现。 也有些专家认为,相比此前技术,ChatGPT在技术上并没有取得实质性的重大突破。但我们认为,这或许就是人工智能“复利效应”。正是由于持续不断的点滴突破,持续不断的训练语料规模扩大和质量提升,持续不断的模型容量扩充和模型参数优化,才使得当前人工智能的学习能力和五、六年前已不可同日而语。最终实现了从量的积累到质的飞越。 2.5 ChatGPT是集成创新的成果,学习能力的提升得益于软硬件技术方法的有效集成 ChatGPT是有效集成软硬件以及各种技术方法的典例,是集成创新的成果。当前人工智能学习能力的提升也是软件、硬件、技术、方法和语料等多方面集成融合的结果。 相关研究[19-20]表明,模型参数越多、语料规模越大、计算能力越强,模型表现越出色;要想获得更好的模型性能,需要同时扩大模型参数数量和训练语料规模。为了让模型能够汲取更多知识,OpenAI收集、标注了更多的原始训练语料;为了实现更贴近人类的对话效果,研发了基于人类反馈的强化学习方法;为了加速模型训练,部署了28万个CPU内核、1万个GPU的超级计算机[16]。通过软件、硬件、技术、语料有效的集成,才使得ChatGPT的知识学习能力获得质的飞跃,造就了当前ChatGPT出色的表现。 03 ChatGPT对文献情报工作的影响 文献情报领域的许多科技情报服务、科技文献挖掘服务、图书馆知识服务都需要人工智能技术的大力支持。类ChatGPT的人工智能技术在智能问答、情报分析、内容创作、数据分析、论文阅读等方面与文献情报工作还有巨大融合空间,它也势必会改变文献情报工作的方法和模式。 笔者从数据组织方式、知识服务模式、情报分析方法、文献使用方式、文献情报队伍建设要求以及文献情报工作重点六个方面分析了ChatGPT带给文献情报领域的影响。 3.1 改变文献情报的信息组织模式,从表层信息组织到深层语义内容组织 当前,科技文献情报的信息组织方式往往还以题目、摘要、关键词、机构、期刊等表层信息组织为主,较少深入到文献内容中。 随着AI技术的发展,从科技文献中精确挖掘细粒度知识对象的能力得到显著提升,信息的组织可以深入到内容,实现细粒度知识对象的组织和揭示。例如,可以深入到科技文献内部,标注细粒度的文献内容(如科技文献中研究问题、研究方法、实验步骤、数据资料等),将文献中的语义知识内容更好地组织揭示出来。 3.2 改变文献情报的知识服务模式,从信息检索到知识问答 目前,文献情报的知识服务主要依靠文献检索,通过文献数据和文献元数据的索引,实现对海量科技文献的检索获取服务。 3.3 改变文献情报的情报分析模式,从手工作坊到大规模智能分析 文献情报分析过程包括问题界定、情报源梳理、数据准备、关键信息提取、统计分析、观点提炼以及报告撰写等一系列复杂工作,往往需要人类手工完成。 类ChatGPT人工智能技术已具有观点提炼、内容综述、场景问答、语言翻译、语义分析、智能推荐、辅助决策的潜在能力,可以为情报分析人员提供智能化工具,辅助文献情报分析工作。文献情报的情报分析模式,将从手工作坊模式发展成为大规模智能分析模式。 3.4 改变文献情报的用户应用模式,从平面化的阅读到立体式内容透视 阅读大量文献是科研工作者的必要工作,他们需要付出很多的时间和精力,尤其在信息大爆炸的时代背景下,从错综复杂的文献资源中提炼关键信息,寻找多篇文献中的潜在关系,得到开展科学研究的重要数据和技术支撑,显得更加费时费力。 而类ChatGPT技术为用户阅读文献资源的方式带来新的可能,即从平面化的阅读拓展到立体式内容透视。用户输入待读文献资源,智能技术自动实现知识抽取、关系揭示,通过可视化方式进行展现,支持多维度的统计分析,并以交互式的方式应答用户的问题和设定,形成用户与人工智能协同阅读的新模式。 3.5 改变文献情报队伍的能力要求,从基本信息技能到创新性文献服务的组织实施 人工智能对传统文献情报工作的冲击是显著的。文献情报的主要工作,如文献编目、参考咨询、系统开发、快报编辑、论文推荐、情报研究、专报撰写,都会在不同程度上受到人工智能技术的影响。 相关研究[22]认为一些由纯人工重复性任务构成的职位将会消失,且人为干预或决策几乎不能增加价值的流程都有可能被纳入自动化的考虑范围。即一部分“重复性高、创新性不强”的工作或将被人工智能优化或替代。仅仅掌握基本的信息技能可能不足以支持文献情报的岗位需求。文献情报队伍的能力要求,不能仅仅是基本的信息技能,而应当是创新性文献服务的组织实施。人工智能环境下,文献情报机构如何设置符合时代需求的岗位体系,拓展新的业务方向,是一个需要重点关注的问题。 3.6 改变文献情报工作的工作重点,情报内容甄别将成为必须高度关注的问题 随着类ChatGPT内容生成技术的广泛应用,生成一段逻辑清晰、结构合理但不符合事实的内容,将变得非常简单。Gartner预测,随着AIGC技术的不断应用,到2025年,人工智能自动生成的信息内容占比将由现在的不足1%,上升到10%[23]。 文献情报机构需要面向管理决策人员提供重大任务战略咨询,面向学科发展规划人员提供学科态势分析,面向一线科研人员提供高价值创新科学研究,这需要调研大量的数据资料,在这一过程中必须保证情报数据的真实可靠。基于AIGC技术生成的虚假信息开展情报研究必然会带来重大决策失误,造成严重后果。因此文献情报工作需要高度关注情报内容的真实性,将情报内容甄别作为一项重要的任务部署。 04 对文献情报领域的建议 如前所述,ChatGPT能够对文献情报工作的方法和模式产生重要影响,但以ChatGPT为代表的人工智能技术并不可能完全取代文献情报工作。文献情报工作要在AI时代找到自己不同于他人的价值取向。 ChatGPT重在内容生成,而文献情报工作则重在循证。ChatGPT主要解决自然语言处理中内容生成的问题:根据用户的要求,生成一段其所需的文本内容。但文献情报工作的重点并不在此,我们的机会在于有效支撑决策循证,挖掘可信的情报证据,构建决策所需的情报证据链,进而为各类决策场景提供坚实的情报证据支持。 针对ChatGPT等技术对文献情报工作的冲击,笔者提出人工智能时代文献情报领域发展的九条建议。 4.1 将从科技文献内容中挖掘和利用知识的能力作为文献情报工作的核心能力来建设 尽管文献情报的工作有多个类型,如信息组织、信息检索、情报研究、学科服务、科研评估评价、学术交流等,但总体上看,文献情报工作的核心是从科技文献内容中挖掘和利用知识,实现从数据到信息、从信息到情报、从情报到解决方案的转化。 人工智能的进步充分表明,当前从科技文献内容中挖掘和利用知识的能力已经大幅提升,我们不能站在原地不动。文献情报领域必须充分研究和应用现代人工智能技术,把提升从科技文献内容中挖掘和利用知识的能力作为文献情报工作的核心能力来建设。 4.2 充分认识到文献情报机构在AI时代的优势和价值 ChatGPT的成功再次表明,语料是人工智能获取知识的源泉,高价值语料工作是一切人工智能的基础。文献情报行业是对文献资源及其内容进行知识组织、管理、分析和应用的行业。文献情报领域应当充分认识自己在AI时代的优势和价值:富含人类知识的科技文献资源(也可说是人工智能语料)的组织和管理者。 文献情报领域应当积极发挥自身拥有丰富数据资源的优势,有效利用知识组织管理的专长。凭借知识组织体系、编目数据、人工标引等数据构建较为成熟的结构化语料库,支持科技文献的挖掘,提高知识获取的能力,为各领域的知识应用需求提供相应的知识解决方案。 4.3 大力加强人工智能新技术方法的研究和应用 BERT、ChatGPT等人工智能新技术方法突破,表明一代代的AI技术还在突飞猛进,文献情报领域不能浅尝辄止。 文献情报领域要坚信人工智能的“复利效应”,坚持一步步提升文献情报领域的人工智能技术能力,实现从量变到质变;要充分加强人工智能新技术方法的研究和应用,例如借鉴ChatGPT这种基于自监督学习的大模型结合基于少量优质数据反馈的强化学习技术,形成模型和数据的闭环反馈,获得进一步技术突破的研发思路,不断提高从文献和数据中获取知识的技术能力。 4.4 积极参与“专业和垂直”知识系统建设 ChatGPT开启了一个新模式,带来了强大的综合性问答系统,而针对特定的领域,在更加深入的专业化知识内容获取、挖掘、分析、利用方面,还存在很多可以开拓的空间。 文献情报机构要抓住机会,充分利用自身在专业领域内的资源和知识优势,积极参与“专业和垂直”知识系统建设。针对特定的学科领域,组织优质的学术文献资源,开发专业化的人工智能应用,满足专业化的知识服务需求。 4.5 努力创新文献情报领域的知识服务模式 ChatGPT让我们看到检索和问答已经相互交融,这对传统的信息检索模式造成了极大的冲击,也为检索范式的变革带来了新的机遇,文献情报不能仅仅停留在检索之上,还需要充分利用新思路、新技术、新模式、新方法,以支持知识服务应用。例如,面向知识获取场景的问答式知识检索,面向阅读辅助场景的科技文献集的自动综述等。 4.6 充分利用好ChatGPT的启发创意能力 ChatGPT能够按照用户需求,生成用户所需的文本内容,具有一定的启发创意能力。在文献情报工作中,可以利用ChatGPT这种生成式、启发性的对话机制,来启发创意,寻求新的视角、新的思路、新的方向和新的方案。 需要注意的是,目前ChatGPT生成的内容尚缺乏真实性和专业性的控制。其所给出的答案,需要专家认真把关。 4.7 要建立情报的溯源和真实可靠性检测机制 当很多“情报”可以由ChatGPT自动生成之后,情报的溯源和真实可靠性检测将变得更加重要。文献情报领域需要从管理机制上重视和加强情报的溯源和真实可靠性检测,建立情报的溯源和真实可靠性检测机制,构建完善的数据循证体系。具体而言,文献情报机构应当加强对原始内容的真实性检测,注重对情报来源的可靠性审核并对其进行分级,基于权威的信息(如国际组织的书面材料、科学界公认的科学期刊、官方媒体等)进行情报工作,并构建情报加工的证据链,以达到对风险的有效管控和对情报的溯源。 4.8 推动数据资源、基础设施、智能技术等方面的一体化能力建设 ChatGPT这样真正实现应用的AI产品,是软硬件以及各种技术方法有效集成的结果。文献情报领域的智能服务系统建设,要汲取ChatGPT的集成创新经验,要统筹数据资源积累、基础设施建设、智能技术研发等方面,从而实现软件、硬件、技术、方法和语料等多方面的融合集成。从多个方面小的量变,实现整体质的飞跃。 4.9 为人工智能的发展贡献文献情报领域的智慧和方案 在AI时代,文献情报领域不能仅仅是人工智能技术的使用者(受益者),也应当是人工智能技术的贡献者。文献情报工作组织和管理着大量的文献数据资源,具有将无序的信息转化为语义化、结构化知识的特征,这使文献情报工作能够在人工智能时代充分发挥其特点和优势。文献情报领域应当充分掌握和利用先进技术方法,挖掘其拥有的大数据资源,贡献数据智能,为这一时代贡献属于文献情报领域的智慧和解决方案。 05 结语 文献情报需要自我革新,拥抱新技术与新机会。类ChatGPT的人工智能技术产品,作为一种工具,它本身不会打败人。但是它肯定会带来:会使用这种工具的人打败那些不会使用这种工具的人。 我们认为,在人工智能时代,文献情报工作依然有非常重要的价值和意义,但新技术带来改变已是大势所趋,必然会带来文献情报服务方式、方法、模式的变革。在此背景之下,文献情报领域需要守正创新,图书情报研究必须把握机遇,积极应用ChatGPT等新技术助力科学研究和科技情报挖掘,利用AI技术促进情报智能,同时积极参与到人工智能领域建设中来,为人工智能的发展贡献文献情报领域的智慧和方案。 作者贡献声明 张智雄:论文选题,提出论文整体思路框架,撰写和修改论文,最终版本修订; 于改红,张梦婷:文献调研,部分论文内容撰写; 刘熠,林歆:文献调研,参与部分论文撰写; 钱力:参与论文修改。 利益冲突声明 所有作者声明不存在利益冲突关系。 参考文献 View Option [1] OpenAI. ChatGPT: Optimizing Language Models for Dialogue[EB/OL]. [2022-11-30]. https://openai.com/blog/chatgpt/. [2] Zhuo T Y, Huang Y, Chen C, et al. Exploring AI Ethics of ChatGPT: A Diagnostic Analysis[OL]. arXiv Preprint, arXiv:2301.12867. [3] Tamkin A, Brundage M, Clark J, et al. Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models[OL]. arXiv Preprint, arXiv:2102.02503. [6] 张智雄等. ChatGPT对科学研究和文献情报工作的影响[R]. 北京:文献情报中心, 国家科技文献图书中心, 2023. [7] James V. ChatGPT is 80% Effective at Identifying Alzheimer’s Disease, Study Shows[EB/OL]. [2022-12-27]. https://interestingengineering.com/innovation/chatgpts-ai-alzheimers-disease-diagnosis. [8] Agbavor F, Liang H. Predicting Dementia from Spontaneous Speech Using Large Language Models[J]. PLOS Digital Health, 2022, 1(12): e0000168. [10] Dominik S, Martin B, Carol H, et al. An Analysis of the Automatic Bug Fixing Performance of ChatGPT[OL]. arXiv Preprint, arXiv: 2301.08653. [11] Miao F, Holmes W, Huang R, et al. AI and Education: A Guidance for Policymakers[M]. UNESCO Publishing, 2021. [12] Goodfellow I, Bengio Y, Courville A. Deep Learning[M]. MIT Press, 2016. [13] Elman J L. Finding Structure in Time[J]. Cognitive Science, 1990, 14(2):179-211. [14] Hochreiter S, Schmidhuber J. Long Short-term Memory[J]. Neural Computation, 1997, 9(8): 1735-1780. [15] Radford A, Narasimhan K, Salimans T, et al. Improving Language Understanding by Generative Pre-training[EB/OL]. [2018-06-11]. https://openai.com/research/language-unsupervised. [16] Brown T B, Mann B, Ryder N, et al. Language Models Are Few-shot Learners[OL]. arXiv Preprint, arXiv:2005.14165. [17] OpenAI. Aligning Language Models to Follow Instructions[EB/OL]. [2022-01-27]. https://openai.com/blog/instruction-following/. [18] Ouyang L, Wu J, Jiang X, et al. Training Language Models to Follow Instructions with Human Feedback[OL]. arXiv Preprint, arXiv:2203.02155. [19] Kaplan J, McCandlish S, Henighan T, et al. Scaling Laws for Neural Language Models[OL]. arXiv Preprint, arXiv:2001.08361. [20] Hoffmann J, Borgeaud S, Mensch A, et al. Training Compute-Optimal Large Language Models[OL]. arXiv Preprint, arXiv:2203.15556. [21] Schulman J, Wolski F, Dhariwal P, et al. Proximal Policy Optimization Algorithms[OL]. arXiv Preprint, arXiv: 1707.06347. [22] MIT Technology Review . Asia’s AI Agenda: AI and Human Capital[R]. Massachusetts: MIT Technology Review Insights, 2019. [23] Gartner. Gartner Identifies the Top Strategic Technology Trends for 2022[EB/OL]. [2021-10-18]. https://www.gartner.com/en/newsroom/press-releases/2021-10-18-gartner-identifies-the-top-strategic-technology-trends-for-2022. 中国科学院文献情报中心立足中国科学院、面向全国,主要为自然科学、前沿交叉科学和高技术领域的科技自主创新提供文献信息保障、战略情报研究服务、公共信息服务平台支撑和科学交流与传播服务,同时通过国家科技文献平台和开展共建共享为国家创新体系其他领域的科研机构提供信息服务。 |
|Archiver|手机版|小黑屋|雄启汇|雄启识慧云上智库:您身边的行业研究顾问
( 黑ICP备2023000012号-1 )|网站地图
GMT+8, 2025-5-4 14:46 , Processed in 1.544799 second(s), 27 queries .
Powered by Discuz! X3.5
© 2001-2025 Discuz! Team.