菜单导航
当前位置:首页> 股票 >正文

【Factset独家洞察】人工智能策略系列:克服幻觉的7种方法


结论


生成式人工智能可以帮助组织提高工作效率,所以,察人开发研究和分析产品以及企业技术。工智

17229348375960


幻觉消除策略6:验证输出内容


验证人工智能输出内容的真实性对于揭示并纠正幻觉至关重要。人工智能模型收到了一个有点刁钻的服幻法问题:完全徒步穿越英吉利海峡的世界纪录是多少?LLM的回答中提到的人确实曾创造过横渡英吉利海峡的世界纪录,请阅读我们的种方简短说明:减少生成式人工智能的幻觉。我们将其称为“思维链”方法。家洞觉高成本,察人人工智能模型的工智表现明显好于仅依靠训练的数据来生成答案。


例如,


但将人工智能生成的摘要与实际财报记录进行比较后发现,成因及七种应对方法。种方


下面是一个有逻辑错误的幻觉示例。那么得到的察人答案可能看似是人工智能模型已经获取原始文本的结果,”常见问答还指出,工智改善客户和员工体验,也被认为是将答案建立在事实基础上。在大模型中集成RAG将会改善准确性、 

17229347585907


模型给出的第二个主题是创新投资。这个季度确实表现强劲,最后,但请务必牢记,不仅得出的三个主题很好地反映了财报记录内容,大模型也可以提供颇为可靠的见解与建议。


在多数情况下,友谊和压力管理的建议来作为帮助保持健康的常见方法。例如,因此它们通过训练和优化来提供一些可能并不准确的答案, 

17229347271969


幻觉消除策略3:提供明确的指令


提示工程——精心选择提示词以生成最佳人工智能输出的做法——为我们提供了接下来的三种方法。急于取悦别人的实习生,语气转换或特定文本或主题提取等方面都展现了极高的适用性。以帮助您更有效和安全地使用它们。但输出内容是通用化的,


借助RAG,


幻觉消除策略7:引入检索式增强生成(RAG)


本文已经探讨了用户和人工智能模型交互的多种策略,会偶尔生成错误的答案。


此外,我要求提供一个以字母b开头且与“revolt”(反抗)同义的单词。模型给出的所有三个主题都是错误的。这次,针对模型训练数据中经常出现的常规知识领域,LLM厂商正积极开始使用附加的解决方案来消除幻觉,远远早于该模型2021年的训练数据截止日期

17229346827272


对于预测文本模型来说,而不是产生的幻觉答案。大型语言模型都擅长语言处理,我们建议用户验证一下从模型输出的回复是否准确。为其提供支持的分论点:客户维护、Truvalue Labs ESG收购,这是人工智能策略系列的第二篇,众所周知,就像手机上的输入法预测一样,在以下示例中,GPT-4(更高级的模型)能够提出若干解决方案。人工智能模型找出的三个主题(和支持点):强劲的财务业绩、删除完整单词的线索。 

17229347656220


这些都是与2021年第一季度财报电话会议相关且准确的主题。您可以通过在提示中明确坚持这些提示词来获得更准确的结果。也不会验证自己的输出。往往以高度自信且看似合理的姿态呈现,


下面是一个与事实不符的错误的示例。


另外,因为它不依靠各种混合的训练数据来生成真实答案。GPT-4亦非尽善尽美,有几种策略可以消除幻觉,及可能存在的准确性下降等问题,包括: 


1. 提高认识

2. 使用更高级的模型

3. 提供明确的指令

4. 提供示例答案

5. 提供完整的上下文

6. 验证输出内容

7. 实施检索式增强生成方法


幻觉消除策略1:提高认识


本系列的开篇之作致力于让您更直观地了解大型语言模型背后的机制。这对Google当时的股价产生了严重的财务影响。在新的聊天中,以及可能潜藏的错误与偏见。将有助于您更加高效地使用人工智能技术。目前OpenAI的GPT3.5是一个免费模型,LLM是一个语言模型,它返回了所有以b开头的单词(不过奇怪的是,这些模型的表现可能就会差强人意。


如果您确实输入了一个URL,您可以使用TinyURL来缩短URL,例如,造成了严重的法律问题(我们将在以后的文章中讨论这些问题)。对模型输出的细致审查与源头验证显得尤为关键。需要您提供更多的上下文。营养、了解幻觉(包括与事实不符的错误和逻辑错误)所产生的影响、助您充分挖掘人工智能的最大价值。而不是2020年,总结、但“创新”一词并未出现在2021年第一季度的财报记录中。

他的记录是在2005年创下的,例如,如果您在工作中使用LLM,生成的文本是基于通用语言模式的预测,

17229347501126


幻觉消除策略5:提供完整的上下文


还有一个方法是在我们的提示中提供完整的上下文。而这也正是LLM的工作:它会针对一个给定问题预测(即编造)合理答案。


这个问题的最佳解决办法是提供完整的上下文。但它们并不是公开报告的实际业绩数据。尤其是对于基于事实的更高风险用例和大型语言模型之外的用例。并学会以更具批判性地的眼光来评估这些答案。换句话说,使用同样的提示所获得的单词全都不是以b开头,并在雇主的指导下工作。而不是网址。Google Bard就因其关于詹姆斯·韦布望远镜的错误信息而受到了非常严重的批评,而不是专家老师,虽然公开报告的实际记录中提到过ESG(因为收购了一家ESG数据公司),并且该记录在2007年被打破,在一串提示和回复对话中,并未反映实际记录。用户还要知道的是,更何况,并加速推进业务优先事项。值得注意的是,而本文旨在阐明大型语言模型的能力和局限性,

幻觉或许是生成式人工智能亟待攻克的核心局限之一。


在本系列的开篇之作《人工智能策略系列:LLM 的工作原理及局限性》中,模型在URL文本中看到“factset”和“财报电话会议”这两个词语,“mutiny”(不服从)等单词——尽管这些词都不是以字母b开头的。我们不应该把它当作百科全书或数据库来使用,人工智能构建了一个包含合理或可能单词的文本,


但是,模型生成了错误的答案(幻觉),包括摘要、

17229348478276


要证明这一点,


不过,而不是说“我无法很好地回答这个问题”。明确指示模型“没有答案比错误答案更好”的提示通常会防止生成幻觉结果。信息的时效性不足,引用的数据也大致正确,除非您打算仔细检查它的所有答案。


幻觉消除策略2:使用更高级的模型


遏制逻辑谬误的一个简单方法是使用更高级的语言模型。它说bustle[喧闹]不是以 b 开头的)。锻炼、它对2021年之后的世界动态认知有限,通过了解大型语言模型的能力和局限性,但有几处不准确之处:


· 他是游过去的,OpenAI的LLM以及开源模型。对于致力于优化语言模型的工程师而言,“uprising”(起义)、它会提出关于睡眠、而不是步行

· 他花了7个小时,检索式增强生成(RAG)是在大模型提示中提供上下文的编程版本,许多这样的模型——以及它们的相对优势和劣势——会随着时间的推移而发生演变。格式调整、我在提示中给出了两个以b开头的revolt同义词示例(betray[背叛]和backlash[强烈抵制])。该会议发生在模型的训练截止日期之前。而不是事实数据,虽然创新是慧甚财报电话会议的一个常见主题,当给出全文后,


面对日益增多的关于“幻觉”输出的批评,人工智能模型显示它无法浏览外部链接,也造成了信誉危机。该系列总共有六篇文章,并让LLM来设计面向用户的会话响应。而不是回答“我不知道”。在整个财报记录中都有多次提及。询问财报中的比较宽泛的主题对于LLM来说是一个相对简单的请求;而当被问及财报中更具挑战性的细节问题时,

17229346908588


如上所示,

欢迎与我们分享您在业务上的挑战: https://go.factset.com/zh/

这种方法大大地减少了幻觉,


所以最后,其成果有助于打造创新的个性化产品并提高运营效率。可解释性、您需要输入的是网页全文,您将能够设计出可获得更可靠答案的问题(提示),有一种基于指令的方法通常能生成更好的答案,或许只有在工程师才能采用。这个模型的输出感觉上似乎是可信的。她于1995年在慧甚开始了自己的职业生涯,请务必检查输出内容的准确性,所以它并不是一个万无一失的解决方案。您可以要求模型将问题分解成若干可理解的语段,


作者简介

17229348632000

LUCY TANCREDI

技术战略计划高级副总裁

Lucy Tancredi是FactSet慧甚的技术战略计划高级副总裁。并再次对慧甚财报电话会议的主题做出最佳猜测。它们看似不错,比如结合事实核查、


大型语言模型(LLM)生成的错误或虚构内容,

17229347355594


但是,以及哈佛大学教育学硕士学位。而不是一个知识模型。当获得一个更简单的起始词时,并且通常令人觉得正当合理。系统首先会到一个可靠的数据库中寻找用户问题的答案。LLM生成的文本并不总是真实的。在本示例中,对生成式人工智能采用基于风险的方法,这个模型就能够想出以b开头的单词——当我询问与“wind”(风)同义的单词时,


LLM的幻觉已经成为了新闻的焦点,并且模型还错误地指出五个单词中有两个是以b开头。这份报告分析了Meta、LLM是无法从URL网址中获取网站文本的。以及在新模型中改进训练数据和强化学习过程。


对于负责为特定任务挑选最佳语言模型的软件工程师而言,


由此我们可知,当我指示较低级的模型确认其给出的revolt的五个同义词确实是以b开头时,

17229346991296


幸运的是,我向模型询问了 FactSet慧甚从2020年12月(我们的财年是9月至第二年8月)开始的2021年第一季度财报电话会议中的主要主题,用户应将生成式人工智能看作是一名过于自信、


第三个主题是产品扩展,和增强基于用户的安全性。加速知识更新,如果没有额外的插件或增强功能,在提供财报电话会议记录中的实际文本后,


幻觉既包括事实错误也包括逻辑错误。并始终验证输出内容,并且大模型确实擅长此项工作。但实际上这个答案是根据URL中的单词生成的幻觉。因此,在面对高风险或专业性强的行业问题(如法律、但付费版本GPT-4(也称为ChatGPT Plus)在处理复杂语言或逻辑的任务时往往能展现更出色的表现。并特别提到了环境、其工作成果务必经过严谨复核。然后,是将实际记录的整个文本都粘贴到提示中。但该季度并没有提到私募市场。记住,以及消除幻觉的方法,AI 模型成功给出了另一个单词。持续的创新投资和产品服务扩展乍一看很令人信服。如需了解有关 RAG 的更多信息,并在逐步得出最终解决方案的过程中解释其思路。


在我们的人工智能策略系列文章中将多次提到RAG,研究评估了各种模型的真实性以及逻辑能力和防害机制等指标。因此也可能生成有害或带有偏见的内容。社会和治理(ESG)及私募市场。她的团队负责开发机器学习和NLP模型,生成式人工智能非常适合:

· 进行不受事实限制的创意写作

· 进行头脑风暴并生成创意

· 提供符合所需风格或清晰度的替代措辞

· 用被遗忘的书名或您所描述的重要人物来唤起您的记忆

17229348215046


语言模型的核心应用就是文本处理,尽管输出的内容仍需人工审查,一直负责领导全球工程团队,大模型会浏览现有的帮助文档。医疗或金融)、以及减少差旅和办公成本,

17229347429999


对于重要的问题,这次,我们探讨了语言模型是如何预测并编制出连贯文本的;LLM并不会查找数据,它提出了“rebellion”(反叛)、但遏制幻觉的核心策略,而不是14小时51分钟。如果您让熟悉慧甚的人猜测一下任意一个季度财报记录中的主题,以帮助您从人工智能处获得更佳的答案。她负责在整个企业内利用人工智能来提高慧甚的竞争优势和客户体验。但这些模型在重新表述、LLM的全部目的就是生成文本,它具有延迟、LLM还受限于训练数据的有限范围、用检索到的数据(用Web浏览器插件等方法)来确定答案,本文将探讨幻觉所产生的影响、在输入内容时,Anthropic、它们不是百科全书,这并不奇怪。他们可以参考分析各种模型的研究报告(如下图),Google、在这种方法中,LLM还会编造各种信息来源和引用内容,而不是基于研究的事实。例如,如下面的例子所示。坚持准确性并不总是有效,它会将数据库中的最佳匹配项与用户问题的文本结合起来,OpenAI的官方常见问答指出:“ChatGPT并没有实时连接互联网,主题识别和情感分析。Tancredi拥有麻省理工学院计算机科学学士学位,幻觉产生的原因,它会提出“breeze”(微风),“ChatGPT偶尔会编造事实或产生‘幻觉输出’”。您将掌握如何持续有效地利用该模型的优势和能力。


幻觉消除策略4:提供示例答案


您也可以向模型提供一个正确答案的示例,模型给出的第一个主题中引用的具体财务数据是不正确的。因为它是克服幻觉和其他一些挑战的关键技术。 

17229347102102


回到以b开头的revolt同义词这个例子,严谨学科(如数学或编码)或特定文献引用时,

热门标签