最顶尖的谎言语模子东说念主才,只见谅这10个挑战
开首:硅兔竞走(ID:sv_race)大发云是什么彩票,作家:林檎
编者按:本文探讨了谎言语模子(LLM)斟酌中的十大挑战,作家是Chip Huyen,她毕业于斯坦福大学,现为Claypot AI —— 一个及时机器学习平台的首创东说念主,此前在英伟达、Snorkel AI、Netflix、Primer公司建设机器学习器具。
我正目击一个前所未有的近况:全天下如斯宽广的顶尖头脑,如今王人进入到“使话语模子(LLMs)变得更好”这个大一统的方针中。
在与许多工业界及学术界同仁交谈之后,我试着归来出十个正在蓬勃滋长的主要斟酌场地:
1. 减少和忖度幻觉(编者按:hallucinations,AI的幻觉,即 AI 输出中不正确或不测旨的部分,尽管这类输出在句法上是合理的)
2. 优化高下文长度和高下文构建
3. 融入其他数据模态
4. 提高LLMs的速率和裁汰本钱
5. 联想新的模子架构
6. 建设GPU替代决策
7. 提高agent的可用性
8. 校阅从东说念主类偏好中学习的才调
9. 提高聊天界面的效能
10. 为非英语话语构建LLMs
其中,前两个场地,即减少“幻觉”和“高下体裁习”,可能是当下最火的场地。而我个东说念主对第3项(多模态)、第5项(新架构)和第6项(GPU替代决策)最感兴致。
01 减少和忖度幻觉
它是指当AI模子虚构伪善现及时发生的风物。
对于许多需要创造性的场景,幻觉是一种难以狡饰的特色。然则,对于大多数其他应用场景,它是一个劣势。
最近我参加了一个对于LLM的盘考小组,与Dropbox、Langchain、Elastics和Anthropic等公司的东说念主员进行了谈判,他们以为,企业大规模接受LLM进行买卖坐褥,最大的隔绝便是幻觉问题。
缩小幻觉风物并建设忖度幻觉的规画,是一个蓬勃发展的斟酌课题,许多初创公司王人专注于处置这个问题。
咫尺也有一些临时的措施不错减少幻觉,比如为指示添加更多的高下文、念念维链、自洽性,或者条件模子的输出保捏简略。
以下是不错参考的联系演讲
·Survey of Hallucination in Natural Language Generation (Ji et al., 2022)
·How Language Model Hallucinations Can Snowball (Zhang et al., 2023)
·A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity (Bang et al., 2023)
·Contrastive Learning Reduces Hallucination in Conversations (Sun et al., 2022)
·Self-Consistency Improves Chain of Thought Reasoning in Language Models (Wang et al., 2022)
·SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models (Manakul et al., 2023)
大发中彩系统的彩票平台02优化高下文长度和高下文构建
AI靠近的绝大多数问题王人需要高下文。
举例,若是咱们问ChatGPT:“哪家越南餐厅最佳?”,所需高下文可能是“在那边”,因为越南最佳的餐厅和好意思国最佳的越南餐厅可能不同。
凭证《SituatedQA》(Zhang&Choi,2021)这篇敬爱的论文,相当大比例的信息寻求问题王人有依赖于高下文的谜底,举例,NQ-Open数据荟萃就有约占16.5%的问题是这一类问题。
我个东说念主以为,对于企业应用场景来说,这个比例还可能更高。假定一家公司为客户构建了一个聊天机器东说念主,要让这个机器东说念主轻率回答任何产物的任何客户问题,那么所需高下文,可能是客户的历史记载或该产物的信息。
因为模子是从提供给它的高下文中“学习”的,这个经过也被称为高下体裁习。

对于检索增强生成(RAG,亦然LLM行业应用场地的主要措施),高下文长度尤为首要。
RAG不错通俗分为两个阶段:
第一阶段:分块(也称为索引)
收罗扫数要供LLM使用的文档,将这些文档分红不错输入LLM以生成镶嵌的块,并将这些镶嵌存储在向量数据库中。
第二阶段:查询
当用户发送查询,如“我的保障战术是否不错支付这种药物X”,LLM将此查询革新为镶嵌,咱们称之为查询镶嵌,向量数据库会获取与查询镶嵌最相似的块。
图:来自Jerry Liu对于LlamaIndex(2023)的演讲截图
高下文长度越长,咱们就不错在高下文中插入更多块。但是,模子不错探访的信息越多,它的报酬就会越好吗?
并不老是这么。模子不错使用若干高下文以及该模子将若何高效地使用,是两个不同的问题。与加多模子高下文长度不异首要的,是对高下文更高效的学习,后者也被称之为“指示工程”。
最近一篇广为流传的论文,便是对于模子从索引的滥觞和扫尾比从中间进行信息领略发扬要好得多:Lost in the Middle: How Language Models Use Long Contexts (Liu et al., 2023).
03融入其他数据模态
在我看来,多模态是如斯遒劲,却又经常被低估。
率先,许多现实的应用场景就需要处理多量多模态数据,如医疗保健、机器东说念主时候、电子商务、零卖、游戏、文娱等。医学瞻望需要同期使用文本(如医师的札记、患者的问卷)和图像(如CT、X射线、MRI扫描);产物数据往往包含图像、视频、描画,甚而是表格数据(如坐褥日历、分量、花式)。
其次,多模态应许能为模子性能带来浩大种植。一个既能领略文本又能领略图像的模子,难说念不会比仅能领略文本的模子发扬更好吗?基于文本的模子需要多量的文本数据,当今咱们照竟然驰念用于磨练基于文本模子的互联网数据会被耗尽。一朝文本用尽,咱们就需要哄骗其他数据模态。
最近有一个应用场地让我感到格外欣忭,那便是,多模态时候不错匡助视障东说念主士浏览互联网和导航现实天下。
以下为几项凸起的多模态斟酌进展:
·[CLIP] Learning Transferable Visual Models From Natural Language Supervision (OpenAI, 2021)
·Flamingo: a Visual Language Model for Few-Shot Learning (DeepMind, 2022)
·BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models (Salesforce, 2023)
·KOSMOS-1: Language Is Not All You Need: Aligning Perception with Language Models (Microsoft, 2023)
·PaLM-E: An embodied multimodal language model (Google, 2023)
·LLaVA: Visual Instruction Tuning (Liu et al., 2023)
·NeVA: NeMo Vision and Language Assistant (NVIDIA,乐8大发彩票 2023)
04提高LLMs的速率和裁汰本钱
GPT-3.5于2022年11月末初次推出的时候,许多东说念主对在坐褥中使用该模子的延长和本钱暗示担忧。
如今,GPT-3.5使用变成的延长/本钱分析又有了新的变化。在半年内,扫数这个词模子社区找到了一种新措施,轻率创建一个在性能方面险些接近GPT-3.5、但其内存占用不到前者2%的模子。
由此,我的一个不雅点是:若是你创造出实足优秀的东西,其他东说念主会想尽观念使其变得快速且经济高效。
以下是凭证Guanaco论文中诠释的数据,该数据对比了Guanaco 7B与ChatGPT GPT-3.5和GPT-4的性能。
需要谨防的是,总体而言,这些模子性能王人还远非竣工。对LLM来说,大幅地种植性能依然绝顶贫穷。
谨记四年前,当我运行入辖下手撰写《联想机器学习系统》一书中“模子压缩”部分的札记时,业内主要有四种模子优化/压缩时候:
1.量化:迄今限制最通用的模子优化措施。量化通过使用较少的bits来暗示模子的参数来减小模子的大小,举例,不再使用32位来暗示浮点数,而只使用16位,甚而4位。

2.学问蒸馏:即磨练出一个小模子(学生模子),它轻率效法一个更大的模子或模子聚集(磨真金不怕火模子)。
3.低秩阐述:它的要津念念想是使用低维张量来替代高维张量,以减少参数的数目。举例,不错将一个3x3的张量阐述为一个3x1的张量和一个1x3的张量的乘积,从而不再有9个参数,而唯一6个参数。
4.剪枝:指通以前除模子中对合座性能孝敬较小的权重或流畅来减小模子的大小。
这四种时候于今仍然流行。Alpaca是通过学问蒸馏进行磨练的,QLoRA则接受了低秩阐述和量化的组合方式。
05联想新的模子架构
自2012年的AlexNet以来,咱们还是看到许多架构潮起又潮落,包括LSTM、seq2seq等。
与这些架构比较,问世于2017年的Transformer畸形巩固,固然咫尺尚不明晰这个架构还会流行多久。
要建设一种轻率胜过Transformer的新架构并隔绝易。在以前的6年中,Transformer还是经过了多量的优化,在适应的硬件上,这个模子的规模和恶果不错达到让东说念主歌唱的出色恶果(PS:Transformer最早是由Google联想成在TPU上快速运行的,其后才在GPU上进行了优化)。
2021年,Chris Ré实验室的斟酌“Efficiently Modeling Long Sequences with Structured State Spaces” (Gu et al., 2021),在行业内激发了多量盘考。我不太细则其后发生了什么。但Chris Ré实验室仍在积极建设新架构,他们最近与初创公司Together联接推出了名为Monarch Mixer的架构。
他们的主要念念想是,对于现存的Transformer架构,谨防力的复杂度与序列长度的渊博成正比,MLP的复杂度与模子维度的渊博成正比。具有次二次复杂度的架构将愈加高效。
我征服许多其他实验室也在探索这个念念路,固然我不知说念是否有任何还是公开尝试过的斟酌。若是您晓得个中进展,迎接联系我!
06建设GPU替代决策
2012年AlexNet问世以来,GPU一直是深度学习的主要硬件。
事实上,AlexNet之是以受迎接,其中一个普遍招供的原因是,它是第一篇见效使用GPU磨练神经蚁集的论文。在GPU之前,若是要磨练一个与AlexNet相当规模的模子,你需要动用千千万万个CPU,就像在AlexNet之前几个月Google发布的那台工作器一样。
与千千万万个CPU比较,几块GPU对于博士生和斟酌东说念主员来说愈加容易得回,激发了深度学习斟酌的荣华。
在以前的十年中,许多公司,岂论是大公司照旧初创公司,王人试图为东说念主工智能创建新的硬件。最值得谨防的尝试包括Google的TPU、Graphcore的IPU以及Cerebras。SambaNova也筹集了特出10亿好意思元来建设新的AI芯片,但似乎已转向成为生成式AI平台。
时代,量子规画也激发了许多期待,其中主要参与者包括:
·IBM的量子处理器
·Google的量子规画机 。 本年早些时候在《当然》杂志上诠释了量子作假裁汰的首要里程碑。它的量虚伪拟机不错通过Google Colab公开探访。
·高校的斟酌实验室,如MIT量子工程中心、马普量子光学斟酌所、芝加哥量子谈判中心等。
另一个不异令东说念主欣忭的场地是光子芯片。这是我了解最少的场地,如有作假,望指正。
现存芯片使用电力传输数据,这耗尽了多量能量,并产生了延长。光子芯片使用光子传输数据,哄骗光的速率进行更快、更高效的规画。在这一领域大发云是什么彩票,各式初创公司已筹集了数亿好意思元,包括Lightmatter(2.7亿好意思元)、Ayar Labs(2.2亿好意思元)、Lightelligence(2亿好意思元以上)和Luminous Computing(1.15亿好意思元)。
以下是光子矩阵规画三种主要措施的进展时期线,摘自Photonic matrix multiplication lights up photonic accelerator and beyond (Zhou et al., Nature 2022).。这三种不同的措施离别是平面光革新(PLC)、马赫-曾德干与仪(MZI)和波分复用(WDM)。
07提高agent的可用性
agent不错视为轻率接受行径的LLMs,举例浏览互联网、发送电子邮件等。与本文中的其他斟酌场地比较,这可能是最年青的场地。
由于其新颖性和浩大后劲,东说念主们对agent产生了极大的兴致。Auto-GPT当今是GitHub上星标数目名挨次25的最受迎接的库。GPT-Engineering亦然另一个受迎接的库。
尽管如斯,东说念主们仍然对LLMs是否实足可靠、性能雅致、具备一定行径才调存在疑虑。
当今有一个敬爱的应用场地,是将agent用于社会斟酌。一项斯坦福实验标明,一小群生成式agent产生了新兴的社会步履:仅从一个用户指定的想法运行,即一个agent想要举办情东说念主节派对,其他一些agent在接下来的两天内自主传播了派对的邀请,巩固了新一又友,相互邀请参加派对...((Generative Agents: Interactive Simulacra of Human Behavior, Park et al., 2023)。
在这一领域,最值得谨防的初创公司可能是Adept,由两位Transformer的合著者(尽管两东说念主王人已离开)和一位前OpenAI副总裁创立,迄今已筹集了近5亿好意思元。客岁,他们展示了其建设的agen若何浏览互联网并在Salesforce上添加新账户。我期待看到他们的新演示
当前网址:http://dmcamping.com/7che0n5/31992.html
tag:大发云是什么彩票,顶尖,言语,模子,念主,见谅
- 发表评论 (136人查看,0条评论)
-
- 最新评论