网页开发和网站开发翻页h5制作软件

张小明 2025/12/31 21:58:25
网页开发和网站开发,翻页h5制作软件,证件照在线制作,做兼职网站赚钱吗InfLLM是一种无需再训练的LLMs长上下文处理方法#xff0c;通过Memory Units和Sliding Window分别建模远距离和局部上下文。它将历史KV Cache分块为memory units#xff0c;选取代表性tokens#xff0c;并设计高效的检索和LRU缓存机制#xff0c;仅加载相关memory units至G…InfLLM是一种无需再训练的LLMs长上下文处理方法通过Memory Units和Sliding Window分别建模远距离和局部上下文。它将历史KV Cache分块为memory units选取代表性tokens并设计高效的检索和LRU缓存机制仅加载相关memory units至GPU显著降低显存占用。这种方法使模型能够处理超长序列同时保持性能且无需昂贵的持续预训练。参考InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context MemoryGithubMotivation ContributionMotivation现有 LLMs 在预训练时受限于最大长度序列当尝试将其应用于更长序列时会面临两大核心问题域外输入问题模型所依赖的位置编码如 [RoPE让大模型更懂位置信息的“旋转密码”]在超出预训练长度时失效导致其无法正确建模 token 间的相对或绝对位置关系从而引发性能急剧下降干扰问题长文本中包含大量与当前任务无关的噪声内容导致注意力分数分散模型可能错误地依赖这些噪声 token而非关键信息常见的解决方案通常需要在更长序列上进行持续预训练但这会引入高昂的计算开销并导致模型能力不可控的变化Contribution提出 infLLM一种 training-free memory-based 方法使用 Memory Units Sliding Window分别建模远距离上下文和局部上下文以处理长文本输入设计高效的 memory unit 检索和缓存机制减少 GPU 显存占用并提高推理效率Methods整体架构图 1InfLLM 示意图如上图所示为 InfLLM 的核心原理示意图。根据与当前 token 的距离可将 Past Key-Value 分为三部分initial Tokens位于输入最开头、具有关键任务语义的固定部分通常包括系统提示、用户指令等这部分会始终保持在每个 Step 的生成过程中确保模型始终“记得”任务目标避免在长生成过程中偏离主题比如用户输入的 prompt请以‘传说两百年前月球背面’ 为开头写一篇 8000 字的科幻小说Local Tokens与当前 token 不含当前相邻若干历史生成的 token 的固定窗口这部分 KV Cache 常驻显存直接参与 attention 计算用于提供局部上下文连贯性比如保持句子语法正确、情节衔接自然比如当前正在生成第 3267 个 tokenLocal Tokens 大小为 2048则 Local Tokens 表示从第 1219 个到第 3266 个的 tokens 的 KV CacheEvicted Tokens位于 Initial 之后Local 之前的历史内容比如本例中的第 1 到第 1218 个 tokens 的 KV CacheInfLLM 将其分块比如每 128 token 一个 chunk组成 Memory Units不常驻显存只有被选中的 Memory Units 的“代表性 tokens”的 KV 向量才会被加载进当前 KV Cache 并参与 attention 计算。整个 chunk 不参与在每个 generate step 中InfLLM 将这三部分进行拼接作为当前 step 的 KV Cache其中 表示 Memory Units 的检索出的代表性的 tokens。因此当前 step 对应的 attention 计算为其中表示当前在处理的 tokens对于编码阶段对输入长序列分块编码current tokens 表示当前分块内的 tokens本文设置为对于生成阶段模型生成结果current tokens 表示当前在生成的 token对应的为投影参数矩阵为 Key-Value 向量Context MemoryMemory Units Representative Tokens先前的研究表明LLMs 的 attention score matrix 具有稀疏性也就是说我们只需要保留少量的 KV vectors 即可生成相同的输出。受此启发我们设计了一种高效的上下文记忆机制。考虑到长序列下的局部语义一致性我们将 past KV Cache 分块比如 128 个 tokens每个 chunk 作为一个 memory unit在每个 memory unit 中通过如下方式选取最具代表性的若干个 tokens 作为该 chunk 的代表即计算该 chunk 中第 个 token 的 key 向量与其后 个 token 的 query 向量的点积表示相似度的均值以表征该 token 的重要性。为何这里是其后的 一般为 Sliding Window 窗口大小个 tokens可能跨 chunks而非同一 chunk 内的其他 tokens原因如下符合 LLMs 的单向性InfLLM 主要用于 decoder-only 模型其解码顺序为从左往右即当前 token 只会影响其后的 tokens影响力总和反映的是语义引导能力第 m 个 token 的语义信息在接下来的一段文本中被多少次关注是否是一个关键概念、主题句或转折点避免“自我中心”偏差在本 chunk 内反复出现的 token不一定是最具代表性的比如 “the”、“and” 等停用词Memory Unit 是在编码阶段encoding动态构建的当输入长序列被分块chunk-by-chunk编码时每处理完一个 chunk就将其 KV Cache 划分为 memory units并选出 representative tokens存入 CPU这是 流式处理streaming 的关键对于每个 memory unit本文选取前 个代表性的 tokens。Units Selection同时由于完整的历史 KV Cache 会占用大量显存因此 InfLLM 首先将其存储于 CPU 内存中。随后在每个 generate step 中进行 memory lookup会计算所有 memory units 与当前 token 的相关性得分仅将 个最相关的 memory units 的代表性 tokens 加载至 GPU 显存参与 attention 计算。其中相关性得分计算方式如下其中表示当前正在处理的 token 序列长度为 编码阶段为 512解码阶段为 1表示第 个当前 token 的 query 向量表示 memory unit B 中第 个代表性 token 的 key 向量Cache ManagementWhy在 Units Selection 步骤中我们需要计算当前 token 与所有 memory units 之间的相关性得分。这就要求存储每个 memory unit 对应的代表性 tokens本节统一用 memory units 指代的 keys。对于超长文本而言对应的显存需求将不能接受。因此我们将历史 KV Cache 存储于 CPU 内存中。同时筛选后的 memory units 需要参与 attention 计算因此需要在 GPU 中保存其对应的 KV Cache。鉴于长序列具有语义连贯性相邻 token 通常依赖类似的 memory units。因此我们采用 off-load 机制在 GPU 显存中保留当前 generate step 所需的关键 memory units。具体通过 LRULeast Recently Used策略进行管理。从结果来看该机制使得 InfLLM 能够仅使用 26G VRAM 处理包含 100K 标记的序列。此外GPU 缓存未命中率非常低因此对应的 CPU 到 GPU 的数据加载开销极小。How to Look Up因此memory units look up 的基本步骤如下遍历 memory units若不存在于 GPU 缓存中则从 CPU 加载对应的 keys 至 GPU在 GPU 上计算相关性得分若存在于 GPU 缓存中则直接在 GPU 上计算相关性得分选择最相关的 个 memory units若不存在于 GPU 缓存中则加载至 GPU并通过 LRU 策略更新缓存将这 个 memory unit 的 KV Cache 与 Initial Tokens 和 Local Tokens 拼接构建 current KV Cache参与 attention 计算How to Update LRU那么如何维护 LRU 缓存呢我们为每个已缓存的 memory unit 维护一个频率得分 用于衡量 memory unit 被访问的频繁程度。其在 attention 计算后通过如下方式更新其中表示 current tokens 长度编码阶段为 512解码阶段为 1表示衰减系数表示对历史访问的“遗忘”本文设置为表示 current tokens 中第 个 token表示该 memory unit 中第 个代表性 token下面是 LRU 更新策略与其他更新策略的效果对比图 4不同缓存管理策略的缺失率wefewPosition Embedding在 InfLLM 中KV Cache 不再连续因此不能直接使用连续的位置编码。为此我们为所有 Evicted Tokens 分配相同的 Position Embedding 。后续实验发现LLMs 可以自行搞清楚相对顺序。这是因为 LLM 是单向的从左往右生成在处理每个 token 时前面的内容已经编码至其 memory 中。Experiments详见原论文。SOTACompare to SOTAComparing to Models with Continual Training长度拓展时的性能变化消融实验​最后我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包✅AI大模型学习路线图✅Agent行业报告✅100集大模型视频教程✅大模型书籍PDF✅DeepSeek教程✅AI产品经理入门资料完整的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】​​为什么说现在普通人就业/升职加薪的首选是AI大模型人工智能技术的爆发式增长正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议到全国两会关于AI产业发展的政策聚焦再到招聘会上排起的长队AI的热度已从技术领域渗透到就业市场的每一个角落。智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200%远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。​​资料包有什么①从入门到精通的全套视频教程⑤⑥包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图还有视频解说全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤ 这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频教程由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌​​​​如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】**​
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

网站营销主管岗位职责成品短视频app下载有哪些

GNU Make标准库实用指南 1. DEBUG设置检查 在编写makefile时,有时需要确保用户将 DEBUG 变量设置为 Y 或 N ,以避免因忘记设置调试选项而产生问题。可以使用GMSL的 assert 函数来实现这一目的。示例代码如下: include gmsl $(call assert,$(call or,$(call seq,…

张小明 2025/12/26 16:33:25 网站建设

成都网站优化师网络架构分为几层

在专注于家居家具的垂直电商领域,Wayfair凭借其庞大的产品目录、供应商集成模式与对大件物流的深度把控,成为观察耐用消费品在线零售、B2B2C平台运营及复杂供应链管理的代表性样本。该平台为研究高客单价、长决策周期品类的电商策略、可视化技术应用及端…

张小明 2025/12/30 10:32:10 网站建设

哪个网站专门做二手电脑手机的天津外贸网站建设

目录具体实现截图项目介绍论文大纲核心代码部分展示项目运行指导结论源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作具体实现截图 本系统(程序源码数据库调试部署讲解)同时还支持java、ThinkPHP、Node.js、Spring B…

张小明 2025/12/26 16:33:27 网站建设

h5模板下载有哪些网站网站做404是什么意思

第一章:Open-AutoGLM 多模态理解能力行业排名Open-AutoGLM 作为新一代开源多模态大模型,在图像-文本联合理解任务中展现出卓越性能,近期在多个权威评测榜单中位列前茅。其核心优势在于深度融合视觉与语言表征,支持跨模态推理、图文…

张小明 2025/12/28 14:48:59 网站建设

网站会员注册怎么做西安好玩的地方排行榜

4步闪电出图:Qwen-Image-Lightning如何颠覆AI创作体验 【免费下载链接】Qwen-Image-Lightning 项目地址: https://ai.gitcode.com/hf_mirrors/lightx2v/Qwen-Image-Lightning 在AI图像生成领域,速度与质量似乎总是一对矛盾体。传统扩散模型需要5…

张小明 2025/12/26 16:33:29 网站建设

金华网站建设策划哈尔滨网站建设制作哪家便宜

如何在手机息屏状态下完美控制Android设备:escrcpy黑科技揭秘 【免费下载链接】escrcpy 优雅而强大的跨平台 Android 设备控制工具,基于 Scrcpy 的 Electron 应用,支持无线连接和多设备管理,让您的电脑成为 Android 的完美伴侣。 项目地址: https://gi…

张小明 2025/12/26 16:33:30 网站建设