网站的建设方式有哪些网站 实名认证

张小明 2025/12/29 7:29:09
网站的建设方式有哪些,网站 实名认证,长沙企业网站建设报价,亚马逊雨林视频本文介绍了AI大语言模型的完整工作流程#xff0c;从文本输入的预处理到最终输出的生成过程。文章系统性地介绍了分词与嵌入、Transformer架构、自注意力机制、位置编码、长文本外推等核心技术概念#xff0c;并结合DeepSeek V3等实际案例进行详细说明。同时#xff0c;本文…本文介绍了AI大语言模型的完整工作流程从文本输入的预处理到最终输出的生成过程。文章系统性地介绍了分词与嵌入、Transformer架构、自注意力机制、位置编码、长文本外推等核心技术概念并结合DeepSeek V3等实际案例进行详细说明。同时本文还提供了丰富的工程实践指导包括上下文优化、耗时控制、多Agent协同等实用策略在 ai 时代也许我们应该先了解大模型是如何解答我们的问题的了解大模型能做什么或者擅长做什么如此才能更好的利用它。本文尽量以非技术的方式来解释 ai 大语言模型的工作原理以及在工程实践中如何更好的使用。01输入从用户提问到模型看得懂的矩阵1.1 输入实际是文本首先我们要知道的是输入给到大语言模型的是一个组合文本称之为上下文包括系统提示词对应你是个智能助手回答时要可爱些这种可用工具列表描述对应Function Call能力历史对话包括之前的问题和回答用户最新提问如下为目前共识的OpenAI API协议输入示例这些都将合并作为大模型调用的一次输入省略了部分工具描述信息仅做理解messages [ {role: system, content: 你是个智能助手回答时要可爱些}, // 系统提示词 {role: user, content: 你好}, // 历史提问 {role: assistant, content: 你好有什么能帮到你呀}, // 历史回答 {role: user, content: 查询下今日天气}, // 最新提问 ] tools [{type:function,function:{name:get_weather,description:Get current weather information}}]敲黑板这部分需要理解的是输入实际是个文本并且每次调用大模型都是独立的能够与用户互动是因为工程上在每次调用时将历史对话加了进去。因此在一轮对话中每次调用时输入的组合文本即上下文会越来越长这点很重要。1.2 文本如何变成数字分词与嵌入理解了输入文本那么文本如何实际转换为大模型计算时需要的矩阵呢这里需要知道的是大模型核心是进行大量的数学运算主要是矩阵乘法这里主要是分词和嵌入两步。分词相当于把文本切碎成更小的单元token。比如中文文本中北京可能被切分为1个token的也是1个token英文单词unhappy可能被拆成un和happy两个token每个符号、数字都会单独处理作为一个token需要注意的是这里分词的规则在不同的大模型里是不一样的有的模型可能一个汉字平均1 token有的可能平均要0.5 token。分词完成后每个token会通过预训练的词汇表映射为对应的数字ID可以理解为token对应在词表中的位置一般大模型对应的词表长度为几万甚至几十万。嵌入嵌入过程则更加精妙。模型通过一个可学习的嵌入矩阵将每个token的数字ID转换为固定维度的向量。比如ID为100的token可能变成一个512维的向量[0.1, -0.3, ..., 0.8]这些向量不仅包含词汇的语义信息还能在数学空间中表示词与词之间的关系举例来说猫和狗对应的向量在这512维空间里更接近或者说更相似。如此输入文本开始先转换为n个token经过嵌入后转换为n个512维的向量合并即为n×512的输入矩阵。敲黑板这部分需要理解的是文本在给到模型计算之前会转换为token序列这里对应token的长度n就是文本中“词”的数量这里n就是最终输入的上下文长度。1.3 上下文长度的限制需要注意的是目前大模型都会对上下文长度有严格限制当给到的上下文长度超过限制大小时会直接报错这里是对应DeepSeek V3开源代码的实现不过大部分工程实践上在累计内容超过上下文窗口时会自动丢弃最早的数据保留最新的内容确保总长度不超过模型的处理能力。敲黑板上下文长度有限制不能无限增加而且需要注意的是这里上下文长度限制是包含输出长度的即理论上最大的输入上下文长度为128k - 4k 124k以DeepSeek-Chat默认为例为什么后面会解释。通过这一系列精密的转换过程人类的自然语言最终变成了模型能够进行数学计算的矩阵形式为后续的理解和生成奠定了基础。02Transformer架构与自注意力机制模型如何“理解”上下文现在我们已经有了一个包含词义的输入矩阵接下来就要进入大模型的核心计算环节——Transformer架构。这个架构的精髓在于自注意力机制它让模型能够真正“理解”文本中各个词语之间的复杂关系。2.1 自注意力模型如何“聚焦”重要信息想象一下你阅读一段文字时大脑会自动关注与当前理解最相关的词语自注意力机制就是让模型实现类似的能力。在实现上每个自注意力模块都包含三个不同的权重矩阵Wq、Wk、Wv对应的值是通过大量训练得到的。Q、K、V矩阵信息的三种角色每个输入token经过与上述三个不同的权重矩阵相乘分别生成三个矩阵QueryQ矩阵代表我想要什么信息用于主动询问其他tokenKeyK矩阵可以理解为该token拥有什么信息用于回应其他token的询问ValueV矩阵可以理解为该token的包含内容信息的多少这三个矩阵可以理解为信息交流的三个角色Q是提问者K是应答者V是实际要传递的内容。有了上述矩阵接下来会对每个token计算它与之前所有token的关联信息。计算注意力分数用当前token的Query和之前所有token的Key内积计算得到对应注意力分数可以理解为当前token与之前token在这个注意力模块下的关联程度。分数越高代表该部分信息越重要。生成加权平均输出最后用上一步得到的注意力分数作为权重分别与之前所有token的Value相乘并求和得到最终的注意力信息注实际计算要复杂些这里不做展开这里可以理解为融合了之前所有序列上下文信息的新的向量。经过上面的计算后得到了每个token与上下文关联的信息这个过程确保了模型的回复是基于整个上下文生成的而不仅仅是孤立的最新问题。敲黑板简单来讲自注意力机制就是将每个token与之前所有token通过计算得到相关信息需要着重理解的是最后一个token的注意力信息包含了整个上下文所有信息。2.2 多头注意力多角度理解文本单一注意力机制可能不够全面因此Transformer采用了多头注意力设计。可以理解为多个相同结构、但不同权重矩阵的自注意力模块共同组成这些模块并行计算并在最终输出时合并。不同注意力头就像不同的“专家”各自关注文本的不同方面所有头的计算结果最终拼接在一起通过线性变换融合成完整的输出。这种设计让模型能够同时从多个角度理解文本大大增强了表达能力。2.3 前馈网络层上面提到了Transformer架构的核心是自注意力模块但又不止于此一个完整的Transformer层主要包括多头自注意力层以及前馈网络层还有别的模块偏技术细节不影响理解这里不做展开。如果说自注意力机制的作用是“聚合信息”——将序列中所有位置的信息通过注意力权重整合到一起那么前馈网络层的作用就是加工和提炼这些聚合后的信息。您可以将其类比于人类的理解过程自注意力层相当于你听取了一场讨论了解了每个人每个词的观点以及它们之间的关联。前馈网络层相当于你回到自己的办公室独自消化和深入思考刚才听到的所有信息形成自己更深刻、更抽象的理解。如此一个 transformer 层结构可以简略表示为下图敲黑板实际上可以简单理解通过注意力机制让模型能够学到利用并关联上下文信息通过前馈网络层让模型能学到特征的进一步提取和转换。2.4 大模型之“大”都说大模型大模型到底大在何处参数量参数量是衡量模型复杂度的核心指标Transformer架构的大模型通常拥有数百亿甚至数千亿参数这么多参数都体现在哪前面介绍了Transformer层包括多头注意力层和前馈网络层在实际我们使用的大模型中都会对这两部分进行优化调整同时通过对Transformer层进行堆叠来增加模型的表现力。以DeepSeek V3为例其注意力层为潜在多头注意力层MLA这个是为了减少缓存的使用不展开介绍头数为128对应有128个自注意力模块前馈网络层包括257个专家包括一个共享专家256个可选专家这里可以理解为257个前馈网络层并行这跟多头很类似区别是这里专家是选择使用的然后这样的Transformer层在DeepSeek V3中有58层还有3层无专家的Transformer层共61层。其中参数量主要由专家组成一共14906个专家每个专家有7168×2048×3 44,040,192个参数一共有6564.6亿个参数算上其他的参数总共是6710亿。当然由于DeepSeek的专家是可选的每次计算只使用256中的8个实际计算使用的参数约为370亿。训练量大模型这么大的参数量每个参数的取值都是通过一次次训练来逐渐调整的训练数据要求非常大。同样以DeepSeek V3为例其预训练阶段就使用了14.8万亿token的数据集进行预训练需要知道的是大模型在训练时每条数据都不会只用来训练1次而是训练多次。03输出从logits到人类语言的“翻译”经过前两章的介绍我们已经知道模型如何将用户提问转换为矩阵输入以及如何通过自注意力机制理解上下文关系。现在模型手中已经有了一个包含丰富语义信息的“隐藏状态矩阵”即上面的输出矩阵可以理解为经过了多层Transformer后对每个token位置都生成了一个包含所有上下文信息的高维向量接下来需要完成最关键的一步将这些抽象的高维向量“翻译”回人类能够理解的自然语言。3.1 线性层从隐藏状态到词汇表映射隐藏状态矩阵中的每个向量都浓缩了对应token的上下文信息但这些向量仍然处于模型内部的表示空间。为了生成人类可读的文字模型需要通过线性层将这些向量映射到词汇表空间。线性层的作用相当于一个翻译官它将每个token对应的高维向量转换为一个长度等于词汇表大小的新向量。如果词汇表包含5万个词那么线性层的输出就是一个5万维的向量每个维度对应词汇表中一个特定词的可能性得分。因为我们输入时n个token所以这里会得到n个向量分别对应该位置下一个词的得分向量在最终输出时使用最后一个。3.2 Softmax将得分转换为概率分布线性层输出的向量包含的是原始得分raw scores这些得分被称为logits。每个logits数组看起来可能像这样[2.1, -0.3, 1.8, …, 0.02]其中每个数值代表对应词汇的倾向程度。然而这些logits还不能直接用于选择输出词汇因为它们的数值范围不确定而且总和不为1。这时就需要Softmax函数登场Softmax的核心作用是将logits转换为标准的概率分布将所有logits值映射到0到1之间确保所有概率值的总和恰好等于1保持数值间的相对大小关系得分高的词概率仍然高经过Softmax处理后原来的logits数组变成了类似[0.15, 0.02, 0.25, …, 0.001]的概率分布每个数值明确表示对应词汇被选中的概率。好的到这里我们的大模型终于能返回一个词了具体输出哪个呢一般是根据上面的概率分布来随机抽取每个位置的值对应输出词表中这个位置的词的概率。需要注意的是一般情况这个概率分布会比较集中即某个词或某几个词的概率很大其他很小。3.3 自回归生成逐词构建完整回答经过上面那么复杂的计算我们发现大模型只输出了一个词那么完整输出对应的后面的词是怎么来的呢。这里大模型生成文本的过程是自回归的这意味着模型不是一次性生成整个回答而是像人类思考一样一个词一个词地逐步构建初始预测基于完整的输入上下文模型预测第一个词的概率分布即上面的过程词选择根据概率分布选择一个词可能是概率最高的词也有可能是概率低的词迭代扩展将已生成的词作为新的输入的一部分预测下一个词重复直到结束持续这个过程直到生成完整的回答或达到长度限制这种“滚雪球”式的生成方式确保了前后文的连贯性每个新词的产生都基于之前所有已生成的内容。敲黑板大模型经过Transformer层提取的特征在经过计算后最终输出的是词表中每个词的概率分布根据相应概率抽取最终输出的词。接下来将生成的词添加到输入后继续上述流程接着预测输出整体上是一个一个token输出。这也是为什么上下文限制要包括输出长度的原因。3.4 生成策略如何从概率中选择词汇对于概率分布模型有多种选择策略一般是按照概率分布进行抽取。在创造性的场景中可能体现为每次的输出结果不同这对诗词创造等比较有用。但在一些场景中我们希望模型输出的结果更可靠、更稳定这里有什么方法吗。目前来说模型一般会提供两个参数来给用户用以调整这在我们平时使用的元宝等平台都会开放给用户修改。对应temperature温度和top-p又称核采样它们协同工作共同决定了模型在“想象力”与“可靠性”之间的平衡。temperature调整模型原始输出的概率分布logits的尖锐或平滑程度通过改变概率分布的形状来控制随机性。可以理解为值小于1时原本概率高的调整后会更高进而更容易被选择等于0时就变成了只选择概率最高的词top-p像一个动态的候选词筛选器从概率最高的词开始累加仅从累积概率达到阈值p的最小候选集合中采样。可以理解为在抽取时只从概率较高的前几个词中抽取在实际应用中可以结合使用场景来调整参数以达到我们期望的性能这里不做展开。注这里在DeepSeek V3的代码中只看到了temperature参数的支持。04位置编码和长文本外推到这里我们已经谈得上大致理解了大模型从输入到输出的基本工作原理不过在介绍中刻意忽略了一个细节斟酌再三还是决定单独介绍这部分因为这个非常重要4.1 位置编码上面我们提到了Transformer架构核心在自注意力机制通过计算每个token和其他token的相关性得分来获取相关信息其中核心计算是token之间的矩阵运算然而这种计算方式丢失了位置信息要知道我咬狗和狗咬我这种相同词组成的短句含义是相差甚远的。因此引入了位置编码的概念将位置信息添加在输入矩阵中一般分为绝对位置编码和相对位置编码。绝对位置编码给每个位置一个唯一身份证Transformer架构原版的实现。核心是通过编码的方式将位置信息添加到每个token的输入向量中缺点是当输入长度超过模型训练长度时模型没见过对应位置编码会导致性能急剧下降。相对位置编码关注的相对距离而不是绝对距离。在计算注意力分数时注入两个词之间的相对距离信息。这里只介绍目前主流方案RoPE旋转位置编码核心思想是将每个token的位置信息转换为对应高维空间的角度信息对应每个位置会对应一个旋转角度在注意力得分计算时会将两个token对应的query和key矩阵进行对应角度的旋转这样在计算注意力得分的结果会与他们的相对距离有关。具体原理这里不介绍了不打职业不用学需要知道的是在编码具体实现上通过设计使得计算注意力时具备远程衰减的特性即距离越长得分越低这个特性使得模型天然能够更关注附近的信息。相比于绝对编码相对编码中模型学到的是相对位置关系即使输入长度超过模型训练长度时模型也能复用训练中学到的相对位置规律。敲黑板核心是通过巧妙的数学编码将相对位置信息加在了自注意力得分的计算上有个很重要的细节是在编码上通过设计使得相对位置越远的token间注意力得分会相对较低。4.2 长文本外推但是即使相对编码比绝对编码在长文本时更具优势但是其学到的相对位置关系的距离也是有限的当输入长度过长时其性能也会下降这时候就需要外推策略。为了保证模型对长输入文本也能有个较高的性能研究人员相继提出了多种方法。这里简单介绍一种是基于插值的方式基本思想是对于训练时的0-4k这样的距离在实际使用时将0-32k压缩到0-4k的表示模型更熟悉这个范围的距离。当然这个方式不够灵活目前业界较优的方案是YaRN可以理解为对不同长度的相对距离进行不同的插值策略。一种是基于选择策略的方式。基本思想是对超长文本在计算时不再计算与全局所有token的注意力关系避免超长文本计算的耗时过长。比较典型的方案是滑动窗口计算的方式每个词只关注固定窗口长度中相邻词的信息也有通过某些策略从全局中挑选部分区间进行计算整体方案是有损的不过通过设计尽量降低对模型效果的影响。4.3 长文本训练也许你会疑惑如果大模型学到了相对距离的概念那理论上距离变长也应该可以的才对。这就要提到前面说的大模型的大在训练量了模型的性能直接取决于训练量在4k长度下训练的模型即使学会了相对位置的概念到了32k甚至更长的距离时表现也会变差因为缺乏训练。这可以类比于在人机模式打了很多把游戏你的能力有了显著提升并且已经学会了技能的使用和对线的技巧但接下来让你跟真人高玩对线用的技能和英雄还是那些但就是打不过既然如此为什么不直接用长文本进行训练呢这里主要有两个原因计算复杂度与成本爆炸基于前面的自注意力机制计算的原理我们知道每个token都要和上下文中前面的所有token进行注意力计算因此上下文越长计算量和中间结果就会越多这直接与长度的平方成正比。因此在大训练量的需求下直接对长文本进行训练的资源和时间消耗都是非常大的。训练数据的稀缺性和质量难题即使是互联网时代长文本的训练数据仍然本身较少大部分还是短文。并且高质量的可训练数据更为稀缺。短文本预训练 长文本微调主流方法目前主流方式都是在短文本下进行大量训练得到基础模型然后通过少量的长文本数据进行微调。阶段一基础预训练在大量高质量的较短文本如2K、4K、8K上完成核心的语言模型预训练。这个阶段让模型学会基本的语言能力、常识和推理逻辑。成本相对可控。阶段二长度扩展微调使用外推技术在相对较少的长文本数据上对模型进行微调。这里DeepSeek V3是先扩展至32k然后扩展至128k。为什么有效 因为模型在阶段一已经学会了如何思考。阶段二只是教它如何在更长的上下文中运用这种思考能力。这比从零开始学习所有东西要高效得多。注大模型的发展日新月异目前有些模型已经支持了 1M 长度上下文了敲黑板针对长文本的支持主流方式仍是采用大量短文本数据进行预训练的方式并在此基础上通过少量长文本的训练来提高模型对长文本输入的支持。这里重点是什么重点在于即使做了非常多的工作来增加长文本的支持但是不可否认的是训练的稀缺以及在外推方式上的有损设计都会导致在长文本下模型的表现会劣于短文本。05实践与思考到这里你已经大致了解大语言模型的工作原理和实现细节那么知道了这些对我们实践应用有哪些指导意义呢5.1 多模态输入的实现原理已知使用的DeepSeek V3输入是文本那猜测这里大概率的工程实现是对图片做图像识别得到一个识别结果的文本将这个文本和问题一起给到大模型作为输入。不理解的是按理来说图像识别算法应该已经比较成熟了准确率应该很高才对。自己测试后确实也还是不对不过根据思考过程可以发现确实有额外的输入文本给到大模型大约23颗的计数。这里也测试了混元已知混元是多模态的大模型在输入时是支持输入图像的简单理解应该是通过编码器将图片转换成跟token类似的输入向量给到Transformer架构结果也是不对而且看思考过程很难看出来是真的用了图片特征token还是单纯的在瞎说。已知大模型输出是一个一个通过概率输出的因此在系统提示词没有严格限制的情况很容易出现编瞎话的问题。这里想说的是像DeepSeek这类大语言模型目前主要还是以输入文本为主对于非文本的需求大概率是通过特殊的工程方案来实现的。5.2 通过上下文限制提高系统稳定性我们知道模型在短文本一般是4k进行了大量训练理论上这个区间模型效果和稳定性都是最高的那么在工程实践中应尽量避免长上下文的情况。以Agent为例关键就是他的prompt系统提示词和可用工具列表描述这部分不应过多提示词一般对应规则工具描述对应能力。并且过多的规则和可用工具容易导致模型出现混乱最终输出的格式不符合预期如下示例实际模型是想输出的调用工具的能力但是由于输出时格式不对导致解析失败。这只是不稳定的变现的一种有时还会出现循环输出的情况如下图看完文章你应该能理解这种问题出现的原因(输出是概率预测5.3 耗时影响每次调用的耗时由什么决定呢以上理解我们知道第一个token的输出需要将所有输入上下文全部计算后得到这个耗时完全取决于上下文长度越长则耗时越高并且是与长度的平方成正相关随后依次输出每个token输出的间隔耗时取决于上下文长度这里会利用之前计算过的缓存但仍需要将新的token与上下文所有token进行计算所有token输出总耗时取决于输出的字数。因此一次调用耗时的曲线近似可以理解为如下图所示其中t1与上下文长度平方成正比直线斜率k与上下文长度成正比。知道了耗时组成那么在实践中如果想每次调用耗时降低我们能做什么呢还是减少上下文长度因为总耗时与长度平方成正比限制模型单词输出的长度这里一般可以通过prompt规则或者接口参数限制因为很多时候大模型会有啰里啰嗦的特性5.4 如何有效减少上下文实践中我们会发现很多时候模型不总会按预期输出因此我们会增加很多的规则来提醒模型怎么做当我们就是有这么多要求怎么办呢也许你需要拆分了。通过多Agent协同的方式将你期望的功能进行拆分每个子Agent对应一部分能力通过一个主Agent进行统筹规划。这里主Agent只需要知道每个子Agent能做什么而不需要知道其对应prompt的具体规则因此其上下文可以做到尽量的缩小耗时也会有效降低。在使用时主Agent只需要将用户提问拆分为不同子任务交由子Agent执行即可。同时每个子Agent的功能相对简单因此上下文也不会太长。这种方案会相对增加调用大模型的次数但是通过减少上下文又降低了每次调用上下文的长度在调用耗时与上下文平方成正比的情况下整体耗时反而会缩短。比如原12k的上下文现在变成了4个3k上下文的子Agent简单计算下12² 144四个子Agent对应 4 × 3² 36。5.5 历史对话历史对话过多也会导致上下文的膨胀不过很多时候用户的问题并不需要历史信息做参考或者历史信息里包含的有用信息很少用户很多时候单纯是懒得清理上下文。因此工程上可以通过一些方式减少历史对话一种可行的方案可能是将历史对话存储起来在用户提问时先检索有没有相关记录并仅将相关记录附在历史对话里。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

网站建设交易平台建设外围彩票网站

在 Rust 中,默认是移动语义,而不是传统的值传递或引用传递。这是 Rust 最重要的特性之一,理解所有权系统很关键。 基本规则 fn main() {let s1 String::from("hello"); // s1 拥有字符串let s2 s1; // 所有…

张小明 2025/12/23 12:50:33 网站建设

找室内效果图的网站个人网站用主机做服务器

游戏中控制流的操作技巧 在游戏操作中,我们可以通过多种方式来对游戏进行操控,而将多种方法结合起来形成的“钩子”技术,更是一种强大的操控手段。下面将详细介绍四种强大的游戏黑客钩子方法。 调用钩子(Call Hooking) 调用钩子是直接修改 CALL 操作的目标,使其指向新…

张小明 2025/12/21 13:56:31 网站建设

网站建设最新外文翻译网站推广律师关键词有哪些

JSX(JavaScript XML)是 React 生态中最具辨识度的特性之一,它将类 HTML 的语法嵌入 JavaScript 中,让开发者能够以直观的方式编写 UI 结构,同时保留 JavaScript 的逻辑能力。很多开发者最初会将 JSX 误认为是 “HTML 在…

张小明 2025/12/21 13:54:29 网站建设

西安建设门户网站hyip系统网站开发

3种高效方法快速掌握Fashion-MNIST数据集实战应用 【免费下载链接】fashion-mnist fashion-mnist - 提供了一个替代MNIST的时尚产品图片数据集,用于机器学习算法的基准测试。 项目地址: https://gitcode.com/gh_mirrors/fa/fashion-mnist 你是否正在寻找一个…

张小明 2025/12/21 13:52:28 网站建设

网站建设 模版陶哲轩wordpress

第一章:Open-AutoGLM 脚本库核心优势解析Open-AutoGLM 是一个专为自动化大语言模型任务设计的开源脚本库,凭借其模块化架构与高效接口集成能力,显著降低了复杂 NLP 任务的开发门槛。该库通过统一的任务定义标准和灵活的插件机制,支…

张小明 2025/12/21 13:50:23 网站建设

常熟市住房和城乡建设局网站如何建立一个自己的网站啊

第一章:自动驾驶环境感知的核心挑战 自动驾驶系统的环境感知能力是实现安全行驶的基石,其核心在于通过传感器融合、目标检测与语义理解等技术,准确识别车辆周围动态与静态要素。然而,在真实道路场景中,感知系统面临诸多…

张小明 2025/12/21 13:48:22 网站建设