最新资讯

  • 一文深入了解DeepSeek-R1:模型架构

一文深入了解DeepSeek-R1:模型架构

2025-04-28 00:00:56 0 阅读

本文深入探讨了 DeepSeek-R1 模型架构。让我们从输入到输出追踪 DeepSeek-R1 模型,以找到架构中的新发展和关键部分。DeepSeek-R1 基于 DeepSeek-V3-Base 模型架构。本文旨在涵盖其设计的所有重要方面。

📝 1. 输入上下文长度

DeepSeek-R1的输入上下文长度为128K。

DeepSeek-R1 从其基础模型 DeepSeek-V3-Base 继承了 128K 上下文长度。最初,DeepSeek-V3 使用 4K 上下文长度进行预训练。然后,利用 YaRN 技术,两阶段上下文长度扩展首先将其增加到 32K,然后增加到 128K。

YaRN(另一种 RoPE 扩展方法)是一种旨在有效扩展使用旋转位置嵌入 (RoPE)的大型语言模型 (LLM) 的上下文窗口的技术。RoPE 使用旋转矩阵对位置信息进行编码,而 YaRN 则修改这些旋转频率的缩放方式。它不是简单地推断频率(这通常会导致性能下降),而是平滑地插入和调整这些频率,从而能够更好地推广到更长的上下文。它在计算上是高效的,并且无需大量重新训练即可扩展模型上下文长度。

🏛 2. 总层数

DeepSeek-R1 由一个嵌入层、其后的 61 个变换器层以及输出阶段的多个预测头组成。

DeepSeek-R1 在所有 Transformer 层上采用多头潜在注意力 (MLA) 层,而不是标准多头注意力。前三个 Transformer 层与其他层不同,使用标准前馈网络 (FFN) 层。从第 4 层到第 61 层,混合专家 (MoE) 层取代了 FFN 层。MLA 和 MoE 的细节将在以下部分中探讨。

带有维度的完整模型架构描述:

DeepSeek-V3使用多标记预测 (MTP) 技术,利用最后两个预测头预测接下来的2 个标记。第二个预测标记的接受率介于85% 和 90%之间,表明在各个生成主题中均具有很高的可靠性。 DeepSeek-R1 (DeepSeek-V3) 总共包含 671B 个参数,其中每个标记激活 37B 个。在这里插入图片描述

🔬 3. 前 3 个 DeepSeek-R1 层

前 3 层由多头潜在注意力 (MLA) 和标准 FFN 层组成。这些通常被称为“密集 LLM 层”,因为 FFN 层不会被 MoE 层取代,相比之下 MoE 层被认为更稀疏。

DeepSeek-R1 中的前 3 个 Transformer 层

🧩 4. DeepSeek-R1 的第 4 层至第 61 层

这些层由 MLA 层和 MoE 层组成。我们将在接下来的部分中了解什么是 MLA 层和 MoE 层以及它们如何工作。

MoE Transformer 层

🧠 5.多头潜在注意力(MLA)

现在让我们了解什么是 MLA。

MLA 首次在 DeepSeek-V2 中引入,并已延续到 DeepSeek-V3 和 DeepSeek-R1。

为什么要开发MLA?

以下是 DeepSeek-V2 论文/技术报告中的一份声明,它清楚地阐述了开发 MLA 背后的原因。

“传统的Transformer模型通常采用多头注意力机制(MHA),但在生成过程中,其繁重的键值(KV)缓存会成为限制推理效率的瓶颈。为了减少KV缓存,提出了多查询注意力机制(MQA)和分组查询注意力机制(GQA)。它们需要的KV缓存量级较小,但性能不如MHA。

对于 DeepSeek-V2,我们设计了一种创新的注意力机制,称为多头潜在注意力 (MLA)。MLA 配备了低秩键值联合压缩,性能优于 MHA,但所需的 KV 缓存量却少得多。”

MLA 与 MHA、GQA 和 MQA 的比较:来自 DeepSeek-V2 的图表

MLA 如何实现减少 KV 缓存以加快推理速度?

“MLA 的核心是对注意力键和值进行低秩联合压缩,以减少推理过程中的键值 (KV) 缓存。” — DeepSeek-V2

让我们一步一步地理解这个图:

步骤 1:Q、K 和 V 的下投影

MLA 层的输入是 h t ​ h_t​ ht。为清楚起见,我们假设 h t h_t ht 的形状为 (input_sequence_length×2000)。

在传统的 Transformer 层中,权重矩阵用于将 h_t​ 投影到查询 (Q)、键 (K) 和值 (V) 表示中。这些表示中的每一个通常都保留与输入相同的隐藏维度,从而导致 Q、K、V 具有 (input_sequence_length×2000) 的形状。

MLA 层的输入是 h t h_t ht​。为清楚起见,我们假设 h t h_t ht 的形状为 (input_sequence_length×2000)。

在传统的 Transformer 层中,权重矩阵用于将 h_t​ 投影到查询 (Q)、键 (K) 和值 (V) 表示中。这些表示中的每一个通常都保留与输入相同的隐藏维度,从而导致 Q、K、V 具有 (input_sequence_length×2000) 的形状。

然而,在具有多头潜在注意力 (MLA) 的 Transformer 层中,权重矩阵生成的 Q、K 和 V 的尺寸明显小于输入。MLA 不会保留完整的隐藏维度,而是会减小它们的尺寸。例如,如果输入 h t h_t ht​ 的形状为 (序列长度 × 2000),则生成的 Q、K 和 V 的形状可能为 (序列长度 × 100)。

在实施过程中,通常会融合 Q、K 和 V 的权重矩阵,以提高GPU 上的计算和内存效率。不是应用单独的投影,而是使用组合权重矩阵来优化操作。在 MLA 中, K和V的生成遵循这一原则。具体而言,在方程中使用单个权重矩阵,表示为 W D K V W^{DKV} WDKV ​。这里, W D K V W^{DKV} WDKV​ 中的“D”代表下投影权重矩阵,反映了其在降低维度以实现高效注意力计算方面的作用。

潜在 K 和 V 嵌入

此投影的输出是包含 K 和 V 的连接表示。可以使用简单的切片机制轻松提取它们。结果输出的形状为 (序列长度 × 200),其中第一个 (序列长度 × 100) 对应于 K,其余 (序列长度 × 100) 对应于 V。

压缩的 K 和 V 输出在推理期间被缓存,从而显著减少了 KV 缓存的内存占用。

类似地,Q 也在MLA中被压缩。Q 的结果形状为(序列长度 × 100)。

第 2 步:Q、K 和 V 的向上投影

压缩后,Q、K 和 V被向上投影回更大的尺寸以进行注意力计算。这个更大的尺寸可以匹配原始输入 h t h_t ht ​,也可以遵循基于注意力头配置的结构。

例如,向上投影的形状可以是:

  • (序列长度×2000),与输入大小匹配。
  • 序列长度×3200),其中3200来自于64×50(有64 个注意力头,每个头有 50 个维度)。

K 和 V 向上投影

Q 向上投影

Q、K 和 V的上投影是使用专用权重矩阵执行的:

  • W_UK​ 表示K 向上投影
  • W_UV​ 用于垂直向上投影
  • W_UQ​ 用于Q 向上投影

这里,“U”代表向上投影,表示将压缩表示扩展回更大维度的空间以进行注意力计算。

注意:每个注意力头的输入维度将进行调整以适应旋转位置嵌入 (RoPE)。此调整将在接下来的部分中变得更加清晰。

步骤 3:Q 和 K 中的 RoPE 嵌入用于编码位置信息

此步骤用于计算 RoPE 嵌入来编码位置信息。

旋转位置嵌入(RoPE)的结合:

  • 解耦 RoPE 策略:为了整合位置信息,DeepSeek-V2(随后是 DeepSeek-V3 和 DeepSeek-R1)采用了解耦 RoPE 方法。这涉及创建专门用于携带位置信息的额外查询 (Q) 和密钥 (K) 向量。
  • 连接:这些 RoPE 增强的 Q 和 K 向量与上投影的 Q 和 K 向量连接。
    这是 MLA 中比较棘手的部分。

我将尝试按照我从 DeepSeek 的技术报告中理解的方式来解释它。

在传统的 Transformer 层中,RoPE 操作直接作用于 Q 和 K。它不改变 Q 和 K 的维度,而是改变 Q 和 K 中的语义表示(Q 和 K 中的数值)来编码位置信息。因此,得到的 Q 和 K 同时具有语义和位置信息。

但是,在具有 MLA 的transformer层中,RoPE 被应用于分离新生成的查询(Q)和键(K)嵌入,并将其连接到上投影的 Q 和 K。

步骤 3.1:为 Q 生成 RoPE 嵌入

传统上,RoPE(旋转位置嵌入)会根据查询 (Q) 和键 (K) 向量在序列中的位置,对它们应用旋转矩阵。此转换会直接在 Q 和 K 中编码相对位置信息,从而无需使用正弦或绝对编码等显式位置嵌入。

但是在 MLA 中,不是将 RoPE 应用于上投影的 Q( q t C q_t^C qtC),而是从 c t Q c_t^Q ctQ 生成新的 Q 嵌入( q t R q_t^R qtR)并对其应用 RoPE。

通过将 c t Q c_t^Q ctQ 与权重矩阵 W Q R W^{QR} WQR 相乘,可以生成完全独立的查询嵌入。这些新的独立查询嵌入经过 RoPE 转换,为我们提供位置编码查询嵌入 ( q t R q_t^R qtR)。

q t R q_t^R qtR 的生成方式是,它们可以连接到每个注意力头的输入查询嵌入,以便每个注意力头都具有位置信息。 [从等式来看,这个说法似乎是正确的,但需要进一步验证。]

步骤 3.2:为 K 生成 RoPE 嵌入
类似地,不是将 RoPE 应用于上投影的 K,而是生成新的 K 嵌入并对其应用 RoPE。

但是与 RoPE 嵌入的 q t R q_t^R qtR有两个关键区别:

新的 K 嵌入是由 h t h_t ht(输入嵌入)而不是向下投影的 K( c t K c_t^K ctK)生成的。
相同的 RoPE 嵌入 K(键)连接到每个注意力头的输入。但是,单独的 RoPE 嵌入 Q(查询)被计算并连接到每个注意力头,如步骤 3.1 所示。[从等式来看,这个说法似乎是正确的,但需要进一步验证。]

为什么不从向上投影的 K 即 k t C k_t^C ktC 生成?

DeepSeek-V2报告中的推理:

“如果我们将 RoPE 应用于键k _𝐶,𝑊𝑈𝐾 将与位置敏感的 RoPE 矩阵耦合。这样,𝑊𝑈𝐾 在推理过程中就不能再被吸收到𝑊_𝑄 中,因为与当前生成的 token 相关的 RoPE 矩阵将位于 𝑊_𝑄 和 𝑊𝑈𝐾 之间,而矩阵乘法不遵循交换律。”

从下面的解释截图可以更好地理解这一点:

K 的 RoPE 嵌入:第 1 部分

K 的 RoPE 嵌入:第 2 部分

K 的 RoPE 嵌入:第 3 部分

因此,为了提高推理效率,位置嵌入的 K(关键)嵌入是从输入嵌入 h t h_t ht 生成的。

在 MLA 中引入额外的权重矩阵不会导致内存和计算效率低下吗?

为了解决这些开销,DeepSeek-V2 报告:

“此外,在推理过程中,由于 𝑊𝑈𝐾 可以被吸收到 𝑊𝑄 中,而 𝑊𝑈𝑉 可以被吸收到 𝑊𝑂 中,我们甚至不需要计算键和值来引起注意。”

为了进一步减少内存消耗:

“此外,为了减少训练期间的激活内存,我们还对查询执行低秩压缩,即使它不能减少 KV 缓存”

步骤4:计算注意力输出

连接过程会增加 Q 和 K 向量的维数。为了管理这种增加的维数,模型可以采取以下任一方式:

  • 增加注意力头的数量:这将保持原始的每个头的维度,但需要更多的计算资源。
  • 调整每个头的维数:保持头的数量不变,但增加每个头的维数以适应连接的向量。

注意力输出是使用这些标准注意力方程来计算的:


O_t_i 是注意力得分,u_t 是注意力输出。W_o 表示输出投影权重矩阵。输出被投影回与输入相同的维度(就像在我们的例子中:这个形状将是 input_sequence_length x 2000)

🎭 6.混合专家(MoE)

什么是混合专家 (MoE)?

为了清楚地理解什么是 MoE,首先让我们看看它在 Transformer 中的具体用途以及它的架构简介。标准 Transformer 层中的 FFN 被 MoE 取代。

从本质上讲,MoE 遵循标准 Transformer 设计,但通过引入多个并行专家网络(FFN) 而不是单个密集 FFN来修改前馈层。其工作原理如下:

1. 多个 FFN(而非一个)

MoE 不使用单个共享的 FFN,而是使用多个并行训练的FFN 层(专家) 。

2. 输入处理和令牌路由

  • 每个 token 都像往常一样经过 transformer自注意力层。
  • 它不是由单个 FFN 处理,而是被发送到路由器,由路由器决定哪些专家应该处理它。

3. 通过路由器选择专家

  • 一个小型的、可训练的路由器决定哪个专家子集(FFN)应该处理每个标记。
  • 通常,每个 token仅选择 1 或 2 个专家以保持效率(例如, top-1 或 top-2 门控)。DeepSeek -V3(DeepSeek-R1)使用 9 个专家,其中 1 个是共享专家,其他 8 个是路由专家。
  • 选择通常基于softmax 评分机制,其中路由器为每个专家分配概率。具体来说,在 DeepSeek-V3 (DeepSeek-R1) 中,使用 Sigmoid 而不是 softmax。

4. 专家稀疏计算

  • 只有选定的专家才能处理令牌,而其他人则保持不活动状态。
  • 专家输出使用加权求和进行组合,并传递到下一个 Transformer 层。在 DeepSeek-V3/R1 中,权重是归一化的 S 型输出。
  • 这种稀疏激活可确保任何时候仅使用模型的一小部分,从而保持计算可管理。

为什么要用 MoE 取代单一 FFN?

  • 可扩展性— MoE 允许模型使用更多参数进行扩展,而无需线性增加计算量。
  • 高效学习— 专家专注于数据的不同方面,从而提高泛化能力。
  • 计算节省— 由于每个 token 仅使用专家子集,因此与相同大小的密集模型相比,MoE 模型的运行成本更低。DeepSeek-V3/R1 共有 6710 亿个参数,其中每个 token 激活 370 亿个参数。

MoE 在 DeepSeek-R1 中如何发挥作用?

以下来自 DeepSeek-V3 技术报告的公式显示了每个 MoE 层中的计算。在 DeepSeek 系列模型中,MoE 架构首次在 DeepSeekMoE 模型中引入,并且正在 DeepSeek-V2、DeepSeek-V3 和 DeepSeek-R1 中使用。

路由器计算:

在 DeepSeek-V3 、 DeepSeek-R1 和其他一些现代混合专家 (MoE) 模型中,e_i​ 表示学习到的质心,有助于将输入路由到正确的专家。与传统的 MoE 架构中基于 FFN 的路由器计算门控分数不同,此方法预定义了一组可学习向量e_i​,每个向量对应一位专家。

关键思想:

  • 每个专家 i 都有一个相关的质心向量 e i e_i ei
  • 我们不是将输入 u t ​ u_t​ ut 传递给 FFN 来获取专家概率,而是通过点积来计 u t u_t ut 和每个 e i ​ e_i​ ei 之间的相似度:
  • 该分数决定了专家与给定输入的相关程度。
  • 仅激活具有最高 s i , t s_{i,t} si,t​ 值的Top-K专家进行处理。

  • 在 S 型输出中添加了一个偏差项,以创建无辅助损失的 MoE 负载平衡。

DeepSeek-V3 论文中的这段描述进一步阐明了它的用途以及它在训练过程中的计算方式:

  • 使用选定的 top-k 值对输出值进行标准化。


专家计算:


u t u_t ut是 MoE 层的输入。等式中的第二项表示输入与共享专家相乘。每个专家由 FFN(前馈网络)组成,因此用“FFN”表示。在 DeepSeek-R1 中,只有 1 个共享专家。因此,Ns=1。同样,等式中的第三项表示输入与活跃的个人专家相乘。在 DeepSeek-R1 中,总共有 256 个个人专家。但每个 token 只有 8 个活跃,因此 Nr=8。每个活跃的个人专家都将具有与等式 13 中关联的 g i , t g_{i,t} gi,t。它用于计算第三项。

输出


h t h_t ht表示 MoE 层的输出。 u t u_t ut 是 MoE 层的输入。专家计算结果添加到输入 u t u_t ut 中,得到 MoE 层的输出。

🔢 7. 多标记预测(MTP)

什么是多标记预测?

多标记预测是语言建模中的一种高级方法,其中模型不是一次预测一个序列中的下一个单词,而是同时预测多个未来标记。此方法使模型能够并行预测多个即将到来的单词,从而提高学习效率并加速文本生成。


Meta 引入了一种多标记预测架构,可训练语言模型同时预测多个未来标记,从而提高采样效率并加快推理速度。在此概念的基础上,DeepSeek-V3 整合了多标记预测 (MTP) 目标,使模型能够同时预测多个标记。这种方法使训练信号密集化,并能够更好地预先规划标记表示,从而提高复杂基准测试的性能。

DeepSeek-V3/R1 和 Meta 的多令牌预测有两个关键区别:

“与 Gloeckle 等人(2024 年)[Meta Research] 使用独立输出头并行预测 𝐷 个额外标记不同,我们按顺序预测其他标记,并在每个预测深度保留完整的因果链。” — DeepSeek-V3

  1. Meta 的模型预测了4 个 token,而 DeepSeek-V3 预测了2 个 token。
  2. Meta 模型中的预测头是独立的,而 DeepSeek-V3 的预测头是顺序连接的。

MTP 在 DeepSeek-R1 中如何工作?


让我们一步一步地看一下该图表。

在训练期间,输入标记(位于左下角)穿过嵌入层,然后传播到所有变压器块/层。

第一个预测头(包括输出头)直接连接到主模型的最终 Transformer 层。输出头通常是前馈网络 (FFN),其输出维度与模型的词汇量相匹配。该头负责按顺序预测下一个标记。给定输入标记t₁、t₂、t₃、t₄,它会预测t₂、t₃、t₄、t₅ 。但是,在推理过程中,只计算最终标记t₅ 。

第二个预测头通过添加额外的可学习层扩展了这种方法。它从主模型的最终 Transformer 层获取输出,应用 RMSNorm 进行归一化,然后将其与输入嵌入连接起来。这些输入嵌入是从主模型中使用的相同嵌入层获得的。与第一个预测头不同,这个头从t₂而不是t₁开始处理输入标记。然后使用线性投影层将连接的输出投影到合适的嵌入大小,然后使用可学习的 Transformer 块/层进行进一步处理。在训练期间,这个头将t₃预测为t₆,但在推理中,只计算t₆ 。

类似地,第三个预测头从第二个预测头的transformer器块/层获取输入以及相应的输入嵌入,现在从t₃开始到t₆。它遵循与前几个头相同的结构,在训练期间预测t₄到t₇,但在推理期间仅计算t₇。

每个预测头使用交叉熵计算损失。然后,这些损失用因子λ加权,取其平均值作为最终损失值。

单独预测头损失

最终损失

在 DeepSeek-V3 和 R1 中,MTP 仅在训练期间使用,而不在推理期间使用:

“推理中的 MTP:我们的 MTP 策略主要是为了提高主模型的性能,因此在推理过程中,我们可以直接丢弃 MTP 模块,主模型可以独立正常运行。”——DeepSeek-V3

参考资料

  • https://arxiv.org/pdf/2412.19437
  • https://arxiv.org/pdf/2405.04434
  • https://arxiv.org/pdf/2402.03300
  • https://arxiv.org/pdf/2401.02954
  • https://arxiv.org/pdf/2401.06066
  • https://arxiv.org/pdf/2404.19737

本文地址:https://www.vps345.com/4048.html

搜索文章

Tags

PV计算 带宽计算 流量带宽 服务器带宽 上行带宽 上行速率 什么是上行带宽? CC攻击 攻击怎么办 流量攻击 DDOS攻击 服务器被攻击怎么办 源IP 服务器 linux 运维 游戏 云计算 进程 操作系统 进程控制 Ubuntu ssh deepseek Ollama 模型联网 API CherryStudio python MCP 数据库 centos oracle 关系型 安全 分布式 llama 算法 opencv 自然语言处理 神经网络 语言模型 javascript 前端 chrome edge macos adb react.js 前端面试题 node.js 持续部署 harmonyos 华为 开发语言 typescript 计算机网络 Dell R750XS 科技 ai java 人工智能 个人开发 ubuntu 阿里云 网络 网络安全 网络协议 RTSP xop RTP RTSPServer 推流 视频 kvm 无桌面 命令行 ecm bpm zotero WebDAV 同步失败 代理模式 IIS .net core Hosting Bundle .NET Framework vs2022 经验分享 ollama llm php android http ESP32 nuxt3 vue3 rust YOLO 深度学习 pytorch spring sql KingBase fastapi mcp mcp-proxy mcp-inspector fastapi-mcp agent sse 银河麒麟 kylin v10 麒麟 v10 spring boot websocket docker 实时音视频 filezilla 无法连接服务器 连接被服务器拒绝 vsftpd 331/530 nginx 监控 自动化运维 c++ c语言 pycharm conda pillow tcp/ip django flask web3.py 笔记 C 环境变量 进程地址空间 kubernetes 容器 学习方法 程序人生 gitlab numpy DeepSeek-R1 API接口 自动化 蓝耘科技 元生代平台工作流 ComfyUI json html5 firefox github 创意 社区 串口服务器 媒体 微信公众平台 C语言 windows ide 物联网 嵌入式硬件 硬件工程 单片机 svn flutter Hyper-V WinRM TrustedHosts JAVA IDEA Java 后端 idm 联想开天P90Z装win10 qt matlab gitee YOLOv8 NPU Atlas800 A300I pro asi_bench redis microsoft 腾讯云 Deepseek vscode mount挂载磁盘 wrong fs type LVM挂载磁盘 Centos7.9 vim C++软件实战问题排查经验分享 0xfeeefeee 0xcdcdcdcd 动态库加载失败 程序启动失败 程序运行权限 标准用户权限与管理员权限 重启 排查 系统重启 日志 原因 游戏服务器 Minecraft ddos 面试 性能优化 jdk intellij-idea 架构 cursor MCP server C/S LLM unity c# 电脑 agi AIGC 计算机视觉 ansible playbook gpu算力 H3C AI编程 tomcat golang 华为云 医疗APP开发 app开发 uni-app springsecurity6 oauth2 授权服务器 前后端分离 arm html Docker Compose docker compose docker-compose FunASR ASR 佛山戴尔服务器维修 佛山三水服务器维修 go file server http server web server 集成学习 集成测试 远程连接 rdp 实验 远程工作 TRAE ssl ffmpeg 音视频 UOS 统信操作系统 yum oceanbase rc.local 开机自启 systemd 麒麟 机器学习 kylin 深度优先 图论 并集查找 换根法 树上倍增 jenkins 云原生 ci/cd fpga开发 AI MNN DeepSeek Qwen 备份SQL Server数据库 数据库备份 傲梅企业备份网络版 chatgpt 大模型 llama3 Chatglm 开源大模型 xss pppoe radius arm开发 AI agent vue.js audio vue音乐播放器 vue播放音频文件 Audio音频播放器自定义样式 播放暂停进度条音量调节快进快退 自定义audio覆盖默认样式 博客 java-ee udp react next.js 部署 部署next.js 远程登录 telnet 机器人 向日葵 googlecloud 报错 web安全 多线程服务器 TCP服务器 qt项目 qt项目实战 qt教程 bash 小程序 国标28181 视频监控 监控接入 语音广播 流程 SIP SDP spring cloud 宝塔面板 同步 备份 建站 安全威胁分析 vscode 1.86 豆瓣 追剧助手 迅雷 nas 微信 内存 unity3d excel 目标检测 jvm aws 服务器繁忙 备选 网站 api 调用 示例 银河麒麟桌面操作系统 Kylin OS 国产化 eureka postman mock mock server 模拟服务器 mock服务器 Postman内置变量 Postman随机数据 LDAP https prometheus 监控k8s集群 集群内prometheus IIS服务器 IIS性能 日志监控 maven intellij idea MQTT mosquitto 消息队列 智能路由器 外网访问 内网穿透 端口映射 word图片自动上传 word一键转存 复制word图片 复制word图文 复制word公式 粘贴word图文 粘贴word公式 mongodb sqlite 3d 数学建模 dubbo 网络结构图 openssl 密码学 学习 编辑器 根服务器 debian kafka hibernate shell Dify sqlserver mysql 微服务 统信 国产操作系统 虚拟机安装 游戏程序 权限 git jmeter 软件测试 Cursor android studio ftp apache 孤岛惊魂4 恒源云 tcp 安全架构 pygame 小游戏 五子棋 oneapi open webui 爬虫 Headless Linux pdf asp.net大文件上传 asp.net大文件上传下载 asp.net大文件上传源码 ASP.NET断点续传 asp.net上传文件夹 asp.net上传大文件 .net core断点续传 华为认证 网络工程师 交换机 开源 Linux网络编程 visualstudio zookeeper ios Docker Hub docker pull 镜像源 daemon.json Linux 僵尸进程 live555 rtsp rtp 驱动开发 嵌入式实习 交互 WSL win11 无法解析服务器的名称或地址 armbian u-boot flash-attention Cline ecmascript nextjs reactjs URL 代码调试 ipdb HTML audio 控件组件 vue3 audio音乐播放器 Audio标签自定义样式默认 vue3播放音频文件音效音乐 自定义audio播放器样式 播放暂停调整声音大小下载文件 MI300x openwrt ux 多线程 运维开发 搜索引擎 string模拟实现 深拷贝 浅拷贝 经典的string类问题 三个swap 开发环境 SSL证书 Python 网络编程 聊天服务器 套接字 TCP 客户端 Socket GaN HEMT 氮化镓 单粒子烧毁 辐射损伤 辐照效应 stm32 源码剖析 rtsp实现步骤 流媒体开发 Reactor 设计模式 C++ 数据集 能力提升 面试宝典 技术 IT信息化 银河麒麟操作系统 rpc 远程过程调用 Windows环境 直播推流 virtualenv Flask FastAPI Waitress Gunicorn uWSGI Uvicorn 系统架构 selenium 测试工具 iphone gitea n8n dity make okhttp 中间件 王者荣耀 ipython 自动驾驶 make命令 makefile文件 三级等保 服务器审计日志备份 缓存 FTP服务器 KylinV10 麒麟操作系统 虚拟机 Vmware DigitalOcean GPU服务器购买 GPU服务器哪里有 GPU服务器 命令 unix apt 国内源 iBMC UltraISO 1024程序员节 多个客户端访问 IO多路复用 回显服务器 TCP相关API tensorflow 鸿蒙系统 bootstrap web 低代码 devops 安卓 软考 黑客 计算机 HarmonyOS Next jupyter 负载均衡 wireshark CUDA PyTorch GCC aarch64 编译安装 HPC 安装教程 GPU环境配置 Ubuntu22 Anaconda安装 镜像 css 无人机 ROS 统信UOS bonding 链路聚合 树莓派 VNC 压力测试 tailscale derp derper 中转 游戏引擎 抗锯齿 矩阵 线性代数 电商平台 大文件分片上传断点续传及进度条 如何批量上传超大文件并显示进度 axios大文件切片上传详细教 node服务器合并切片 vue3大文件上传报错提示错误 大文件秒传跨域报错cors xpath定位元素 navicat express MacOS录屏软件 防火墙 NAT转发 NAT Server Unity Dedicated Server Host Client 无头主机 stm32项目 mamba Vmamba ip netty VMware安装mocOS VMware macOS系统安装 wsl webrtc 程序 程序员 网络攻击模型 群晖 less rabbitmq 课程设计 大数据 windows日志 信号处理 数据挖掘 常用命令 文本命令 目录命令 thingsboard postgresql Kali 端口测试 iDRAC R720xd 命名管道 客户端与服务端通信 实习 freebsd gcc glibc npm c dell服务器 iventoy VmWare OpenEuler css3 mac bcompare Beyond Compare 模拟器 教程 服务器无法访问 ip地址无法访问 无法访问宝塔面板 宝塔面板打不开 XFS xfs文件系统损坏 I_O error es 加解密 Yakit yaklang iot 虚拟局域网 openEuler 信息与通信 jar 金仓数据库 2025 征文 数据库平替用金仓 显卡驱动 Linux PID X11 Xming eclipse 系统安全 tcpdump 我的世界服务器搭建 Wi-Fi 超融合 minio Spring Security 5G 3GPP 卫星通信 我的世界 我的世界联机 数码 ruoyi 前端框架 ISO镜像作为本地源 zabbix 云电竞 云电脑 todesk WebUI DeepSeek V3 AI大模型 BMC IPMI 带外管理 虚幻 职场和发展 中兴光猫 换光猫 网络桥接 自己换光猫 微信小程序 jetty undertow elasticsearch ArkUI 多端开发 智慧分发 应用生态 鸿蒙OS ESXi Dell HPE 联想 浪潮 dify QT 5.12.12 QT开发环境 Ubuntu18.04 智能手机 NAS Termux Samba 温湿度数据上传到服务器 Arduino HTTP Python基础 Python教程 Python技巧 单元测试 功能测试 Erlang OTP gen_server 热代码交换 事务语义 springboot远程调试 java项目远程debug docker远程debug java项目远程调试 springboot远程 ui P2P HDLC 思科 log4j .net mvc断点续传 Claude Agent 换源 Debian 远程桌面 gaussdb HarmonyOS AnythingLLM AnythingLLM安装 DeepSeek行业应用 Heroku 网站部署 宝塔面板访问不了 宝塔面板网站访问不了 宝塔面板怎么配置网站能访问 宝塔面板配置ip访问 宝塔面板配置域名访问教程 宝塔面板配置教程 pip Xinference RAGFlow 服务器管理 配置教程 服务器安装 网站管理 hugo 环境配置 frp 思科模拟器 Cisco IM即时通讯 QQ 企业微信 剪切板对通 HTML FORMAT wsl2 wps rtsp服务器 rtsp server android rtsp服务 安卓rtsp服务器 移动端rtsp服务 大牛直播SDK 腾讯云大模型知识引擎 kind k8s资源监控 annotations自动化 自动化监控 监控service 监控jvm AI写作 AI作画 聊天室 jina 工业4.0 ocr 远程 执行 sshpass 操作 其他 银河麒麟服务器操作系统 系统激活 linux安装配置 算力 visual studio code Radius rnn hexo selete 高级IO muduo 个人博客 can 线程池 小智AI服务端 xiaozhi TTS rclone AList webdav fnOS k8s 嵌入式 linux驱动开发 windwos防火墙 defender防火墙 win防火墙白名单 防火墙白名单效果 防火墙只允许指定应用上网 防火墙允许指定上网其它禁止 Linux24.04 deepin 图像处理 ssh远程登录 seatunnel 鲲鹏 昇腾 npu EMQX 通信协议 微信分享 鸿蒙 Image wxopensdk HAProxy linux上传下载 健康医疗 互联网医院 弹性计算 虚拟化 KVM 计算虚拟化 弹性裸金属 junit 信号 开机自启动 rag ragflow ragflow 源码启动 历史版本 下载 安装 SEO 数据分析 漏洞 显示管理器 lightdm gdm SWAT 配置文件 服务管理 网络共享 CPU 主板 电源 网卡 ue4 着色器 ue5 阻塞队列 生产者消费者模型 服务器崩坏原因 laravel Linux无人智慧超市 LInux多线程服务器 QT项目 LInux项目 单片机项目 vue 毕昇JDK grafana 直流充电桩 充电桩 safari Mac 系统 半虚拟化 硬件虚拟化 Hypervisor cuda cudnn anaconda SSH nvidia yaml Ultralytics 可视化 p2p micropython esp32 mqtt 小艺 Pura X 网络穿透 云服务器 Nuxt.js etl Xterminal HTTP 服务器控制 ESP32 DeepSeek 田俊楠 AD域 反向代理 致远OA OA服务器 服务器磁盘扩容 .netcore CORS 跨域 游戏机 数据结构 Netty 即时通信 NIO 视觉检测 list 模拟实现 vasp安装 查询数据库服务IP地址 SQL Server 语音识别 VR手套 数据手套 动捕手套 动捕数据手套 AutoDL fd 文件描述符 HCIE 数通 HiCar CarLife+ CarPlay QT RK3588 code-server hadoop Qwen2.5-coder 离线部署 SVN Server tortoise svn r语言 数据可视化 输入法 Linux的基础指令 cocoapods xcode threejs 3D 华为od IMX317 MIPI H265 VCU W5500 OLED u8g2 chfs ubuntu 16.04 SenseVoice gateway Clion Nova ResharperC++引擎 Centos7 远程开发 composer 业界资讯 大数据平台 springboot yolov8 银河麒麟高级服务器 外接硬盘 Kylin gradle proxy模式 linux 命令 sed 命令 AISphereButler kamailio sip VoIP OD机试真题 华为OD机试真题 服务器能耗统计 ukui 麒麟kylinos openeuler rust腐蚀 框架搭建 dns .net 编程 性能分析 UDP的API使用 vSphere vCenter Java Applet URL操作 服务器建立 Socket编程 网络文件读取 大模型入门 大模型教程 智能音箱 智能家居 需求分析 规格说明书 策略模式 单例模式 合成模型 扩散模型 图像生成 实战案例 实时互动 升级 CVE-2024-7347 VPS 繁忙 解决办法 替代网站 汇总推荐 AI推理 硬件架构 CDN web3 dba autodl DevEco Studio OpenHarmony 真机调试 可信计算技术 软件定义数据中心 sddc ollama下载加速 big data 工作流 workflow XCC Lenovo 雨云 NPS 飞书 IMM embedding echarts 传统数据库升级 银行 大语言模型 LLMs 单一职责原则 Windows sdkman IPMITOOL 硬件管理 opcua opcda KEPServer安装 大模型微调 双系统 GRUB引导 Linux技巧 软件工程 技能大赛 LORA NLP 计算机外设 iperf3 带宽测试 ardunio BLE iis prometheus数据采集 prometheus数据模型 prometheus特点 移动云 云服务 ShenTong 相机 token sas FTP 服务器 线程 nfs mysql离线安装 ubuntu22.04 mysql8.0 redhat 源码 毕业设计 SSL 域名 rsyslog Anolis nginx安装 环境安装 linux插件下载 Linux awk awk函数 awk结构 awk内置变量 awk参数 awk脚本 awk详解 图形化界面 僵尸世界大战 游戏服务器搭建 文件系统 路径解析 webstorm Trae IDE AI 原生集成开发环境 Trae AI mcu 服务器主板 AI芯片 软链接 硬链接 hive Hive环境搭建 hive3环境 Hive远程模式 webgl v10 软件 考研 onlyoffice 在线office etcd 数据安全 RBAC asm 微信小程序域名配置 微信小程序服务器域名 微信小程序合法域名 小程序配置业务域名 微信小程序需要域名吗 微信小程序添加域名 EasyConnect Typore Kali Linux 渗透测试 信息收集 chrome 浏览器下载 chrome 下载安装 谷歌浏览器下载 流水线 脚本式流水线 efficientVIT YOLOv8替换主干网络 TOLOv8 黑客技术 项目部署到linux服务器 项目部署过程 本地部署 AI-native Docker Desktop ssrf 失效的访问控制 MySql vscode1.86 1.86版本 ssh远程连接 SSE open Euler dde db LLM Web APP Streamlit tidb GLIBC 网工 opensearch helm epoll WSL2 ruby TrinityCore 魔兽世界 Ubuntu DeepSeek DeepSeek Ubuntu DeepSeek 本地部署 DeepSeek 知识库 DeepSeek 私有化知识库 本地部署 DeepSeek DeepSeek 私有化部署 VMware安装Ubuntu Ubuntu安装k8s sysctl.conf vm.nr_hugepages adobe elk 魔百盒刷机 移动魔百盒 机顶盒ROM USB转串口 CH340 g++ g++13 飞牛NAS 飞牛OS MacBook Pro bug 交叉编译 邮件APP 免费软件 视频编解码 Ubuntu 24.04.1 轻量级服务器 python3.11 dash 正则表达式 文件分享 GPU lio-sam SLAM odoo 服务器动作 Server action Linux环境 环境迁移 远程控制 远程看看 远程协助 sentinel deepseek r1 prompt cpu 实时 使用 高效日志打印 串口通信日志 服务器日志 系统状态监控日志 异常记录日志 毕设 Ubuntu 24 常用命令 Ubuntu 24 Ubuntu vi 异常处理 烟花代码 烟花 元旦 相差8小时 UTC 时间 Node-Red 编程工具 流编程 cd 目录切换 AI Agent 字节智能运维 risc-v iftop 网络流量监控 mm-wiki搭建 linux搭建mm-wiki mm-wiki搭建与使用 mm-wiki使用 mm-wiki详解 camera Arduino 电子信息 curl wget 端口 查看 ss cnn GoogLeNet swoole 粘包问题 searxng Invalid Host allowedHosts 网络药理学 生物信息学 生信 PPI String Cytoscape CytoHubba Ark-TS语言 测试用例 visual studio lua vue-i18n 国际化多语言 vue2中英文切换详细教程 如何动态加载i18n语言包 把语言json放到服务器调用 前端调用api获取语言配置文件 hosts 干货分享 黑客工具 密码爆破 uv 数据库架构 数据管理 数据治理 数据编织 数据虚拟化 Deepseek-R1 私有化部署 推理模型 EtherCAT转Modbus ECT转Modbus协议 EtherCAT转485网关 ECT转Modbus串口网关 EtherCAT转485协议 ECT转Modbus网关 欧标 OCPP easyui langchain 音乐库 飞牛 实用教程 docker run 数据卷挂载 交互模式 上传视频至服务器代码 vue3批量上传多个视频并预览 如何实现将本地视频上传到网页 element plu视频上传 ant design vue vue3本地上传视频及预览移除 宕机切换 服务器宕机 firewall Open WebUI cmos 硬件 triton 模型分析 压测 ECS 域名服务 DHCP 符号链接 配置 midjourney springcloud DOIT 四博智联 deep learning 强化学习 飞牛nas fnos 知识库 本地知识库部署 DeepSeek R1 模型 Attention ros RoboVLM 通用机器人策略 VLA设计哲学 vlm fot robot 视觉语言动作模型 具身智能 transformer eNSP 网络规划 VLAN 企业网络 状态管理的 UDP 服务器 Arduino RTOS RAGFLOW RAG 检索增强生成 文档解析 大模型垂直应用 linux环境变量 PVE 串口驱动 CH341 uart 485 Ubuntu共享文件夹 共享目录 Linux共享文件夹 技术共享 neo4j 知识图谱 dock 加速 政务 分布式系统 监控运维 Prometheus Grafana 磁盘监控 mariadb 服务器配置 minicom 串口调试工具 车载系统 Unity插件 gpt-3 文心一言 执法记录仪 智能安全帽 smarteye SysBench 基准测试 流量运营 Jellyfin mybatis TrueLicense LInux 序列化反序列化 嵌入式Linux IPC 人工智能生成内容 EMUI 回退 降级 gnu 金融 DNS docker命令大全 网络用户购物行为分析可视化平台 大数据毕业设计 RAID RAID技术 磁盘 存储 nac 802.1 portal UDP kali 共享文件夹 CentOS Stream CentOS 游戏开发 边缘计算 设备 PCI-Express llama.cpp 怎么卸载MySQL MySQL怎么卸载干净 MySQL卸载重新安装教程 MySQL5.7卸载 Linux卸载MySQL8.0 如何卸载MySQL教程 MySQL卸载与安装 拓扑图 服务器时间 docker搭建nacos详解 docker部署nacos docker安装nacos 腾讯云搭建nacos centos7搭建nacos 蓝桥杯 大模型推理 大模型学习 ceph 灵办AI 链表 音乐服务器 Navidrome 音流 ping++ rocketmq 大模型面经 dns是什么 如何设置电脑dns dns应该如何设置 软件需求 在线预览 xlsx xls文件 在浏览器直接打开解析xls表格 前端实现vue3打开excel 文件地址url或接口文档流二进 uni-file-picker 拍摄从相册选择 uni.uploadFile H5上传图片 微信小程序上传图片 edge浏览器 状态模式 深度求索 私域 元服务 应用上架 rustdesk 剧本 trae 基础环境 crosstool-ng VS Code Redis Desktop ubuntu20.04 开机黑屏 软负载 匿名管道 多进程 AD 域管理 deekseek 网站搭建 serv00 grub 版本升级 扩容 微信开放平台 微信公众号配置 沙盒 word 多层架构 解耦 多路转接 物联网开发 USB网络共享 clickhouse Playwright 自动化测试 分析解读 社交电子 高效远程协作 TrustViewer体验 跨设备操作便利 智能远程控制 Cookie 磁盘镜像 服务器镜像 服务器实时复制 实时文件备份 matplotlib ssh漏洞 ssh9.9p2 CVE-2025-23419 YOLOv12 minecraft vmware 卡死 风扇控制软件 浏览器开发 AI浏览器 rime MacMini 迷你主机 mini Apple 裸金属服务器 弹性裸金属服务器 宠物 免费学习 宠物领养 宠物平台 IO模型 AI代码编辑器 分布式训练 pgpool 系统开发 binder framework 源码环境 ip命令 新增网卡 新增IP 启动网卡 Windsurf Docker引擎已经停止 Docker无法使用 WSL进度一直是0 镜像加速地址 perf 程序员创富 ABAP PX4 智能硬件 DBeaver 数据仓库 kerberos nlp x64 SIGSEGV xmm0 outlook 产测工具框架 IMX6ULL 管理框架 7z firewalld 存储维护 NetApp存储 EMC存储 av1 电视盒子 openstack Xen MS Materials TCP协议 热榜 bat 模拟退火算法 EtherNet/IP串口网关 EIP转RS485 EIP转Modbus EtherNet/IP网关协议 EIP转RS485网关 EIP串口服务器 milvus flink 信息可视化 网页设计 docker部署翻译组件 docker部署deepl docker搭建deepl java对接deepl 翻译组件使用 华为机试 keepalived Logstash 日志采集 sonoma 自动更新 数据库系统 C# MQTTS 双向认证 emqx xshell termius iterm2 开发 数据库开发 database chrome devtools chromedriver 自动化任务管理 rpa ArcTS 登录 ArcUI GridItem arkUI 服务网格 istio js 语法 做raid 装系统 remote-ssh 内网服务器 内网代理 内网通信 服务器数据恢复 数据恢复 存储数据恢复 北亚数据恢复 oracle数据恢复 VM搭建win2012 win2012应急响应靶机搭建 攻击者获取服务器权限 上传wakaung病毒 应急响应并溯源 挖矿病毒处置 应急响应综合性靶场 yum源切换 更换国内yum源 ubuntu24.04.1 Linux find grep 西门子PLC 通讯 trea idea 火绒安全 uniapp RTMP 应用层 fast 大模型应用 鸿蒙开发 移动开发 vr OpenSSH 捆绑 链接 谷歌浏览器 youtube google gmail IPv4 子网掩码 公网IP 私有IP SSH 密钥生成 SSH 公钥 私钥 生成 离线部署dify 图形渲染 键盘 黑苹果 wsgiref Web 服务器网关接口 sequoiaDB skynet spark HistoryServer Spark YARN jobhistory 李心怡 阿里云ECS alias unalias 别名 SSH 服务 SSH Server OpenSSH Server wpf Linux的权限 VSCode 嵌入式系统开发 企业网络规划 华为eNSP 代理服务器 项目部署 AP配网 AK配网 小程序AP配网和AK配网教程 WIFI设备配网小程序UDP开 服务器部署ai模型 混合开发 JDK regedit 开机启动 raid5数据恢复 磁盘阵列数据恢复 自定义客户端 SAS docker部署Python 京东云 基础入门 Google pay Apple pay GIS 遥感 WebGIS 大大通 第三代半导体 碳化硅 本地化部署 远程服务 ai工具 centos-root /dev/mapper yum clean all df -h / du -sh java-rocketmq ldap conda配置 conda镜像源 CrewAI Kylin-Server 内网环境 h.264 私有化 RustDesk自建服务器 rustdesk服务器 docker rustdesk 大模型部署 流式接口 DenseNet 玩机技巧 软件分享 软件图标 pyqt WebRTC gpt win服务器架设 windows server 办公自动化 自动化生成 pdf教程 seleium 迁移指南 VMware创建虚拟机 网卡的名称修改 eth0 ens33 增强现实 沉浸式体验 应用场景 技术实现 案例分析 AR cpp-httplib xrdp arcgis SRS 流媒体 直播 Ubuntu Server Ubuntu 22.04.5 信创 信创终端 中科方德 影刀 #影刀RPA# 虚幻引擎 DocFlow harmonyOS面试题 搭建个人相关服务器 sqlite3 产品经理 ubuntu24 vivado24 MDK 嵌入式开发工具 论文笔记 sublime text 崖山数据库 YashanDB k8s集群资源管理 云原生开发 wordpress 无法访问wordpess后台 打开网站页面错乱 linux宝塔面板 wordpress更换服务器 NFS 运维监控 自动化编程 性能测试 雨云服务器 pyautogui figma lsb_release /etc/issue /proc/version uname -r 查看ubuntu版本 bot Docker 架构与原理 leetcode 推荐算法 ros2 moveit 机器人运动 代理 CLion ai小智 语音助手 ai小智配网 ai小智教程 esp32语音助手 diy语音助手