• 在 AMD GPU 上使用 vLLM 的 Triton 推理服务器

在 AMD GPU 上使用 vLLM 的 Triton 推理服务器

2025-04-28 06:01:18 0 阅读

Triton Inference Server with vLLM on AMD GPUs — ROCm Blogs

2025年1月8日,作者:Fabricio Flores,Tiffany Mintz,Eliot Li,Yao Liu,Ted Themistokleous,Brian Pickrell,Vish Vadlamani

Triton 推理服务器是一个开源平台,旨在简化 AI 推理过程。它支持从各种机器学习和深度学习框架(包括 Tensorflow、PyTorch 和 vLLM)中部署、扩展和推理训练后的 AI 模型,使其适用于各种 AI 工作负载。它被设计为可跨多个环境工作,包括云、数据中心和边缘设备。

Triton 推理服务器的一些功能包括:

  • 框架灵活性: 允许部署来自不同框架的模型(参见 Triton 推理服务器后台),无论底层基础设施如何。此灵活性允许在同一硬件上运行多个模型或一个模型的多个实例,提高资源利用率。

  • 硬件和部署多样性: 它针对 GPU 和 CPU 环境都进行了优化,这使得它可以部署在各种硬件上。Triton 推理服务器可以在云端、数据中心或边缘设备上使用,使其高度多样化。

  • 性能优化: 通过动态批处理增强推理性能,动态批处理聚合较小的推理请求以优化处理并实现并发模型执行。这种能力允许同时运行多个模型,对于需要最小延迟的实时应用至关重要。

在本文中,我们将逐步向您展示如何在 AMD GPU 上使用 ROCm 设置具有 vLLM 后端的 Triton 推理服务器。我们首先简要介绍将 vLLM 作为 Triton 推理服务器后端的一些关键方面。然后,我们提供详细的操作指南,展示如何使用 vLLM 后端设置 Triton 推理服务器,并在3个 LLMs(`microsoft/phi-2`、`mistral-7b-instruct` 和 meta-llama/Meta-Llama-3-8B-Instruct)上进行推理测试。

要求

  • AMD GPU: 参见 ROCm 文档页面 了解支持的硬件和操作系统。本文在配备8个 AMD Instinct MI210 GPUs 的机器上进行了测试。

  • ROCm 6.1+: 参见 ROCm Linux 安装指南 了解安装说明。

  • Docker: 参见 在 Ubuntu 上安装 Docker 引擎 了解安装说明。

  • Hugging Face 访问令牌: 此博客需要一个 Hugging Face 帐户,并生成一个 用户访问令牌。

  • 访问 Hugging Face 上的 mistral 和 Llama-3 模型. 这些是 Hugging Face 上的 限制访问模型。如需请求访问,请参见 mistralai/Mistral-7B-Instruct-v0.2 和 meta-llama/Meta-Llama-3-8B-Instruct。

您可以在此 GitHub 文件夹 找到与本文相关的文件。

Triton 推理服务器:vLLM 后端

Triton 推理服务器的后端指的是在推理过程中负责执行 AI 模型的组件。后端是一个围绕特定机器学习框架(如 PyTorch, TensorFlow, vLLM或其他)的封装。每个后端都实现为一个共享库,模型可以配置为使用特定的后端。例如,如果一个模型使用 PyTorch,那么后端将配置为与 PyTorch 库交互。

Triton 推理服务器项目提供了一组经过测试和在每个版本中更新的支持的后端。关于支持的后端列表,请参见 Where can I find all the backends that are available for Triton?可以找到所有可用的 Triton 后端。本博客重点介绍 vLLM 后端。

使用 vLLM 作为后端可以启用大语言模型(LLMs)的推理服务,其特点是高吞吐量和低延迟。vLLM 是一个专门为处理 LLM 推理优化的引擎,特别是在持续批处理和内存效率至关重要的场景下。

以下是 Triton 推理服务器中 vLLM 的一些关键方面:

  • vLLM 集成: vLLM 从23.10 版本开始集成到 Triton 推理服务器中。可以通过包含 vLLM 后端的预构建容器或通过构建自定义容器来使用该集成。这种集成允许通过 Triton 推理服务器的灵活和可扩展架构提供如 Facebook 的 OPT 系列、LLaMA 模型等模型服务。

  • 配置与部署: 在设置 vLLM 作为后端时,需配置模型仓库。这个仓库包括 model.json 和 config.pbtxt 文件。这些配置定义了模型参数,例如内存利用、批处理大小和模型特定设置。

  • 性能特性: Triton 推理服务器中的 vLLM 后端支持异步推理,这对于大规模文本生成和处理等任务至关重要。张量并行和分页注意力等特性增强了多 GPU 性能,使 vLLM 适合跨分布式系统处理大模型。

  • 部署选项: 使用 vLLM 后端的模型可以部署在各种平台上,包括云环境。容器化部署确保模型可以根据性能需求进行水平扩展,并支持 Kubernetes 和其他编排系统。

使用 vLLM 作为 Triton 推理服务器的后端,提供了一个高度优化的服务引擎,专门适应 LLM 的特定需求,并且还能利用 Triton 推理服务器的强大基础设施以实现可扩展的推理服务。

设置带有 vLLM 后端的 Triton 推理服务器

要使用 Triton 推理服务器和 vLLM 后端执行大型语言模型的推理,请按照以下步骤操作:

  • 设置带有 vLLM 后端的 Triton 推理服务器: 我们正在配置一个 docker compose 文件,其中包括一个带有 vLLM 后端的 Triton 推理服务器容器。该 docker compose 文件引用了预先安装了 Triton 推理服务器的 Docker 镜像(该镜像可以从源代码构建或从注册表中拉取),定义了 GPU 访问,设置了存储库路径,并暴露了必要的端口。

  • 准备模型库: 模型库是一个目录或一组目录,其中包含将用于推理的模型。每个模型在存储库中以特定的结构组织。每次 Triton 推理服务器启动时都会扫描和加载此结构。

    模型库的结构如下:

    model_repository/
        ├── /
        │   ├── config.pbtxt  # 描述模型的配置文件
        │   ├── 1/  # 版本目录(Triton 推理服务器支持版本控制)
        │   │   └── model.onnx  # 实际的模型文件(例如,ONNX,PyTorch,vLLM)
        │   └── 2/
        │       └── model.onnx
        ├── /
        │   ├── config.pbtxt
        │   ├── 1/
        │   │   └── model.json
        │   └── 2/
        │       └── model.json
    

    model_repository 是包含一个或多个子目录的根目录,每个子目录代表一个模型。每个模型被组织到一个 模型目录 (), 中,目录名称对应于模型的名称. 在模型目录中,有版本目录 (1/2/) 允许同一模型的多个版本共存。每个版本目录包含实际的模型文件。这些文件使 Triton 推理服务器能够识别和服务正确的版本。模型文件 (model.onnxmodel.json, 等) 存储模型的架构和推理参数。最后,配置文件(`config.pbtxt`)定义了输入和输出张量的名称、形状、数据类型和其他配置。

  • 定义模型配置和模型文件: 使用 vLLM 后端时,模型配置文件必须除了数据类型和形状外,还指定后端类型。一个简化版本的 config.pbtxt 如下:

    backend: "vllm"
    
    input [
    {
        name: "text_input"
        data_type: TYPE_STRING
        dims: [ 1 ]
    }
    ]
    
    output [
    {
        name: "text_output"
        data_type: TYPE_STRING
        dims: [ -1 ]
    }
    ]
    

    而模型文件 model.json,其中指定了模型初始化和推理参数,如下:

    {
        "model":"meta-llama/Meta-Llama-3-8B-Instruct",
        "gpu_memory_utilization": 0.8,
        "tensor_parallel_size": 2,
        "trust_remote_code": true,
        "disable_log_requests": true,
        "enforce_eager": true,
        "max_model_len": 2048
    }
    

    这些参数中,`model` 指定模型的名称,`gpu_memory_utilization` 限制模型只能使用 GPU 内存的一定百分比,`tensor_parallel_size` 定义模型应使用的 GPU 数量以进行并行处理。有关更多参数和配置文件的详细信息, 请参见Triton Inference Server-vLLM 文档: 启动 Triton 推理服务器.

我们创建了一个 Docker Compose 配置,自动化了带有 vLLM 后端的 Triton 推理服务器的整个设置。此设置包括构建 Docker 镜像,通过 docker-compose.yaml 文件配置 AMD GPU 访问权限,并设置包含 3 个不同的大型语言模型(LLM)的模型库(`./triton_server_vllm/src/model_repository`)以进行测试。使用此设置,运行 docker compose build 和 docker compose up 命令来启动 Triton 推理服务器,而无需手动完成前面的步骤。

让我们从源代码开始构建 Triton 推理服务器 Docker 镜像。克隆包含 AMD ROCm 版本的 Triton 推理服务器的存储库:

git clone https://github.com/ROCm/tritoninferenceserver-vllm.git

接下来,进入 tritoninferenceserver-vllm 目录并运行 build-vllm-docker.py Python 脚本来构建 Docker 镜像:

cd tritoninferenceserver-vllm

python3 build-vllm-docker.py --no-container-pull --enable-logging --enable-stats 
  --enable-tracing --enable-rocm  --endpoint=grpc 
  --image gpu-base,rocm/pytorch:rocm6.0.2_ubuntu22.04_py3.10_pytorch_2.1.2 
  --endpoint=http --backend=python --backend=vllm

新构建的 Docker 镜像名为 tritonserver。要验证它的存在,请使用以下命令:

docker images | grep tritonserver

输出将类似于:

REPOSITORY                TAG            IMAGE ID       CREATED         SIZE
tritonserver              latest         fffefb8a8258   22 hours ago    62.8GB

构建完 tritonserver Docker 镜像后,让我们返回到原始目录并克隆这个博客的存储库:

cd ..
git clone https://github.com/ROCm/rocm-blogs.git
cd rocm-blogs/blogs/artificial-intelligence/triton_server_vllm/docker

然后编辑环境文件:`./triton_server_vllm/docker/.env` 并提供 Hugging Face Token:

HUGGING_FACE_HUB_TOKEN=

接下来,运行以下命令赋予 start_services.sh 脚本执行权限:

chmod +x start_services.sh

最后,构建并启动 Docker 容器:

docker compose build
docker compose up

注意:启动容器和服务将花费一些时间,因为模型 Mistral-7B-Instruct-v0.1、`microsoft/phi-2` 和 meta-llama/Meta-Llama-3-8B-Instruct 将从 Hugging Face Hub 下载和提供服务。

执行 docker compose up 命令后,终端将显示类似以下的输出:

[+] Running 2/1
 ✔ Network docker_default                 Created  0.1s 
 ✔ Container docker-triton_server_vllm-1  Created  0.0s 
Attaching to triton_server_vllm-1
...
triton_server_vllm-1  | [I 2024-08-27 15:33:39.976 ServerApp] Jupyter Server 2.14.2 is running at:
triton_server_vllm-1  | [I 2024-08-27 15:33:39.976 ServerApp] http://3dd761dca9b9:8888/lab
triton_server_vllm-1  | [I 2024-08-27 15:33:39.976 ServerApp]     http://127.0.0.1:8888/lab
triton_server_vllm-1  | [I 2024-08-27 15:33:39.976 ServerApp] Use Control-C to stop this server and shut down all kernels (twice to skip confirmation).
...

triton_server_vllm-1  | INFO 08-27 22:22:12 llm_engine.py:68] Initializing an LLM engine (v0.3.3) with config: model='mistralai/Mistral-7B-Instruct-v0.1', tokenizer='mistralai/Mistral-7B-Instruct-v0.1', tokenizer_mode=auto, revision=None, tokenizer_revision=None, trust_remote_code=True, dtype=torch.bfloat16, max_seq_len=32768, download_dir=None, load_format=auto, tensor_parallel_size=2, disable_custom_all_reduce=True, quantization=None, enforce_eager=True, kv_cache_dtype=auto, device_config=cuda, seed=0)

triton_server_vllm-1  | INFO 08-27 22:22:13 llm_engine.py:68] Initializing an LLM engine (v0.3.3) with config: model='microsoft/phi-2', tokenizer='microsoft/phi-2', tokenizer_mode=auto, revision=None, tokenizer_revision=None, trust_remote_code=True, dtype=torch.float16, max_seq_len=2048, download_dir=None, load_format=auto, tensor_parallel_size=2, disable_custom_all_reduce=True, quantization=None, enforce_eager=True, kv_cache_dtype=auto, device_config=cuda, seed=0)

triton_server_vllm-1  | INFO 08-27 22:22:13 llm_engine.py:68] Initializing an LLM engine (v0.3.3) with config: model='meta-llama/Meta-Llama-3-8B-Instruct', tokenizer='meta-llama/Meta-Llama-3-8B-Instruct', tokenizer_mode=auto, revision=None, tokenizer_revision=None, trust_remote_code=True, dtype=torch.bfloat16, max_seq_len=8192, download_dir=None, load_format=auto, tensor_parallel_size=2, disable_custom_all_reduce=True, quantization=None, enforce_eager=True, kv_cache_dtype=auto, device_config=cuda, seed=0)

当 Triton Inference Server 准备就绪时,控制台将显示以下内容:

triton_server_vllm-1  | I0827 22:27:53.490967 15 grpc_server.cc:2513] Started GRPCInferenceService at 0.0.0.0:8001
triton_server_vllm-1  | I0827 22:27:53.491185 15 http_server.cc:4497] Started HTTPService at 0.0.0.0:8000

在控制台的输出中我们看到:

  •  Jupyter 服务器正在运行,地址为 http://127.0.0.1:8888/lab

  • 模型 mistralai/Mistral-7B-Instruct-v0.1 正在初始化。可以在 http://localhost:8000/v2/models/mistral-7b-instruct/generate 发送请求

  • 模型 microsoft/phi-2 正在初始化。可以在 http://localhost:8000/v2/models/phi2/generate 发送请求

  • 模型 meta-llama/Meta-Llama-3-8B-Instruct 正在初始化。可以在 http://localhost:8000/v2/models/llama3-8b-instruct/generate 发送请求

随着模型准备好进行推理,我们可以进行一些测试。

理解模型库结构和配置

docker-compose.yaml 文件包含创建 Docker 容器的必要配置,该容器可以服务 phi-2Mistral-7B-Instruct-v0.1, 和 Meta-Llama-3-8B-Instruct 模型。用于服务和执行每个模型推理的具体配置位于 ./triton_server_vllm/src/model_repository 文件夹中。在我们的例子中,这个 model_repository 文件夹具有以下结构:

model_repository/
    ├── llama3-8b-instruct/
    │   ├── config.pbtxt    # 描述模型的配置文件
    │   ├── 1/              # 版本目录
    │       └── model.json  # 实际的模型文件
    ├── mistral-7b-instruct/
    │   ├── config.pbtxt
    │   ├── 1/
    │       └── model.json
    ├── phi2/
    │   ├── config.pbtxt
    │   ├── 1/
    │       └── model.json

每个模型的 model.json 文件包含其自身的配置。对于 llama3-8b-instruct 模型,其 model.json 文件如下:

{
    "model":"meta-llama/Meta-Llama-3-8B-Instruct",
    "gpu_memory_utilization": 0.8,
    "tensor_parallel_size": 2,
    "trust_remote_code": true,
    "disable_log_requests": true,
    "enforce_eager": true,
    "max_model_len": 2048
}

For the Mistral-7B-Instruct-v0.1 model its model.json is:

{
    "model":"mistralai/Mistral-7B-Instruct-v0.1",
    "gpu_memory_utilization": 0.8,
    "tensor_parallel_size": 2,
    "trust_remote_code": true,    
    "disable_log_requests": true,
    "enforce_eager": true,
    "max_model_len": 2048
}

对于 Mistral-7B-Instruct-v0.1 模型,其 model.json 文件如下:

{
    "model":"microsoft/phi-2",
    "gpu_memory_utilization": 0.8,
    "tensor_parallel_size": 1,
    "trust_remote_code": true,
    "disable_log_requests": true,
    "enforce_eager": true,
    "max_model_len": 2048
}

每个 model.json 文件中的 tensor_parallel_size 参数值指定了用于每个模型并行计算的 GPU 数量。由于我们希望同时运行这3个模型,并且拥有8个 AMD Instinct MI210 GPU,这意味着 Meta-Llama-3-8B-Instruct 将使用8个GPU中的2个,`Mistral-7B-Instruct-v0.1` 将使用剩余6个GPU中的2个,而 phi-2 将使用剩余4个GPU中的1个。如果某个模型需要更多GPU,我们需要调整一个或多个模型的 tensor_parallel_size 参数值以适应可用的GPU数量。

关于更多参数和配置文件的信息,请参阅 Triton Inference Server-vLLM 文档:Start Triton Inference Server

使用 phi-2, Mistral-7B-Instruct-v0.1 和 Meta-Llama-3-8B-Instruct 进行推理

当我们的 Jupyter Lab 和 Triton 推理服务器运行时,导航到 http://127.0.0.1:8888/lab/tree/src/triton_server_vllm.ipynb 进行这些模型的推理。

让我们开始测试 microsoft/phi-2,如下:

# 定义端点URL
url = "http://localhost:8000/v2/models/phi2/generate"

# 定义负载
payload = {
    "text_input": "What is triton inference server?",
    "parameters": {
        "stream": False,
        "temperature": 0,
        "max_tokens": 100
    }
}

# 设置请求头(可选)
headers = {
    "Content-Type": "application/json"
}

# 发送 POST 请求
response = requests.post(url, data=json.dumps(payload), headers=headers)

# 打印响应
print(response.status_code)
print(response.json())

我们正在向 Triton 推理服务器发送带有提示的负载:`"What is triton inference server?"。输出包含响应状态 200` 和一个 json 对象:

200
{'model_name': 'phi2', 'model_version': '1', 'text_output': 'What is triton inference server?

Triton inference server is a software that helps to run machine learning models on a computer. It is like a helper that makes sure the models work correctly and gives us the results we need.

What is the purpose of triton inference server?

The purpose of triton inference server is to help us use machine learning models in our daily lives. It makes it easier for us to use these models and get the results we need.

How does triton inference server'}

使用`Mistral-7B-Instruct-v0.1`时,我们有如下代码:

# 定义端点URL
url = "http://localhost:8000/v2/models/mistral-7b-instruct/generate"

# 定义负载
payload = {
    "text_input": "What is triton inference server?",
    "parameters": {
        "stream": False,
        "temperature": 0,
        "max_tokens": 100
    }
}

# 设置头信息 (可选)
headers = {
    "Content-Type": "application/json"
}

# 发送POST请求
response = requests.post(url, data=json.dumps(payload), headers=headers)

# 打印响应
print(response.status_code)
print(response.json())

输出如下:

200
{'model_name': 'mistral-7b-instruct', 'model_version': '1', 'text_output': 'What is triton inference server?

Triton Inference Server is an open-source, high-performance, and scalable inference engine for deep learning models. It supports a wide range of deep learning frameworks, including TensorFlow, PyTorch, and MXNet, and can be used to deploy deep learning models in various environments, such as edge devices, cloud services, and on-premises data centers.

Triton Inference Server provides a unified API for accessing'}

最终,使用`meta-llama/Meta-Llama-3-8B-Instruct`进行推理时,我们有如下代码:

# 定义端点URL
url = "http://localhost:8000/v2/models/llama3-8b-instruct/generate"

# 定义负载
payload = {
    "text_input": "What is triton inference server?",
    "parameters": {
        "stream": False,
        "temperature": 0,
        "max_tokens": 100
    }
}

# 设置头信息 (可选)
headers = {
    "Content-Type": "application/json"
}

# 发送POST请求
response = requests.post(url, data=json.dumps(payload), headers=headers)

# 打印响应
print(response.status_code)
print(response.json())

POST请求的响应如下:

200
{'model_name': 'llama3-8b-instruct', 'model_version': '1', 'text_output': 'What is triton inference server?¶

Triton Inference Server is an open-source, high-performance, scalable, and extensible deep learning inference server developed by NVIDIA. It is designed to serve as a production-ready inference engine for deep learning models, allowing developers to deploy and manage their models in a scalable and efficient manner.

Triton Inference Server provides a number of features that make it an attractive choice for deploying deep learning models in production environments, including:

1. **Model serving**: Triton Inference Server can'}

同时部署这三个模型(`microsoft/phi-2`,`Mistral-7B-Instruct-v0.1`,和`meta-llama/Meta-Llama-3-8B-Instruct`)使我们能够提供多个LLM服务。Triton推理服务器与vLLM后端管理了必要的资源,并优化了内存利用率,以同时运行这些模型。

总结

在这篇博客中,我们展示了使用Triton推理服务器与vLLM后端部署和服务三个LLM。这些都由AMD GPU和ROCm软件平台提供支持。我们提供了一步步指南,介绍如何用Triton推理服务器高效处理多个LLM,展示了AMD硬件在高需求AI应用中的强大性能和可靠性。

本文地址:https://www.vps345.com/4363.html

搜索文章

Tags

PV计算 带宽计算 流量带宽 服务器带宽 上行带宽 上行速率 什么是上行带宽? CC攻击 攻击怎么办 流量攻击 DDOS攻击 服务器被攻击怎么办 源IP 服务器 linux 运维 游戏 云计算 deepseek Ollama 模型联网 API CherryStudio javascript 前端 chrome edge 进程 操作系统 进程控制 Ubuntu ssh python MCP llama 算法 opencv 自然语言处理 神经网络 语言模型 数据库 centos oracle 关系型 安全 分布式 django fastapi flask web3.py ubuntu 笔记 C 环境变量 进程地址空间 react.js 前端面试题 node.js 持续部署 Dell R750XS 科技 ai java 人工智能 个人开发 harmonyos 华为 开发语言 typescript 计算机网络 rust http 网络 numpy adb nginx 监控 自动化运维 阿里云 网络安全 网络协议 macos windows 搜索引擎 android kubernetes 容器 学习方法 经验分享 程序人生 github 创意 社区 docker DeepSeek-R1 API接口 flutter Hyper-V WinRM TrustedHosts RTSP xop RTP RTSPServer 推流 视频 kvm 无桌面 命令行 后端 c++ matlab YOLOv8 NPU Atlas800 A300I pro asi_bench ecm bpm tcp/ip Deepseek c语言 udp unity golang IIS .net core Hosting Bundle .NET Framework vs2022 php ollama llm 串口服务器 zotero WebDAV 同步失败 代理模式 pycharm YOLO 深度学习 pytorch vue.js audio vue音乐播放器 vue播放音频文件 Audio音频播放器自定义样式 播放暂停进度条音量调节快进快退 自定义audio覆盖默认样式 自动化 蓝耘科技 元生代平台工作流 ComfyUI 面试 性能优化 jdk intellij-idea 架构 sql KingBase 银河麒麟 kylin v10 麒麟 v10 mcp mcp-proxy mcp-inspector fastapi-mcp agent sse spring boot tomcat ESP32 LDAP websocket nuxt3 vue3 实时音视频 filezilla 无法连接服务器 连接被服务器拒绝 vsftpd 331/530 统信 国产操作系统 虚拟机安装 gitlab 多线程服务器 Linux网络编程 conda pillow spring json html5 firefox 网络工程师 华为认证 3d 数学建模 URL 网络结构图 AI Agent ftp jenkins 云原生 ci/cd stm32 单片机 qt 嵌入式硬件 开源 Cline ecmascript nextjs react reactjs docker compose av1 电视盒子 机顶盒ROM 魔百盒刷机 LLM Web APP Streamlit hadoop 运维开发 机器学习 opensearch helm 学习 web安全 ssrf 失效的访问控制 HTML audio 控件组件 vue3 audio音乐播放器 Audio标签自定义样式默认 vue3播放音频文件音效音乐 自定义audio播放器样式 播放暂停调整声音大小下载文件 vim MI300x DeepSeek AIGC openwrt maven ide ux 多线程 k8s Python 网络编程 聊天服务器 套接字 TCP 客户端 Socket 小程序 apache Linux PID svn mysql string模拟实现 深拷贝 浅拷贝 经典的string类问题 三个swap 开发环境 SSL证书 c# odoo 服务器动作 Server action 能力提升 面试宝典 技术 IT信息化 live555 源码剖析 rtsp实现步骤 流媒体开发 其他 Cursor 报错 智能路由器 电脑 Flask FastAPI Waitress Gunicorn uWSGI Uvicorn prometheus kylin 银河麒麟操作系统 国产化 rpc 远程过程调用 Windows环境 直播推流 腾讯云 JAVA Java spring cloud 物联网 硬件工程 pygame 小游戏 五子棋 vscode FTP服务器 媒体 微信公众平台 C语言 ipython 服务器繁忙 联想开天P90Z装win10 DigitalOcean GPU服务器购买 GPU服务器哪里有 GPU服务器 jmeter 软件测试 gitee AI编程 microsoft 压力测试 mount挂载磁盘 wrong fs type LVM挂载磁盘 Centos7.9 C++软件实战问题排查经验分享 0xfeeefeee 0xcdcdcdcd 动态库加载失败 程序启动失败 程序运行权限 标准用户权限与管理员权限 权限 僵尸进程 eureka 统信UOS 麒麟 bonding 链路聚合 redis 课程设计 大数据 cursor 向日葵 MCP server C/S LLM windows日志 安全架构 游戏服务器 Minecraft 命名管道 客户端与服务端通信 缓存 agi 计算机视觉 ansible playbook gpu算力 flash-attention mongodb H3C 目标检测 华为云 springsecurity6 oauth2 授权服务器 前后端分离 uni-app 服务器无法访问 ip地址无法访问 无法访问宝塔面板 宝塔面板打不开 机器人 es jvm ssl https 集成学习 集成测试 openEuler jar arm html FunASR ASR 佛山戴尔服务器维修 佛山三水服务器维修 android studio 交互 go file server http server web server Docker Hub docker pull 镜像源 daemon.json Linux Reactor 设计模式 C++ 代码调试 ipdb 远程连接 rdp 实验 远程工作 负载均衡 消息队列 chatgpt UOS 统信操作系统 yum oceanbase rc.local 开机自启 systemd ollama下载加速 大模型 备份SQL Server数据库 数据库备份 傲梅企业备份网络版 llama3 Chatglm 开源大模型 深度优先 图论 并集查找 换根法 树上倍增 ddos shell MNN Qwen pppoe radius hugo arm开发 远程桌面 gaussdb ruoyi Dify DeepSeek行业应用 Heroku 网站部署 xss next.js 部署 部署next.js AI agent java-ee bash IDEA googlecloud EMQX MQTT 通信协议 minio 弹性计算 虚拟化 KVM 计算虚拟化 弹性裸金属 idm 安全威胁分析 vscode 1.86 医疗APP开发 app开发 漏洞 宝塔面板 同步 备份 建站 unity3d 安装教程 GPU环境配置 Ubuntu22 CUDA PyTorch Anaconda安装 SSH 豆瓣 追剧助手 迅雷 nas 微信 内存 爬虫 数据集 postman mock mock server 模拟服务器 mock服务器 Postman内置变量 Postman随机数据 ios aws 备选 网站 api 调用 示例 银河麒麟桌面操作系统 Kylin OS IIS服务器 IIS性能 日志监控 intellij idea 监控k8s集群 集群内prometheus git elasticsearch sqlite dubbo TCP服务器 qt项目 qt项目实战 qt教程 fpga开发 openssl 密码学 模拟退火算法 国标28181 视频监控 监控接入 语音广播 流程 SIP SDP mosquitto 外网访问 内网穿透 端口映射 word图片自动上传 word一键转存 复制word图片 复制word图文 复制word公式 粘贴word图文 粘贴word公式 kafka hibernate 编辑器 根服务器 ffmpeg 音视频 AI大模型 大模型入门 大模型教程 webrtc GaN HEMT 氮化镓 单粒子烧毁 辐射损伤 辐照效应 sqlserver ukui 麒麟kylinos openeuler 微服务 游戏程序 .net springboot Nuxt.js 温湿度数据上传到服务器 Arduino HTTP big data express okhttp CORS 跨域 雨云 NPS 孤岛惊魂4 virtualenv debian 恒源云 tcp oneapi open webui 博客 交换机 excel Headless Linux Docker Compose docker-compose 远程登录 telnet pdf asp.net大文件上传 asp.net大文件上传下载 asp.net大文件上传源码 ASP.NET断点续传 asp.net上传文件夹 asp.net上传大文件 .net core断点续传 rtsp rtp visualstudio TRAE zookeeper WSL win11 无法解析服务器的名称或地址 v10 软件 armbian u-boot 重启 排查 系统重启 日志 原因 驱动开发 嵌入式实习 Samba SWAT 配置文件 服务管理 网络共享 seatunnel RustDesk自建服务器 rustdesk服务器 docker rustdesk yaml Ultralytics 可视化 黑客技术 流式接口 系统安全 项目部署到linux服务器 项目部署过程 本地部署 web pyqt 微信小程序域名配置 微信小程序服务器域名 微信小程序合法域名 小程序配置业务域名 微信小程序需要域名吗 微信小程序添加域名 gcc 半虚拟化 硬件虚拟化 Hypervisor etl 7z etcd 数据安全 RBAC wireshark 测试工具 EasyConnect 嵌入式 linux驱动开发 企业微信 Linux24.04 deepin Kali Linux 黑客 渗透测试 信息收集 输入法 h.264 micropython esp32 mqtt ceph 网卡的名称修改 eth0 ens33 .netcore ue4 着色器 ue5 虚幻 远程 命令 执行 sshpass 操作 网工 大语言模型 npm dify postgresql pgpool 开机自启动 自动驾驶 rag ragflow ragflow 源码启动 grafana vscode1.86 1.86版本 ssh远程连接 田俊楠 SSE rocketmq open Euler dde 深度求索 私域 知识库 迁移指南 bug clickhouse ui outlook frp xrdp jina TrinityCore 魔兽世界 腾讯云大模型知识引擎 cuda cudnn anaconda mamba Vmamba sysctl.conf vm.nr_hugepages 视觉检测 信息与通信 adobe Docker引擎已经停止 Docker无法使用 WSL进度一直是0 镜像加速地址 xcode elk 软件工程 中间件 iis Linux的基础指令 W5500 OLED u8g2 chfs ubuntu 16.04 数据分析 1024程序员节 合成模型 扩散模型 图像生成 token sas 环境迁移 序列化反序列化 lio-sam SLAM 服务器管理 配置教程 服务器安装 网站管理 崖山数据库 YashanDB 鸿蒙 鸿蒙系统 composer 视频编解码 pip Ubuntu 24.04.1 轻量级服务器 产测工具框架 IMX6ULL 管理框架 python3.11 dash 正则表达式 ip visual studio code 群晖 文件分享 NFS jupyter DevEco Studio HarmonyOS OpenHarmony 真机调试 毕设 游戏引擎 相差8小时 UTC 时间 前端框架 远程控制 远程看看 远程协助 HiCar CarLife+ CarPlay QT RK3588 yolov8 Node-Red 编程工具 流编程 知识图谱 网络穿透 云服务器 CPU rsyslog cpu 实时 使用 鲲鹏 昇腾 npu 高效日志打印 串口通信日志 服务器日志 系统状态监控日志 异常记录日志 低代码 三级等保 服务器审计日志备份 sdkman 程序 编程 性能分析 bat 华为od OD机试真题 华为OD机试真题 服务器能耗统计 devops dns 软考 nvidia linux 命令 sed 命令 prometheus数据采集 prometheus数据模型 prometheus特点 css 相机 智能音箱 智能家居 微信小程序 多个客户端访问 IO多路复用 回显服务器 TCP相关API 实时互动 bootstrap tailscale derp derper 中转 主板 电源 网卡 可信计算技术 网络攻击模型 矩阵 线性代数 电商平台 大文件分片上传断点续传及进度条 如何批量上传超大文件并显示进度 axios大文件切片上传详细教 node服务器合并切片 vue3大文件上传报错提示错误 大文件秒传跨域报错cors XCC Lenovo 压测 ECS 繁忙 解决办法 替代网站 汇总推荐 AI推理 n8n 工作流 workflow CDN gateway Clion Nova ResharperC++引擎 Centos7 远程开发 dba prompt easyui langchain mysql离线安装 ubuntu22.04 mysql8.0 源码 毕业设计 hive Hive环境搭建 hive3环境 Hive远程模式 wsgiref Web 服务器网关接口 webgl list 数据结构 skynet 系统架构 数据挖掘 centos-root /dev/mapper yum clean all df -h / du -sh 考研 onlyoffice 在线office 硬件架构 DOIT 四博智联 防火墙 NAT转发 NAT Server rclone AList webdav fnOS Unity Dedicated Server Host Client 无头主机 stm32项目 embedding wsl 基础入门 IPv4 子网掩码 公网IP 私有IP SSH 密钥生成 SSH 公钥 私钥 生成 chrome 浏览器下载 chrome 下载安装 mac 谷歌浏览器下载 r语言 iperf3 带宽测试 常用命令 文本命令 目录命令 ShenTong 计算机 thingsboard matplotlib unix LORA NLP ardunio BLE 端口测试 IMX317 MIPI H265 VCU iDRAC R720xd iot dell服务器 iventoy VmWare OpenEuler css3 epoll safari Mac 系统 XFS xfs文件系统损坏 I_O error 历史版本 下载 安装 MySql 线程 磁盘监控 移动魔百盒 USB转串口 CH340 飞牛NAS 飞牛OS MacBook Pro zabbix harmonyOS面试题 服务器配置 生物信息学 邮件APP 免费软件 gitea Ubuntu Server Ubuntu 22.04.5 服务器主板 AI芯片 Jellyfin Spring Security 我的世界 我的世界联机 数码 我的世界服务器搭建 asm AI-native Docker Desktop 王者荣耀 Wi-Fi 策略模式 单例模式 超融合 ESXi WebUI DeepSeek V3 jetty undertow tidb GLIBC 虚拟机 ISO镜像作为本地源 fd 文件描述符 云服务 文件系统 路径解析 云电竞 云电脑 todesk deepseek r1 BMC IPMI 带外管理 软链接 硬链接 模拟实现 职场和发展 db 硬件 设备 GPU PCI-Express 流水线 脚本式流水线 efficientVIT YOLOv8替换主干网络 TOLOv8 cocoapods threejs 3D make命令 makefile文件 sqlite3 g++ g++13 cnn DenseNet SenseVoice CrewAI rabbitmq ruby log4j iphone Windows Erlang OTP gen_server 热代码交换 事务语义 Qwen2.5-coder 离线部署 Ubuntu DeepSeek DeepSeek Ubuntu DeepSeek 本地部署 DeepSeek 知识库 DeepSeek 私有化知识库 本地部署 DeepSeek DeepSeek 私有化部署 uv freebsd 安卓 HarmonyOS Next Xinference RAGFlow glibc rustdesk 镜像 dns是什么 如何设置电脑dns dns应该如何设置 SSH 服务 SSH Server OpenSSH Server 宝塔面板访问不了 宝塔面板网站访问不了 宝塔面板怎么配置网站能访问 宝塔面板配置ip访问 宝塔面板配置域名访问教程 宝塔面板配置教程 kind AI写作 AI作画 QQ 聊天室 信号处理 ocr WSL2 navicat 思科模拟器 思科 Cisco IM即时通讯 剪切板对通 HTML FORMAT 无人机 ROS VMware安装Ubuntu Ubuntu安装k8s 测试用例 功能测试 muduo 个人博客 X11 Xming less KylinV10 麒麟操作系统 Vmware 计算机外设 银河麒麟服务器操作系统 系统激活 k8s集群资源管理 云原生开发 MacOS录屏软件 算力 RAGFLOW cd 目录切换 Radius camera Arduino 电子信息 高效远程协作 TrustViewer体验 跨设备操作便利 智能远程控制 tensorflow Ubuntu 24 常用命令 Ubuntu 24 Ubuntu vi 异常处理 GCC aarch64 编译安装 HPC 数据库架构 数据管理 数据治理 数据编织 数据虚拟化 图像处理 烟花代码 烟花 元旦 串口驱动 CH341 uart 485 图形化界面 windwos防火墙 defender防火墙 win防火墙白名单 防火墙白名单效果 防火墙只允许指定应用上网 防火墙允许指定上网其它禁止 apt 国内源 阻塞队列 生产者消费者模型 服务器崩坏原因 c laravel Linux无人智慧超市 LInux多线程服务器 QT项目 LInux项目 单片机项目 vue 直流充电桩 充电桩 selenium junit xpath定位元素 自动化测试 性能测试 SEO bcompare Beyond Compare 模拟器 教程 dity make 显示管理器 lightdm gdm 树莓派 VNC sentinel Xterminal 智能手机 NAS Termux RoboVLM 通用机器人策略 VLA设计哲学 vlm fot robot 视觉语言动作模型 具身智能 netty p2p redhat 游戏机 抗锯齿 Netty 即时通信 NIO 实习 HTTP 服务器控制 ESP32 DeepSeek Linux awk awk函数 awk结构 awk内置变量 awk参数 awk脚本 awk详解 firewall AD域 EMUI 回退 降级 升级 致远OA OA服务器 服务器磁盘扩容 程序员 加解密 Yakit yaklang 语音识别 AutoDL 中兴光猫 换光猫 网络桥接 自己换光猫 HCIE 数通 技术共享 ArkUI 多端开发 智慧分发 应用生态 鸿蒙OS vasp安装 边缘计算 智能硬件 查询数据库服务IP地址 SQL Server GoogLeNet MS Materials 金仓数据库 2025 征文 数据库平替用金仓 Typore eclipse 业界资讯 code-server SVN Server tortoise svn 数据可视化 SysBench 基准测试 流量运营 wordpress 无法访问wordpess后台 打开网站页面错乱 linux宝塔面板 wordpress更换服务器 单元测试 proxy模式 AISphereButler HAProxy 5G 3GPP 卫星通信 kamailio sip VoIP 大数据平台 虚拟局域网 银河麒麟高级服务器 外接硬盘 Kylin 换源 Debian echarts 信息可视化 网页设计 gradle transformer UDP的API使用 vSphere vCenter llama.cpp crosstool-ng Java Applet URL操作 服务器建立 Socket编程 网络文件读取 remote-ssh Dell HPE 联想 浪潮 tcpdump 交叉编译 rust腐蚀 wsl2 框架搭建 显卡驱动 Python基础 Python教程 Python技巧 selete 高级IO 技能大赛 多层架构 解耦 CVE-2024-7347 VPS .net mvc断点续传 实战案例 Linux环境 需求分析 规格说明书 deekseek iBMC UltraISO 状态模式 微信分享 Image wxopensdk 飞书 web3 环境配置 Kali Claude autodl 软件定义数据中心 sddc RTMP 应用层 反向代理 AnythingLLM AnythingLLM安装 IPMITOOL 硬件管理 opcua opcda KEPServer安装 P2P HDLC 大模型微调 工业4.0 k8s资源监控 annotations自动化 自动化监控 监控service 监控jvm IMM QT 5.12.12 QT开发环境 Ubuntu18.04 双系统 GRUB引导 Linux技巧 信号 rtsp服务器 rtsp server android rtsp服务 安卓rtsp服务器 移动端rtsp服务 大牛直播SDK docker搭建nacos详解 docker部署nacos docker安装nacos 腾讯云搭建nacos centos7搭建nacos 传统数据库升级 银行 LLMs springboot远程调试 java项目远程debug docker远程debug java项目远程调试 springboot远程 单一职责原则 hexo 移动云 小艺 Pura X 小智AI服务端 xiaozhi TTS FTP 服务器 can 线程池 uniapp 微信开放平台 微信公众号配置 宠物 免费学习 宠物领养 宠物平台 游戏开发 mariadb ssh远程登录 僵尸世界大战 游戏服务器搭建 多进程 linux上传下载 健康医疗 互联网医院 nfs wps SSL 域名 Anolis nginx安装 环境安装 linux插件下载 nac 802.1 portal VMware安装mocOS VMware macOS系统安装 vmware 卡死 VR手套 数据手套 动捕手套 动捕数据手套 毕昇JDK webstorm ros Trae IDE AI 原生集成开发环境 Trae AI 浏览器开发 AI浏览器 linux安装配置 mcu rnn Cookie 热榜 分布式训练 Kylin-Server AI代码编辑器 Ubuntu共享文件夹 共享目录 Linux共享文件夹 内网环境 keepalived neo4j sonoma 自动更新 seleium chromedriver cpp-httplib xshell termius iterm2 目标跟踪 OpenVINO 推理应用 数据仓库 数据库开发 database WebRTC gpt win服务器架设 windows server ArcTS 登录 ArcUI GridItem arkUI 服务网格 istio 匿名管道 DBeaver kerberos js LInux SRS 流媒体 直播 chrome devtools ABAP perf openstack Xen 雨云服务器 TCP协议 存储维护 NetApp存储 EMC存储 系统开发 binder 车载系统 framework 源码环境 Logstash 日志采集 蓝桥杯 鸿蒙开发 移动开发 软负载 开发 CLion 语法 milvus CentOS Stream CentOS 服务器部署ai模型 黑苹果 swoole curl wget sequoiaDB 端口 查看 ss YOLOv12 捆绑 链接 谷歌浏览器 youtube google gmail risc-v firewalld 图形渲染 AI Agent 字节智能运维 ubuntu24.04.1 服务器数据恢复 数据恢复 存储数据恢复 北亚数据恢复 oracle数据恢复 visual studio alias unalias 别名 docker部署翻译组件 docker部署deepl docker搭建deepl java对接deepl 翻译组件使用 IO模型 西门子PLC 通讯 rpa triton 模型分析 混合开发 JDK fast regedit 开机启动 大模型应用 Redis Desktop 上传视频至服务器代码 vue3批量上传多个视频并预览 如何实现将本地视频上传到网页 element plu视频上传 ant design vue vue3本地上传视频及预览移除 自动化任务管理 宕机切换 服务器宕机 Linux find grep flink 本地化部署 代理 飞牛nas fnos 链表 京东云 yum源切换 更换国内yum源 springcloud 私有化 PVE vr 玩机技巧 软件分享 软件图标 mq Unity插件 x64 SIGSEGV xmm0 TrueLicense Linux的权限 软件需求 李心怡 Google pay Apple pay UDP ip命令 新增网卡 新增IP 启动网卡 docker部署Python Invalid Host allowedHosts DNS 办公自动化 自动化生成 pdf教程 PX4 idea 服务器时间 VMware创建虚拟机 网络爬虫 大模型推理 大模型学习 搭建个人相关服务器 minicom 串口调试工具 音乐服务器 Navidrome 音流 粘包问题 ping++ 产品经理 离线部署dify MDK 嵌入式开发工具 论文笔记 sublime text arcgis iftop 网络流量监控 eNSP 企业网络规划 华为eNSP 网络规划 运维监控 增强现实 沉浸式体验 应用场景 技术实现 案例分析 AR pyautogui 在线预览 xlsx xls文件 在浏览器直接打开解析xls表格 前端实现vue3打开excel 文件地址url或接口文档流二进 bot Docker 虚幻引擎 leetcode 推荐算法 DocFlow ubuntu24 vivado24 架构与原理 自动化编程 怎么卸载MySQL MySQL怎么卸载干净 MySQL卸载重新安装教程 MySQL5.7卸载 Linux卸载MySQL8.0 如何卸载MySQL教程 MySQL卸载与安装 Attention trea 阿里云ECS 论文阅读 ros2 moveit 机器人运动 RAID RAID技术 磁盘 存储 Deepseek-R1 私有化部署 推理模型 欧标 OCPP edge浏览器 lsb_release /etc/issue /proc/version uname -r 查看ubuntu版本 物联网开发 lua vue-i18n 国际化多语言 vue2中英文切换详细教程 如何动态加载i18n语言包 把语言json放到服务器调用 前端调用api获取语言配置文件 社交电子 RAG 检索增强生成 文档解析 大模型垂直应用 键盘 Open WebUI 域名服务 DHCP 符号链接 配置 音乐库 飞牛 实用教程 deep learning 强化学习 嵌入式系统开发 searxng midjourney 网络药理学 生信 PPI String Cytoscape CytoHubba 代理服务器 rime 影刀 #影刀RPA# 裸金属服务器 弹性裸金属服务器 kali 共享文件夹 嵌入式Linux IPC 状态管理的 UDP 服务器 Arduino RTOS gnu 信创 信创终端 中科方德 程序员创富 nlp 干货分享 黑客工具 密码爆破 figma 远程服务 Windsurf conda配置 conda镜像源 灵办AI EtherNet/IP串口网关 EIP转RS485 EIP转Modbus EtherNet/IP网关协议 EIP转RS485网关 EIP串口服务器 大模型部署 执法记录仪 智能安全帽 smarteye 聚类 mybatis C# MQTTS 双向认证 emqx 政务 分布式系统 监控运维 Prometheus Grafana docker命令大全 元服务 应用上架 ai小智 语音助手 ai小智配网 ai小智教程 esp32语音助手 diy语音助手 华为机试 数据库系统 dock 加速 做raid 装系统 docker run 数据卷挂载 交互模式 gpt-3 文心一言 trae 网络用户购物行为分析可视化平台 大数据毕业设计 火绒安全 内网服务器 内网代理 内网通信 EtherCAT转Modbus ECT转Modbus协议 EtherCAT转485网关 ECT转Modbus串口网关 EtherCAT转485协议 ECT转Modbus网关 VM搭建win2012 win2012应急响应靶机搭建 攻击者获取服务器权限 上传wakaung病毒 应急响应并溯源 挖矿病毒处置 应急响应综合性靶场 人工智能生成内容 金融 本地知识库部署 DeepSeek R1 模型 分析解读 拓扑图 剧本 docker搭建pg docker搭建pgsql pg授权 postgresql使用 postgresql搭建 linux环境变量 VLAN 企业网络 大模型面经 uni-file-picker 拍摄从相册选择 uni.uploadFile H5上传图片 微信小程序上传图片 VS Code mm-wiki搭建 linux搭建mm-wiki mm-wiki搭建与使用 mm-wiki使用 mm-wiki详解 基础环境 风扇控制软件 ubuntu20.04 开机黑屏 IO VSCode hosts 沙盒 word xml AD 域管理 spark HistoryServer Spark YARN jobhistory 多路转接 网站搭建 serv00 项目部署 grub 版本升级 扩容 Ark-TS语言 MacMini 迷你主机 mini Apple wpf Playwright 磁盘镜像 服务器镜像 服务器实时复制 实时文件备份 raid5数据恢复 磁盘阵列数据恢复 自定义客户端 SAS cmos AP配网 AK配网 小程序AP配网和AK配网教程 WIFI设备配网小程序UDP开 USB网络共享 大大通 第三代半导体 碳化硅 ai工具 java-rocketmq ldap OpenSSH minecraft GIS 遥感 WebGIS ssh漏洞 ssh9.9p2 CVE-2025-23419