最新资讯

  • K8s+SGLang实战:DeepSeek-r1:671b满血版多机多卡私有化部署全攻略

K8s+SGLang实战:DeepSeek-r1:671b满血版多机多卡私有化部署全攻略

2025-04-27 17:38:05 0 阅读

前言

随着 DeepSeek AI 大模型的崛起,近期私有化部署逐渐成为行业趋势。常见的部署方式之一是使用 Ollama,这对于个人用户和本地开发环境而言,具有较好的兼容性,尤其是支持各种 GPU 硬件和大模型的兼容性,且无需复杂的配置就能够启动。然而,相比于专业的推理引擎,如 SGLang、vLLM,Ollama 在性能上存在一定差距。

今天,阿程将介绍如何结合云原生K8s、SGLang、LeaderWorkerSet 和 Volcano 等技术栈,来高效部署分布式 DeepSeek-r1 满血版推理集群。通过这一架构,可以充分利用云原生技术的优势,确保模型的高性能推理以及集群的灵活扩展性。

选型SGLang推理引擎的理由:

图1 来自deepseek-ai/DeepSeek-V3

图2 来自deepseek-ai/DeepSeek-V3 Support

环境准备

1. 模型下载

本次阿程部署的是企业级满血版的Deepseek-R1 671B。

方式一:通过HuggingFace 下载
仓库地址:https://huggingface.co/deepseek-ai/DeepSeek-R1

方式二:通过 ModelScope 下载 (阿程通过此方式下载)
仓库地址:https://modelscope.cn/models/deepseek-ai/DeepSeek-R1/files

1、安装ModelScope   pip3 install modelscope       2、下载完整模型repo   mkdir /file_CPU_01/modelServing/DeepSeek-R1 -p   nohup modelscope download --model deepseek-ai/DeepSeek-R1 --local_dir /file_CPU_01/modelServing/DeepSeek-R1/ &   

在Linux环境下载后的完整DeepSeek-R1模型大小为638G

2. 软硬件环境介绍

硬件配置

|
服务器

|

数量(台)

|

CPU(核)

|

内存(TB)

|

系统版本

|

RDMA

|
| — | — | — | — | — | — |
|

NVIDIA H100 80GB HBM3

|

2

|

192

|

2.0Ti

|

Ubuntu 22.04.5 LTS

|

4 * IB(400 Gb/sec )

|

软件平台

|
软件名称

|

版本

|

备注

|
| — | — | — |
|

Kubernetes

|

v1.30.6

|

容器编排引擎

|
|

GPU Operator

|

v24.9.1

|

自动化管理配置GPU驱动程序

|
|

Volcano

|

v1.9.0

|

调度引擎

|
|

NVIDIA Driver

|

560.35.03

|

GPU驱动

|
|

NVIDIA-Fabric Manager

|

560.35.03

|

NVSwitch互联

|
|

CUDA

|

12.6

|

|
|

MLNX_OFED

|

24.10-0.7.0.0

|

IB驱动

|
|

NCCL

|

2.21.5

|

GPU多卡通信

|
|

SGLang

|

v0.4.2.post4-cu125

|

LLM推理引擎

|
|

LeaderWorkerSet

|

v0.5.1

|

PodGroup Deploy API

|
|

open-webui

|

v0.5.10

|

AI聊天互动工具

|

正式部署

云原生分布式推理集群部署拓扑:

1. 部署LWS API

Github项目地址:
https://github.com/kubernetes-sigs/lws

在企业分布式推理架构中,需要多个 Pod 共同组成一个推理服务,同时不同 Pod 还具有不同的主从角色(在 sglang 和 vllm 中称为head 和 worker 节点)。Kubernetes 原生提供了如 Deployments、StatefulSet 等资源管理对象,能够很好管理单个 Pod 的生命周期和扩缩容。但是对于多机多卡分布式推理需要跨多个 Pod 部署资源并对多个 Pod 进行扩缩容的场景,就无法使用 Deployments 或 StatefulSet 。

为了应对这个挑战,Kubernetes 社区在 StatefulSet 的基础上提出了 Leader-Worker Set (LWS) API ,LWS API 提供了一种原生的方式来管理分布式推理任务中常见的 Leader-Worker 模式,其中 Leader Pods 通常负责协调任务、Worker Pods 则负责执行实际的推理任务或计算工作。LWS API 能够确保 Leader Pods 在完全就绪之前,不会启动 Worker Pods。同时可以单独定义 Leader 和 Worker 所需的 Pod 数量

使用 LWS API 的主要优势包括:

  • 简化分布式推理的部署:通过 LWS API,提供了一个声明式的 API,用户只需定义 LeaderWorker 的配置,Kubernetes 控制器会自动处理其生命周期管理。用户可以更轻松地部署复杂的分布式推理工作负载,而无需手动管理 LeaderWorker 的依赖关系和副本数量;

  • 无缝水平扩容:分布式推理的服务需要多个 Pods 共同提供服务,在进行扩容时也需要以多个 Pod 一组为原子单位进行扩展, LWS 可以与 k8s HPA 无缝对接,将 LWS 作为HPA扩容的Target,实现推理服务整组扩容;

  • 拓扑感知调度 :在分布式推理中,不同 Pod 之间需要进行大量数据交互。为了减少通信延时 LWS API 结合了拓扑感知调度,保证能够保证 LeaderWorker Pod 能够调度到 RDMA 网络中拓扑距离尽可能接近的节点上。

来自LWS官网

1. 安装 LWS API 的 CRD   ~# VERSION=v0.5.1   ~# kubectl apply --server-side -f https://github.com/kubernetes-sigs/lws/releases/download/$VERSION/manifests.yaml      2. 检查LWS 资源   ~# kubectl get pods -n lws-system    NAME                                     READY   STATUS    RESTARTS   AGE   lws-controller-manager-7474f46db-xb8br   1/1     Running   0          14h   lws-controller-manager-7474f46db-xkcf2   1/1     Running   0          14h      ~# kubectl get svc -n lws-system   NAME                                     TYPE        CLUSTER-IP      EXTERNAL-IP   PORT(S)    AGE   lws-controller-manager-metrics-service   ClusterIP   10.233.35.119           8443/TCP   14h   lws-webhook-service                      ClusterIP   10.233.4.24             443/TCP    14h      ~# kubectl api-resources |grep -i lws   leaderworkersets                    lws                      leaderworkerset.x-k8s.io/v1                 true         LeaderWorkerSet

2. 通过 LWS 部署DeepSeek-r1模型

Deploy Manifest Yaml 如下:

apiVersion: leaderworkerset.x-k8s.io/v1   kind: LeaderWorkerSet   metadata:     name: sglang     labels:       app: sglang   spec:     replicas: 1     startupPolicy: LeaderCreated     rolloutStrategy:       type: RollingUpdate       rollingUpdateConfiguration:         maxSurge: 0         maxUnavailable: 2     leaderWorkerTemplate:       size: 2       restartPolicy: RecreateGroupOnPodRestart       leaderTemplate:         metadata:           labels:             role: leader         spec:           containers:             - name: sglang-head               image: ccr.ccs.tencentyun.com/kason/sglang:v0.4.2.post4-cu125               imagePullPolicy: IfNotPresent               workingDir: /sgl-workspace               command: ["sh", "-c"]               args:               - >                 cd /sgl-workspace && python3 -m sglang.launch_server                 --model-path /root/.cache/modelscope/DeepSeek-R1                 --served-model-name deepseek-r1                 --tp 16                 --dist-init-addr $LWS_LEADER_ADDRESS:20000                 --nnodes $LWS_GROUP_SIZE                 --node-rank 0                 --trust-remote-code                 --context-length 131072                 --enable-metrics                 --host 0.0.0.0                 --port 8000               env:                 - name: GLOO_SOCKET_IFNAME                   value: eth0                 - name: NCCL_IB_HCA                   value: "mlx5_0,mlx5_1,mlx5_4,mlx5_5"                 - name: NCCL_P2P_LEVEL                   value: "NVL"                 - name: NCCL_IB_GID_INDEX                   value: "0"                 - name: NCCL_IB_CUDA_SUPPORT                   value: "1"                 - name: NCCL_IB_DISABLE                   value: "0"                 - name: NCCL_SOCKET_IFNAME                   value: "eth0"                   #value: "ibs13,ibs11,ibs15,ibs17"                 - name: NCCL_DEBUG                   value: "INFO"                 - name: NCCL_NET_GDR_LEVEL                   value: "2"                 - name: POD_NAME                   valueFrom:                     fieldRef:                       fieldPath: metadata.name                 - name: SGLANG_USE_MODELSCOPE                   value: "true"               ports:               - containerPort: 8000                 name: http                 protocol: TCP               - containerPort: 20000                 name: distributed                 protocol: TCP               resources:                 limits:                   cpu: "128"                   memory: "1Ti"                   nvidia.com/gpu: "8"                   rdma/ib: "4"                 requests:                   cpu: "128"                   memory: "1Ti"                   nvidia.com/gpu: "8"                   rdma/ib: "4"               securityContext:                 capabilities:                   add:                   - IPC_LOCK                   - SYS_PTRACE               volumeMounts:                 - mountPath: /root/.cache/modelscope                   name: modelscope-cache                 - mountPath: /dev/shm                   name: shm-volume                 - name: localtime                   mountPath: /etc/localtime                   readOnly: true               readinessProbe:                 tcpSocket:                   port: 8000                 initialDelaySeconds: 120                 periodSeconds: 30           volumes:             - name: modelscope-cache               hostPath:                 path: /file_CPU_01/modelServing             - name: shm-volume               emptyDir:                 sizeLimit: 512Gi                 medium: Memory             - name: localtime               hostPath:                 path: /etc/localtime                 type: File           schedulerName: volcano       workerTemplate:         metadata:           name: sglang-worker         spec:           containers:             - name: sglang-worker               image: ccr.ccs.tencentyun.com/kason/sglang:v0.4.2.post4-cu125               imagePullPolicy: IfNotPresent               workingDir: /sgl-workspace               command: ["sh", "-c"]               args:               - >                 cd /sgl-workspace && python3 -m sglang.launch_server                 --model-path /root/.cache/modelscope/DeepSeek-R1                 --served-model-name deepseek-r1                 --tp 16                 --dist-init-addr $LWS_LEADER_ADDRESS:20000                 --nnodes $LWS_GROUP_SIZE                 --node-rank $LWS_WORKER_INDEX                 --trust-remote-code                 --context-length 131072                 --enable-metrics                 --host 0.0.0.0                 --port 8000               env:                 - name: GLOO_SOCKET_IFNAME                   value: eth0                 - name: NCCL_IB_HCA                   value: "mlx5_0,mlx5_1,mlx5_4,mlx5_5"                 - name: NCCL_P2P_LEVEL                   value: "NVL"                 - name: NCCL_IB_GID_INDEX                   value: "0"                 - name: NCCL_IB_CUDA_SUPPORT                   value: "1"                 - name: NCCL_IB_DISABLE                   value: "0"                 - name: NCCL_SOCKET_IFNAME                   value: "eth0"                   #value: "ibs13,ibs11,ibs15,ibs17"                 - name: NCCL_DEBUG                   value: "INFO"                 - name: NCCL_NET_GDR_LEVEL                   value: "2"                 - name: SGLANG_USE_MODELSCOPE                   value: "true"                 - name: LWS_WORKER_INDEX                   valueFrom:                     fieldRef:                       fieldPath: metadata.labels['leaderworkerset.sigs.k8s.io/worker-index']               ports:               - containerPort: 8000                 name: http                 protocol: TCP               - containerPort: 20000                 name: distributed                 protocol: TCP               resources:                 limits:                   cpu: "128"                   memory: "1Ti"                   nvidia.com/gpu: "8"                   rdma/ib: "4"                 requests:                   cpu: "128"                   memory: "1Ti"                   nvidia.com/gpu: "8"                   rdma/ib: "4"               securityContext:                 capabilities:                   add:                   - IPC_LOCK                   - SYS_PTRACE               volumeMounts:               - mountPath: /root/.cache/modelscope                 name: modelscope-cache               - mountPath: /dev/shm                 name: shm-volume               - name: localtime                 mountPath: /etc/localtime                 readOnly: true           volumes:           - name: modelscope-cache             hostPath:               path: /file_CPU_01/modelServing           - name: shm-volume             emptyDir:               sizeLimit: 512Gi               medium: Memory           - name: localtime             hostPath:               path: /etc/localtime               type: File           schedulerName: volcano
~# kubectl apply -f deepseek-r1-lws-sglang.yaml      ~# kubectl get lws -n sre-tools    NAME     AGE   sglang   13h      ~# kubectl get pods -n sre-tools |grep sglang   sglang-0                                 1/1     Running   0          15h   sglang-0-1                               1/1     Running   0          15h      ##查看日志   ~# kubectl logs -n sre-tools sglang-0   INFO 02-13 22:10:34 __init__.py:190] Automatically detected platform cuda.   [2025-02-13 22:10:40] server_args=ServerArgs(model_path='/root/.cache/modelscope/DeepSeek-R1', tokenizer_path='/root/.cache/modelscope/DeepSeek-R1', tokenizer_mode='auto', load_format='auto', trust_remote_code=True, dtype='auto', kv_cache_dtype='auto', quantization_param_path=None, quantization=None, context_length=131072, device='cuda', served_model_name='deepseek-r1', chat_template=None, is_embedding=False, revision=None, skip_tokenizer_init=False, host='0.0.0.0', port=8000, mem_fraction_static=0.79, max_running_requests=None, max_total_tokens=None, chunked_prefill_size=8192, max_prefill_tokens=16384, schedule_policy='lpm', schedule_conservativeness=1.0, cpu_offload_gb=0, prefill_only_one_req=False, tp_size=16, stream_interval=1, stream_output=False, random_seed=824694846, constrained_json_whitespace_pattern=None, watchdog_timeout=300, download_dir=None, base_gpu_id=0, log_level='info', log_level_http=None, log_requests=False, show_time_cost=False, enable_metrics=True, decode_log_interval=40, api_key=None, file_storage_pth='sglang_storage', enable_cache_report=False, dp_size=1, load_balance_method='round_robin', ep_size=1, dist_init_addr='sglang-0.sglang.sre-tools:20000', nnodes=2, node_rank=0, json_model_override_args='{}', lora_paths=None, max_loras_per_batch=8, lora_backend='triton', attention_backend='flashinfer', sampling_backend='flashinfer', grammar_backend='outlines', speculative_draft_model_path=None, speculative_algorithm=None, speculative_num_steps=5, speculative_num_draft_tokens=64, speculative_eagle_topk=8, enable_double_sparsity=False, ds_channel_config_path=None, ds_heavy_channel_num=32, ds_heavy_token_num=256, ds_heavy_channel_type='qk', ds_sparse_decode_threshold=4096, disable_radix_cache=False, disable_jump_forward=False, disable_cuda_graph=False, disable_cuda_graph_padding=False, disable_outlines_disk_cache=False, disable_custom_all_reduce=False, disable_mla=False, disable_overlap_schedule=False, enable_mixed_chunk=False, enable_dp_attention=False, enable_ep_moe=False, enable_torch_compile=False, torch_compile_max_bs=32, cuda_graph_max_bs=160, cuda_graph_bs=None, torchao_config='', enable_nan_detection=False, enable_p2p_check=False, triton_attention_reduce_in_fp32=False, triton_attention_num_kv_splits=8, num_continuous_decode_steps=1, delete_ckpt_after_loading=False, enable_memory_saver=False, allow_auto_truncate=False, enable_custom_logit_processor=False, tool_call_parser=None, enable_hierarchical_cache=False)   INFO 02-13 22:10:43 __init__.py:190] Automatically detected platform cuda.   INFO 02-13 22:10:43 __init__.py:190] Automatically detected platform cuda.   INFO 02-13 22:10:44 __init__.py:190] Automatically detected platform cuda.   INFO 02-13 22:10:44 __init__.py:190] Automatically detected platform cuda.   INFO 02-13 22:10:44 __init__.py:190] Automatically detected platform cuda.   INFO 02-13 22:10:44 __init__.py:190] Automatically detected platform cuda.   INFO 02-13 22:10:44 __init__.py:190] Automatically detected platform cuda.   INFO 02-13 22:10:44 __init__.py:190] Automatically detected platform cuda.   INFO 02-13 22:10:44 __init__.py:190] Automatically detected platform cuda.   [2025-02-13 22:10:49 TP7] MLA optimization is turned on. Use triton backend.   [2025-02-13 22:10:49 TP7] Init torch distributed begin.   [2025-02-13 22:10:50 TP0] MLA optimization is turned on. Use triton backend.   [2025-02-13 22:10:50 TP0] Init torch distributed begin.   [2025-02-13 22:10:51 TP6] MLA optimization is turned on. Use triton backend.   [2025-02-13 22:10:51 TP6] Init torch distributed begin.   [2025-02-13 22:10:51 TP5] MLA optimization is turned on. Use triton backend.   [2025-02-13 22:10:51 TP5] Init torch distributed begin.   [2025-02-13 22:10:51 TP1] MLA optimization is turned on. Use triton backend.   [2025-02-13 22:10:51 TP1] Init torch distributed begin.   [2025-02-13 22:10:51 TP2] MLA optimization is turned on. Use triton backend.   [2025-02-13 22:10:51 TP2] Init torch distributed begin.   [2025-02-13 22:10:51 TP4] MLA optimization is turned on. Use triton backend.   [2025-02-13 22:10:51 TP4] Init torch distributed begin.   [2025-02-13 22:10:51 TP3] MLA optimization is turned on. Use triton backend.   [2025-02-13 22:10:51 TP3] Init torch distributed begin.   [2025-02-13 22:10:57 TP0] sglang is using nccl==2.21.5   [2025-02-13 22:10:57 TP3] sglang is using nccl==2.21.5   [2025-02-13 22:10:57 TP6] sglang is using nccl==2.21.5   [2025-02-13 22:10:57 TP5] sglang is using nccl==2.21.5   [2025-02-13 22:10:57 TP2] sglang is using nccl==2.21.5   [2025-02-13 22:10:57 TP7] sglang is using nccl==2.21.5   [2025-02-13 22:10:57 TP4] sglang is using nccl==2.21.5   [2025-02-13 22:10:57 TP1] sglang is using nccl==2.21.5   sglang-0:99:99 [0] NCCL INFO NCCL_SOCKET_IFNAME set by environment to eth0   sglang-0:99:99 [0] NCCL INFO Bootstrap : Using eth0:10.233.73.96<0>   sglang-0:99:99 [0] NCCL INFO cudaDriverVersion 12060   NCCL version 2.21.5+cuda12.4   [2025-02-13 22:11:02 TP1] Custom allreduce is disabled because this process group spans across nodes.   [2025-02-13 22:11:02 TP0] Custom allreduce is disabled because this process group spans across nodes.   [2025-02-13 22:11:02 TP3] Custom allreduce is disabled because this process group spans across nodes.   [2025-02-13 22:11:02 TP2] Custom allreduce is disabled because this process group spans across nodes.   [2025-02-13 22:11:02 TP5] Custom allreduce is disabled because this process group spans across nodes.   [2025-02-13 22:11:02 TP4] Custom allreduce is disabled because this process group spans across nodes.   [2025-02-13 22:11:02 TP6] Custom allreduce is disabled because this process group spans across nodes.   [2025-02-13 22:11:02 TP7] Custom allreduce is disabled because this process group spans across nodes.   sglang-0:103:103 [4] NCCL INFO cudaDriverVersion 12060   sglang-0:103:103 [4] NCCL INFO NCCL_SOCKET_IFNAME set by environment to eth0   sglang-0:103:103 [4] NCCL INFO Bootstrap : Using eth0:10.233.73.96<0>   sglang-0:103:103 [4] NCCL INFO Plugin Path : /opt/hpcx/nccl_rdma_sharp_plugin/lib/libnccl-net.so   sglang-0:103:103 [4] NCCL INFO P2P plugin IBext_v8   sglang-0:103:103 [4] NCCL INFO NCCL_SOCKET_IFNAME set by environment to eth0   sglang-0:103:103 [4] NCCL INFO NET/IB : Using [0]mlx5_0:1/IB/SHARP [1]mlx5_1:1/IB/SHARP [2]mlx5_4:1/IB/SHARP [3]mlx5_5:1/IB/SHARP [RO]; OOB eth0:10.233.73.96<0>   sglang-0:103:103 [4] NCCL INFO Using non-device net plugin version 0   sglang-0:103:103 [4] NCCL INFO Using network IBext_v8   ......   sglang-0:100:1012 [1] NCCL INFO Setting affinity for GPU 1 to ffff,ffffffff,00000000,0000ffff,ffffffff   sglang-0:100:1012 [1] NCCL INFO comm 0x5568e6555af0 rank 1 nRanks 16 nNodes 2 localRanks 8 localRank 1 MNNVL 0   sglang-0:100:1012 [1] NCCL INFO Trees [0] 2/-1/-1->1->0 [1] 2/-1/-1->1->0 [2] 2/-1/-1->1->0 [3] 2/-1/-1->1->0   sglang-0:100:1012 [1] NCCL INFO P2P Chunksize set to 131072   sglang-0:100:1012 [1] NCCL INFO Channel 00/0 : 1[1] -> 14[6] [send] via NET/IBext_v8/0(0)/GDRDMA   sglang-0:100:1012 [1] NCCL INFO Channel 02/0 : 1[1] -> 14[6] [send] via NET/IBext_v8/0(0)/GDRDMA   sglang-0:100:1012 [1] NCCL INFO Channel 01/0 : 1[1] -> 0[0] via P2P/IPC   sglang-0:100:1012 [1] NCCL INFO Channel 03/0 : 1[1] -> 0[0] via P2P/IPC   ......   sglang-0:106:1010 [7] NCCL INFO threadThresholds 8/8/64 | 128/8/64 | 512 | 512   [2025-02-13 22:11:06 TP1] Load weight begin. avail mem=78.37 GB   [2025-02-13 22:11:06 TP5] Load weight begin. avail mem=78.37 GB   [2025-02-13 22:11:06 TP6] Load weight begin. avail mem=78.26 GB   [2025-02-13 22:11:06 TP4] Load weight begin. avail mem=78.15 GB   [2025-02-13 22:11:06 TP2] Load weight begin. avail mem=78.26 GB   [2025-02-13 22:11:06 TP7] Load weight begin. avail mem=78.38 GB   [2025-02-13 22:11:06 TP3] Load weight begin. avail mem=78.38 GB   [2025-02-13 22:11:06 TP0] Load weight begin. avail mem=78.15 GB   [2025-02-13 22:11:06 TP6] Detected fp8 checkpoint. Please note that the format is experimental and subject to change.   [2025-02-13 22:11:06 TP2] Detected fp8 checkpoint. Please note that the format is experimental and subject to change.   [2025-02-13 22:11:06 TP3] Detected fp8 checkpoint. Please note that the format is experimental and subject to change.   [2025-02-13 22:11:06 TP4] Detected fp8 checkpoint. Please note that the format is experimental and subject to change.   [2025-02-13 22:11:06 TP1] Detected fp8 checkpoint. Please note that the format is experimental and subject to change.   [2025-02-13 22:11:06 TP7] Detected fp8 checkpoint. Please note that the format is experimental and subject to change.   [2025-02-13 22:11:06 TP0] Detected fp8 checkpoint. Please note that the format is experimental and subject to change.   [2025-02-13 22:11:06 TP5] Detected fp8 checkpoint. Please note that the format is experimental and subject to change.   sglang-0:106:1010 [7] NCCL INFO 4 coCache shape torch.Size([163840, 64])   Loading safetensors checkpoint shards:   0% Completed | 0/162 [00:00 4[4] [receive] via NET/IBext_v8/2/GDRDMA   sglang-0:103:2984 [4] NCCL INFO Channel 03/0 : 14[6] -> 4[4] [receive] via NET/IBext_v8/2/GDRDMA   sglang-0:103:2984 [4] NCCL INFO Channel 01/0 : 4[4] -> 14[6] [send] via NET/IBext_v8/2/GDRDMA   sglang-0:103:2984 [4] NCCL INFO Channel 03/0 : 4[4] -> 14[6] [send] via NET/IBext_v8/2/GDRDMA   sglang-0:103:2984 [4] NCCL INFO Connected all trees   sglang-0:103:2984 [4] NCCL INFO threadThresholds 8/8/64 | 128/8/64 | 512 | 512   100%|██████████| 23/23 [01:30<00:00,  3.92s/it]   [2025-02-13 22:14:23] INFO:     Started server process [1]   [2025-02-13 22:14:23] INFO:     Waiting for application startup.   [2025-02-13 22:14:23] INFO:     Application startup complete.   [2025-02-13 22:14:23] INFO:     Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)      #启动成功   sglang-0:103:2984 [4] NCCL [2025-02-13 22:14:24] INFO:     127.0.0.1:33198 - "GET /get_model_info HTTP/1.1" 200 OK   [2025-02-13 22:14:31] INFO:     127.0.0.1:33208 - "POST /generate HTTP/1.1" 200 OK   [2025-02-13 22:14:31] The server is fired up and ready to roll!

3. 查看显存占用情况

4. 服务对外暴露

`apiVersion: v1   kind: Service   metadata:     name: sglang-api-svc      labels:       app: sglang   spec:     selector:         leaderworkerset.sigs.k8s.io/name: sglang         role: leader     ports:       - protocol: TCP         port: 8000         targetPort: http         name: http     type: NodePort      #这里临时通过NodePort测试` 
~# kubectl apply -f deepseek-r1-svc.yaml -n sre-tools      #check   ~# kubectl get svc -n sre-tools |grep sglang   sglang               ClusterIP   None                                13h   sglang-api-svc       NodePort    10.233.57.205           8000:32169/TCP    13h   

到此已完成了 DeepSeek R1 大模型的部署和服务对外暴露。接下来通过本地 curl 命令调用 API 或者 终端软件工具来测试部署效果。

5. 测试部署效果

5.1 通过 curl
curl -X POST http://10.0.xx.xx:32169/v1/chat/completions -H "Content-Type: application/json" -d '{       "model": "/model",       "messages": [           {               "role": "user",               "content": "你好,你是谁?"           }       ],       "stream": false,       "temperature": 0.7   }'

5.2 通过 OpenWebUI
a. 部署 OpenWebUI
apiVersion: v1   kind: PersistentVolumeClaim   metadata:     name: open-webui-data-pvc   spec:     accessModes:       - ReadWriteOnce     resources:       requests:         storage: 100Gi     storageClassName: nfs-client      ---   apiVersion: apps/v1   kind: Deployment   metadata:     name: open-webui-deployment   spec:     replicas: 1     selector:       matchLabels:         app: open-webui     template:       metadata:         labels:           app: open-webui       spec:         containers:         - name: open-webui           image: ccr.ccs.tencentyun.com/kason/open-webui:main           imagePullPolicy: Always           ports:           - containerPort: 8080           env:           - name: OPENAI_API_BASE_URL             value: "http://10.0.xx.xxx:32169/v1"   # 替换为SGLang API           - name: ENABLE_OLLAMA_API # 禁用 Ollama API,只保留 OpenAI API             value: "False"           volumeMounts:           - name: open-webui-data             mountPath: /app/backend/data         volumes:         - name: open-webui-data           persistentVolumeClaim:             claimName: open-webui-data-pvc      ---   apiVersion: v1   kind: Service   metadata:     name: open-webui-service   spec:     type: ClusterIP     ports:       - port: 3000         targetPort: 8080      selector:       app: open-webui
b. 通过Ingress暴露 OpenWebUI
apiVersion: networking.k8s.io/v1   kind: Ingress   metadata:     name: open-webui-ingress   spec:     rules:     - host: open-webui.xxxx-sh.com       http:         paths:         - backend:             service:               name: open-webui-service               port:                 number: 3000           path: /           pathType: Prefix     tls:     - hosts:       - open-webui.xxxx-sh.com       secretName: xxxx-tls
c. 访问 OpenWebUI

在浏览器访问相应的地址即可进入 OpenWebUI 页面。首次进入会提示创建管理员账号密码,创建完毕后即可登录,然后默认会使用前面下载好的大模型进行对话。

还有一些其他可视化交互工具,例如:
1.Chatbox AI:https://chatboxai.app/zh
2.Cherry Studio:https://cherry-ai.com

地表最强LLM推理引擎-SGLangGeneration Throughput (Token / s):1095(Max)

Ollama运行的话稳定会保持在 30~32 tokens/s

后续计划

截至目前,已成功部署并上线了一个相较官网版更加稳定、且具备自主可控性的DeepSeek-r1模型应用。希望这个博文对您有所帮助。

下一步,阿程将对已部署的模型进行压测,深入探索系统的性能极限,并进一步研究如何在生产环境中进行性能优化。此外,还将着力补充模型的可观测性、实现自动化弹性扩缩容,以及加速模型推理等优化措施。敬请期待后续更新!

AI大模型学习路线

如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!

扫描下方csdn官方合作二维码获取哦!

这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!


第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

大模型全套视频教程

200本大模型PDF书籍

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

LLM面试题合集

大模型产品经理资源合集

大模型项目实战合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

本文地址:https://www.vps345.com/3651.html

搜索文章

Tags

PV计算 带宽计算 流量带宽 服务器带宽 上行带宽 上行速率 什么是上行带宽? CC攻击 攻击怎么办 流量攻击 DDOS攻击 服务器被攻击怎么办 源IP 服务器 linux 运维 游戏 云计算 javascript 前端 chrome edge llama 算法 opencv 自然语言处理 神经网络 语言模型 ssh 进程 操作系统 进程控制 Ubuntu deepseek Ollama 模型联网 API CherryStudio python MCP harmonyos 华为 开发语言 typescript 计算机网络 ubuntu 数据库 centos oracle 关系型 安全 分布式 numpy adb nginx 监控 自动化运维 阿里云 网络 网络安全 网络协议 github 创意 社区 django fastapi flask web3.py RTSP xop RTP RTSPServer 推流 视频 flutter Dell R750XS react.js 前端面试题 node.js 持续部署 rust http java 科技 ai 人工智能 个人开发 udp unity mcp mcp-proxy mcp-inspector fastapi-mcp agent sse pycharm ide pytorch macos 笔记 C 环境变量 进程地址空间 json html5 firefox gitlab 自动化 蓝耘科技 元生代平台工作流 ComfyUI windows 搜索引擎 android c++ 多线程服务器 Linux网络编程 live555 rtsp rtp vscode 代码调试 ipdb 深度学习 conda pillow websocket AI 爬虫 数据集 后端 kubernetes 容器 学习方法 经验分享 程序人生 串口服务器 matlab docker DeepSeek-R1 API接口 Flask FastAPI Waitress Gunicorn uWSGI Uvicorn prometheus kvm 无桌面 命令行 面试 性能优化 jdk intellij-idea 架构 ansible playbook Hyper-V WinRM TrustedHosts apache YOLOv8 NPU Atlas800 A300I pro asi_bench golang mount挂载磁盘 wrong fs type LVM挂载磁盘 Centos7.9 Deepseek c# Docker Compose docker compose docker-compose chatgpt 大模型 llama3 Chatglm 开源大模型 IIS .net core Hosting Bundle .NET Framework vs2022 es jvm php html oceanbase rc.local 开机自启 systemd 麒麟 ecm bpm 深度优先 图论 并集查找 换根法 树上倍增 sql KingBase ddos ollama llm 机器学习 zotero WebDAV 同步失败 代理模式 spring YOLO vue.js audio vue音乐播放器 vue播放音频文件 Audio音频播放器自定义样式 播放暂停进度条音量调节快进快退 自定义audio覆盖默认样式 tcp/ip java-ee bash spring boot nuxt3 vue3 .netcore c语言 目标检测 计算机视觉 vim 银河麒麟 kylin v10 麒麟 v10 ESP32 LDAP tomcat maven intellij idea 实时音视频 filezilla 无法连接服务器 连接被服务器拒绝 vsftpd 331/530 dubbo 低代码 统信 国产操作系统 虚拟机安装 .net kafka zookeeper ruoyi springboot debian git 智能路由器 web安全 安全架构 mongodb https AISphereButler 需求分析 规格说明书 豆瓣 追剧助手 迅雷 nas 微信 jenkins Linux PID 微信小程序 小程序 mysql openEuler express okhttp CORS 跨域 VMware安装Ubuntu Ubuntu安装k8s k8s 雨云 NPS mysql离线安装 ubuntu22.04 mysql8.0 电脑 ssl 孤岛惊魂4 恒源云 僵尸进程 LORA 大语言模型 NLP RTMP 应用层 HCIE 数通 AIGC oneapi uni-app 大模型微调 open webui hive Hive环境搭建 hive3环境 Hive远程模式 URL MQTT 消息队列 远程工作 单一职责原则 qt android studio flash-attention 报错 ux 多线程 minio zabbix AI编程 Docker Hub docker pull 镜像源 daemon.json Linux 缓存 策略模式 单例模式 Headless Linux big data opensearch helm pdf MI300x DeepSeek 交互 华为认证 网络工程师 交换机 开源 sysctl.conf vm.nr_hugepages shell WebUI DeepSeek V3 AI大模型 visualstudio Python 网络编程 聊天服务器 套接字 TCP 客户端 Socket asm svn 部署 SSL 域名 1024程序员节 armbian u-boot 群晖 文件分享 飞牛NAS 飞牛OS MacBook Pro springsecurity6 oauth2 授权服务器 token sas 嵌入式硬件 驱动开发 硬件工程 嵌入式实习 软件需求 WSL win11 无法解析服务器的名称或地址 流式接口 服务器部署ai模型 ftp 高效日志打印 串口通信日志 服务器日志 系统状态监控日志 异常记录日志 微信小程序域名配置 微信小程序服务器域名 微信小程序合法域名 小程序配置业务域名 微信小程序需要域名吗 微信小程序添加域名 Reactor 设计模式 C++ stm32 单片机 云原生 EasyConnect Cline 向日葵 ecmascript nextjs react reactjs kylin 银河麒麟操作系统 国产化 RustDesk自建服务器 rustdesk服务器 docker rustdesk 黑客技术 ssrf 失效的访问控制 物联网 HTML audio 控件组件 vue3 audio音乐播放器 Audio标签自定义样式默认 vue3播放音频文件音效音乐 自定义audio播放器样式 播放暂停调整声音大小下载文件 openwrt vscode1.86 1.86版本 ssh远程连接 SSE WSL2 LLM Web APP Streamlit hadoop 3d xrdp 远程桌面 远程连接 string模拟实现 深拷贝 浅拷贝 经典的string类问题 三个swap 游戏服务器 TrinityCore 魔兽世界 redis 开发环境 SSL证书 联想开天P90Z装win10 DigitalOcean GPU服务器购买 GPU服务器哪里有 GPU服务器 负载均衡 odoo 服务器动作 Server action JAVA IDEA Java 统信UOS bonding 链路聚合 源码剖析 rtsp实现步骤 流媒体开发 tailscale derp derper 中转 网工 运维开发 C++软件实战问题排查经验分享 0xfeeefeee 0xcdcdcdcd 动态库加载失败 程序启动失败 程序运行权限 标准用户权限与管理员权限 大数据 数据库架构 数据管理 数据治理 数据编织 数据虚拟化 idm rpc 远程过程调用 Windows环境 ffmpeg 直播推流 rsyslog 毕设 jar MacOS录屏软件 FTP服务器 v10 软件 媒体 微信公众平台 安装教程 GPU环境配置 Ubuntu22 CUDA PyTorch Anaconda安装 中间件 C语言 能力提升 面试宝典 技术 IT信息化 ipython 腾讯云 服务器繁忙 gitee bootstrap go microsoft 软考 监控k8s集群 集群内prometheus FunASR ASR elasticsearch Dify 学习 佛山戴尔服务器维修 佛山三水服务器维修 医疗APP开发 app开发 压力测试 课程设计 cursor MCP server C/S LLM windows日志 数据挖掘 TRAE agi 5G 3GPP 卫星通信 gpu算力 SysBench 基准测试 unix H3C iDRAC R720xd 命名管道 客户端与服务端通信 编辑器 前后端分离 dell服务器 信息与通信 ip 备份SQL Server数据库 数据库备份 傲梅企业备份网络版 服务器无法访问 ip地址无法访问 无法访问宝塔面板 宝塔面板打不开 XFS xfs文件系统损坏 I_O error transformer 磁盘监控 Minecraft 音视频 集成学习 集成测试 xss ci/cd fpga开发 gitea arm 系统安全 ceph file server http server web server gaussdb rdp 实验 华为云 QQ 聊天室 spring cloud 温湿度数据上传到服务器 Arduino HTTP Wi-Fi 命令 Spring Security 思科模拟器 思科 Cisco UOS 统信操作系统 yum Linux awk awk函数 awk结构 awk内置变量 awk参数 awk脚本 awk详解 ISO镜像作为本地源 muduo X11 Xming ios 硬件 设备 GPU PCI-Express 音乐服务器 Navidrome 音流 selete 高级IO 弹性计算 虚拟化 KVM 计算虚拟化 弹性裸金属 博客 MNN Qwen 游戏程序 pppoe radius arm开发 DeepSeek行业应用 Heroku 网站部署 多进程 宝塔面板访问不了 宝塔面板网站访问不了 宝塔面板怎么配置网站能访问 宝塔面板配置ip访问 宝塔面板配置域名访问教程 宝塔面板配置教程 远程登录 telnet jupyter pip 内存 ocr AI agent 硬件架构 系统架构 云服务 kind SSH next.js 部署next.js 企业微信 Linux24.04 deepin 备选 网站 api 调用 示例 其他 postman mock mock server 模拟服务器 mock服务器 Postman内置变量 Postman随机数据 excel Agent hugo 机器人 googlecloud Samba SWAT 配置文件 服务管理 网络共享 GaN HEMT 氮化镓 单粒子烧毁 辐射损伤 辐照效应 CPU 主板 电源 网卡 EMQX 通信协议 IIS服务器 IIS性能 日志监控 eureka vscode 1.86 virtualenv HarmonyOS Next 华为od sqlite junit TCP服务器 qt项目 qt项目实战 qt教程 模拟退火算法 漏洞 国标28181 视频监控 监控接入 语音广播 流程 SIP SDP mosquitto 安全威胁分析 r语言 数据可视化 数据分析 clickhouse av1 电视盒子 机顶盒ROM 魔百盒刷机 Xterminal 数学建模 网络结构图 unity3d 7z chfs ubuntu 16.04 远程 执行 sshpass 操作 aws 银河麒麟桌面操作系统 Kylin OS webrtc AD域 W5500 OLED u8g2 firewalld 前端框架 Nuxt.js 边缘计算 智能硬件 AutoDL openssl 密码学 tcp Cursor 重启 排查 系统重启 日志 原因 word图片自动上传 word一键转存 复制word图片 复制word图文 复制word公式 粘贴word图文 粘贴word公式 MS Materials hibernate kamailio sip VoIP jmeter 软件测试 根服务器 权限 ollama下载加速 uniapp laravel 大模型入门 大模型教程 XCC Lenovo remote-ssh asp.net大文件上传 asp.net大文件上传下载 asp.net大文件上传源码 ASP.NET断点续传 asp.net上传文件夹 asp.net上传大文件 .net core断点续传 sqlserver pygame 小游戏 五子棋 ukui 麒麟kylinos openeuler gateway Clion Nova ResharperC++引擎 Centos7 远程开发 微服务 框架搭建 宝塔面板 同步 备份 建站 外网访问 内网穿透 端口映射 flink nfs LInux alias unalias 别名 list 数据结构 skynet 升级 CVE-2024-7347 云服务器 VPS IM即时通讯 剪切板对通 HTML FORMAT cuda cudnn nvidia prometheus数据采集 prometheus数据模型 prometheus特点 嵌入式 linux驱动开发 相机 embedding ShenTong 计算机 软件工程 web wsgiref Web 服务器网关接口 测试工具 线程 源码 毕业设计 飞书 大大通 第三代半导体 碳化硅 游戏引擎 vSphere vCenter web3 程序员 鸿蒙 混合开发 环境安装 JDK regedit 开机启动 java-rocketmq 阿里云ECS autodl fd 文件描述符 ardunio BLE 软件定义数据中心 sddc 反向代理 tcpdump opcua opcda KEPServer安装 基础入门 编程 dify IMM 图形化界面 webgl 项目部署到linux服务器 项目部署过程 centos-root /dev/mapper yum clean all df -h / du -sh 考研 传统数据库升级 银行 LLMs onlyoffice 在线office 京东云 可信计算技术 vue css less FTP 服务器 chrome 浏览器下载 chrome 下载安装 mac 谷歌浏览器下载 cpp-httplib Google pay Apple pay 计算机外设 服务器主板 AI芯片 蓝桥杯 devops WebRTC gpt VSCode AI-native Docker Desktop 移动云 软链接 硬链接 自定义客户端 SAS MySql elk 办公自动化 自动化生成 pdf教程 HarmonyOS 虚拟机 epoll 文件系统 路径解析 Ubuntu Server Ubuntu 22.04.5 NFS redhat tidb GLIBC ldap Ubuntu DeepSeek DeepSeek Ubuntu DeepSeek 本地部署 DeepSeek 知识库 DeepSeek 私有化知识库 本地部署 DeepSeek DeepSeek 私有化部署 efficientVIT YOLOv8替换主干网络 TOLOv8 iis 移动魔百盒 webstorm postgresql Trae IDE AI 原生集成开发环境 Trae AI minicom 串口调试工具 USB转串口 CH340 雨云服务器 npm harmonyOS面试题 视觉检测 gcc g++ g++13 cnn DenseNet 邮件APP 免费软件 崖山数据库 YashanDB CrewAI log4j db VMware创建虚拟机 回显服务器 UDP的API使用 sqlite3 本地部署 rclone AList webdav fnOS Anolis nginx安装 linux插件下载 pyqt Kylin-Server 服务器安装 rabbitmq ruby SSH 服务 SSH Server OpenSSH Server Xinference RAGFlow Kali Linux 黑客 渗透测试 信息收集 h.264 远程控制 远程看看 远程协助 pyautogui visual studio code deepseek r1 mcu AI写作 prompt matplotlib bot Docker 三级等保 服务器审计日志备份 wordpress 无法访问wordpess后台 打开网站页面错乱 linux宝塔面板 wordpress更换服务器 信号处理 grafana ubuntu24 vivado24 open Euler dde 链表 网卡的名称修改 eth0 ens33 risc-v iphone RAGFLOW bug cd 目录切换 iftop 网络流量监控 safari Mac 系统 怎么卸载MySQL MySQL怎么卸载干净 MySQL卸载重新安装教程 MySQL5.7卸载 Linux卸载MySQL8.0 如何卸载MySQL教程 MySQL卸载与安装 历史版本 下载 安装 make命令 makefile文件 gradle wsl 架构与原理 adobe k8s集群资源管理 云原生开发 GoogLeNet apt 国内源 ros2 moveit 机器人运动 环境迁移 鸿蒙系统 KylinV10 麒麟操作系统 Vmware uv tensorflow Ubuntu 24 常用命令 Ubuntu 24 Ubuntu vi 异常处理 视频编解码 安卓 图像处理 烟花代码 烟花 元旦 大文件分片上传断点续传及进度条 如何批量上传超大文件并显示进度 axios大文件切片上传详细教 node服务器合并切片 vue3大文件上传报错提示错误 大文件秒传跨域报错cors Ubuntu 24.04.1 轻量级服务器 wireshark python3.11 dash 正则表达式 镜像 lsb_release /etc/issue /proc/version uname -r 查看ubuntu版本 camera Arduino 电子信息 宕机切换 服务器宕机 n8n dity make Unity Dedicated Server Host Client 无头主机 无人机 ROS 自动驾驶 GCC aarch64 编译安装 HPC 王者荣耀 EtherCAT转Modbus ECT转Modbus协议 EtherCAT转485网关 ECT转Modbus串口网关 EtherCAT转485协议 ECT转Modbus网关 僵尸世界大战 游戏服务器搭建 Open WebUI ESXi 知识图谱 iBMC UltraISO selenium xpath定位元素 cpu 实时 使用 navicat DOIT 四博智联 thingsboard 技能大赛 mamba Vmamba 流水线 脚本式流水线 域名服务 DHCP 符号链接 配置 模拟实现 职场和发展 自动化测试 性能测试 功能测试 强化学习 程序 DevEco Studio iot 树莓派 VNC RoboVLM 通用机器人策略 VLA设计哲学 vlm fot robot 视觉语言动作模型 具身智能 rime firewall Qwen2.5-coder 离线部署 midjourney 多个客户端访问 IO多路复用 TCP相关API 抗锯齿 相差8小时 UTC 时间 linux环境变量 实习 Unity插件 cocoapods xcode netty threejs 3D ui 串口驱动 CH341 uart 485 c sentinel SenseVoice 模拟器 教程 压测 ECS yolov8 状态管理的 UDP 服务器 Arduino RTOS bcompare Beyond Compare mariadb 干货分享 黑客工具 密码爆破 技术共享 金仓数据库 2025 征文 数据库平替用金仓 防火墙 NAT转发 NAT Server stm32项目 网络攻击模型 加解密 Yakit yaklang eclipse trea idea 智能手机 EMUI 回退 降级 BMC IPMI 带外管理 政务 分布式系统 监控运维 Prometheus Grafana 常用命令 文本命令 目录命令 执法记录仪 智能安全帽 smarteye proxy模式 矩阵 线性代数 电商平台 流量运营 虚拟局域网 nac 802.1 portal mybatis Erlang OTP gen_server 热代码交换 事务语义 显卡驱动 iventoy VmWare OpenEuler css3 中兴光猫 换光猫 网络桥接 自己换光猫 gpt-3 文心一言 ArkUI 多端开发 智慧分发 应用生态 鸿蒙OS llama.cpp Linux环境 服务器配置 生物信息学 单元测试 Python基础 Python教程 Python技巧 Dell HPE 联想 浪潮 网络用户购物行为分析可视化平台 大数据毕业设计 springcloud win服务器架设 windows server freebsd 迁移指南 实战案例 序列化反序列化 Claude eNSP 网络规划 VLAN 企业网络 代理服务器 大模型面经 大模型学习 测试用例 AnythingLLM AnythingLLM安装 虚幻 .net mvc断点续传 Invalid Host allowedHosts Kali 我的世界服务器搭建 AI作画 元服务 应用上架 深度求索 私域 知识库 环境配置 我的世界 我的世界联机 数码 换源 Debian wsl2 算力 springboot远程调试 java项目远程debug docker远程debug java项目远程调试 springboot远程 服务器管理 配置教程 网站管理 trae frp crosstool-ng 云电竞 云电脑 todesk 腾讯云大模型知识引擎 P2P HDLC k8s资源监控 annotations自动化 自动化监控 监控service 监控jvm QT 5.12.12 QT开发环境 Ubuntu18.04 双系统 GRUB引导 Linux技巧 状态模式 docker搭建nacos详解 docker部署nacos docker安装nacos 腾讯云搭建nacos centos7搭建nacos deekseek ragflow 工业4.0 性能分析 RAID RAID技术 磁盘 存储 rtsp服务器 rtsp server android rtsp服务 安卓rtsp服务器 移动端rtsp服务 大牛直播SDK 多层架构 解耦 can 线程池 wps 显示管理器 lightdm gdm glibc 小智AI服务端 xiaozhi TTS USB网络共享 rustdesk Playwright 分析解读 ssh远程登录 jetty undertow dns是什么 如何设置电脑dns dns应该如何设置 Typore 微信分享 Image wxopensdk 在线预览 xlsx xls文件 在浏览器直接打开解析xls表格 前端实现vue3打开excel 文件地址url或接口文档流二进 微信开放平台 微信公众号配置 linux上传下载 鲲鹏 昇腾 npu 健康医疗 互联网医院 游戏开发 hexo 裸金属服务器 弹性裸金属服务器 p2p rnn YOLOv12 vmware 卡死 浏览器开发 AI浏览器 ssh漏洞 ssh9.9p2 CVE-2025-23419 linux安装配置 信号 个人博客 交叉编译 金融 毕昇JDK 宠物 免费学习 宠物领养 宠物平台 seatunnel yaml Ultralytics 可视化 银河麒麟服务器操作系统 系统激活 小艺 Pura X Netty 即时通信 NIO AI代码编辑器 HTTP 服务器控制 ESP32 DeepSeek etl etcd 数据安全 RBAC rocketmq iperf3 带宽测试 语音识别 ue4 着色器 ue5 半虚拟化 硬件虚拟化 Hypervisor windwos防火墙 defender防火墙 win防火墙白名单 防火墙白名单效果 防火墙只允许指定应用上网 防火墙允许指定上网其它禁止 micropython esp32 mqtt 开机自启动 高效远程协作 TrustViewer体验 跨设备操作便利 智能远程控制 rag ragflow 源码启动 Linux无人智慧超市 LInux多线程服务器 QT项目 LInux项目 单片机项目 Docker引擎已经停止 Docker无法使用 WSL进度一直是0 镜像加速地址 perf 直流充电桩 充电桩 pgpool VR手套 数据手套 动捕手套 动捕数据手套 SEO 业界资讯 端口测试 田俊楠 jina anaconda 阻塞队列 生产者消费者模型 服务器崩坏原因 输入法 outlook Linux的基础指令 NAS Termux lio-sam SLAM ABAP IMX317 MIPI H265 VCU composer 大数据平台 银河麒麟高级服务器 外接硬盘 Kylin 产测工具框架 IMX6ULL 管理框架 xml 游戏机 keepalived Ark-TS语言 sonoma 自动更新 Logstash 日志采集 Java Applet URL操作 服务器建立 Socket编程 网络文件读取 Jellyfin HiCar CarLife+ CarPlay QT RK3588 开发 Node-Red 编程工具 流编程 milvus ArcTS 登录 ArcUI GridItem arkUI 网络穿透 bat 超融合 端口 查看 ss 火绒安全 vasp安装 查询数据库服务IP地址 SQL Server chrome devtools chromedriver ros 致远OA OA服务器 服务器磁盘扩容 code-server linux 命令 sed 命令 OD机试真题 华为OD机试真题 服务器能耗统计 SVN Server tortoise svn 合成模型 扩散模型 图像生成 VMware安装mocOS VMware macOS系统安装 Radius dns 实时互动 easyui langchain echarts HAProxy OpenHarmony 真机调试 智能音箱 智能家居 服务器数据恢复 数据恢复 存储数据恢复 北亚数据恢复 oracle数据恢复 物联网开发 IPMITOOL 硬件管理 信息可视化 网页设计 华为机试 工作流 workflow 数据库系统 自动化任务管理 语法 IPv4 子网掩码 公网IP 私有IP 做raid 装系统 SSH 密钥生成 SSH 公钥 私钥 生成 图形渲染 Linux find grep 黑苹果 繁忙 解决办法 替代网站 汇总推荐 AI推理 CDN 代理 rust腐蚀 sdkman sequoiaDB dba Windows 捆绑 链接 谷歌浏览器 youtube google gmail yum源切换 更换国内yum源 内网服务器 内网代理 内网通信 VM搭建win2012 win2012应急响应靶机搭建 攻击者获取服务器权限 上传wakaung病毒 应急响应并溯源 挖矿病毒处置 应急响应综合性靶场 vr 企业网络规划 华为eNSP mq ai工具 x64 SIGSEGV xmm0 CentOS Stream CentOS Linux的权限 本地化部署 李心怡 热榜 私有化 spark HistoryServer Spark YARN jobhistory docker部署Python 玩机技巧 软件分享 软件图标 wpf Redis Desktop arcgis 网络爬虫 GIS 遥感 WebGIS 影刀 #影刀RPA# 产品经理 MDK 嵌入式开发工具 论文笔记 sublime text qemu libvirt 搭建个人相关服务器 Windsurf 运维监控 增强现实 沉浸式体验 应用场景 技术实现 案例分析 AR raid5数据恢复 磁盘阵列数据恢复 内网环境 信创 信创终端 中科方德 figma 虚幻引擎 leetcode 推荐算法 DocFlow swoole 论文阅读 自动化编程 SRS 流媒体 直播 粘包问题 C# MQTTS 双向认证 emqx triton 模型分析 Deepseek-R1 私有化部署 推理模型 网络建设与运维 网络搭建 神州数码 神州数码云平台 云平台 欧标 OCPP docker run 数据卷挂载 交互模式 lua vue-i18n 国际化多语言 vue2中英文切换详细教程 如何动态加载i18n语言包 把语言json放到服务器调用 前端调用api获取语言配置文件 ip命令 新增网卡 新增IP 启动网卡 deep learning 用户缓冲区 音乐库 飞牛 实用教程 Attention PX4 searxng 网络药理学 生信 PPI String Cytoscape CytoHubba RAG 检索增强生成 文档解析 大模型垂直应用 IO 程序员创富 nlp 渗透 车载系统 聚类 AP配网 AK配网 小程序AP配网和AK配网教程 WIFI设备配网小程序UDP开 PVE dock 加速 gnu docker命令大全 kali 共享文件夹 ai小智 语音助手 ai小智配网 ai小智教程 esp32语音助手 diy语音助手 嵌入式Linux IPC 人工智能生成内容 键盘 灵办AI 本地知识库部署 DeepSeek R1 模型 主从复制 UDP openstack Xen edge浏览器 拓扑图 DNS docker搭建pg docker搭建pgsql pg授权 postgresql使用 postgresql搭建 嵌入式系统开发 匿名管道 服务器时间 剧本 基础环境 ubuntu20.04 开机黑屏 uni-file-picker 拍摄从相册选择 uni.uploadFile H5上传图片 微信小程序上传图片 conda配置 conda镜像源 ping++ 沙盒 word 多路转接 大模型推理 项目部署 远程服务 VS Code AD 域管理 网站搭建 serv00 DBeaver grub 版本升级 扩容 大模型部署 磁盘镜像 服务器镜像 服务器实时复制 实时文件备份 visual studio OpenSSH 风扇控制软件 MacMini 迷你主机 mini Apple Cookie 上传视频至服务器代码 vue3批量上传多个视频并预览 如何实现将本地视频上传到网页 element plu视频上传 ant design vue vue3本地上传视频及预览移除 minecraft IO模型 分布式训练 seleium 目标跟踪 OpenVINO 推理应用 社交电子 数据仓库 kerberos 系统开发 binder framework 源码环境 mm-wiki搭建 linux搭建mm-wiki mm-wiki搭建与使用 mm-wiki使用 mm-wiki详解 TCP协议 xshell termius iterm2 hosts 软负载 存储维护 NetApp存储 EMC存储 neo4j 数据库开发 database CLion TrueLicense AI Agent 字节智能运维 服务网格 istio js curl wget cmos docker部署翻译组件 docker部署deepl docker搭建deepl java对接deepl 翻译组件使用 EtherNet/IP串口网关 EIP转RS485 EIP转Modbus EtherNet/IP网关协议 EIP转RS485网关 EIP串口服务器 ubuntu24.04.1 rpa Ubuntu共享文件夹 共享目录 Linux共享文件夹 fast 大模型应用 鸿蒙开发 移动开发 西门子PLC 通讯 离线部署dify 飞牛nas fnos