• DolphinScheduler自身容错导致的服务器持续崩溃重大问题的排查与解决

DolphinScheduler自身容错导致的服务器持续崩溃重大问题的排查与解决

2025-04-26 09:17:20 1 阅读

01 问题复现

在DolphinScheduler中有如下一个Shell任务:

current_timestamp() {  
    date +"%Y-%m-%d %H:%M:%S"  
}

TIMESTAMP=$(current_timestamp)
echo $TIMESTAMP
sleep 60

在DolphinScheduler将工作流执行策略设置为并行:

定时周期调度设置为10秒一次:

将定时调度上线后,会调度执行任务,此时一切正常:

此时将Master节点给kill掉,模拟宕机:

$ jps
1979710 AlertServer
1979626 WorkerServer
1979546 MasterServer
1979794 ApiApplicationServer
1980483 Jps
$ kill -9 1979546

去到DolphinScheduler中查看,发现Master已经不存在了:

此时观察DolphinScheduler工作流执行,发现其不会继续调度任务执行了,并且所有的任务则会一直执行下去,直到报错。

当过了一段时间后(模拟发现了宕机问题),此时重启DolphinScheduler:

sh bin/stop-all.sh
sh bin/start-all.sh

重启完成后,就会将之前没有执行成功的任务,包括没有执行的调度任务,全部都执行一次:

这就有一个致命的问题:如果都是高性能任务的话,就会导致CPU、内存被打满,从而让服务器整个宕机!!!

02 多场景测试

  • Master宕机后,重启整个DS:会产生上述问题。
  • Master宕机后,重启相应的Master:会产生上述问题。——有缺陷,官方没有单独的Master后台启动,只有前台启动的脚本,但可以重复执行start-all.sh。
  • Worker宕机后,重启整个DS:不会产生上述问题。——因为Master会持续的调度任务,而Worker宕机后的结果就是调度任务直接失败。
  • Worker宕机后,重启相应的Worker:不会产生上述问题。——有缺陷,官方没有单独的Worker后台启动,只有前台启动的脚本,但可以重复执行start-all.sh。
  • DS整个宕机后,重启整个DS:会产生上述问题。
  • DS使用stop-all.sh停止后,重启整个DS:会产生上述问题。

其核心就是在于Master,只要配置了周期任务,无论Master是宕机还是调用脚本关闭的,其都会产生上述问题。

03 原理分析

DolphinScheduler核心角色:

  • MasterServer主要负责 DAG 任务切分、任务提交监控,并同时监听其它MasterServer和WorkerServer的健康状态。MasterServer服务启动时向Zookeeper注册临时节点,通过监听Zookeeper临时节点变化来进行容错处理。
  • WorkerServer主要负责任务的执行和提供日志服务。WorkerServer服务启动时向Zookeeper注册临时节点,并维持心跳。
  • ApiServer主要负责处理前端UI层的请求。

大致的任务运行流程如下:

  • 在API-Server中创建任务,并将元数据持久化到DB中。

  • 通过手动点击或定时执行生成一个触发工作流执行的Command写入DB。

  • Master消费DB中的Command,开始执行工作流,并将工作流中的任务分发给Worker执行。

  • 当整个工作流执行结束之后,Master结束工作流的执行。

参考官网,上述的DolphinScheduler核心任务执行流程可以细化为如下:

鉴于任务调度的复杂性,一个大的流程可以划分为小的流程,在主线流程之外还附加了支线流程,下面对执行调度流程拆分进行分析一下,这样更容易理解:

在本次问题中,主要关注的就是Command分发流程。其Command分发流程是一个异步分布式生产消费模式。

i. 首先是生产者api-server,会将用户的运行工作流http请求封装成command数据,insert到t_ds_command表中,如下是一个启动工作流实例的command样例(老版本):

{
    "commandType": "START_PROCESS",
    "processDefinitionCode": 14285512555584,
    "executorId": 1,
    "commandParam": "{}",
    "taskDependType": "TASK_POST",
    "failureStrategy": "CONTINUE",
    "warningType": "NONE",
    "startTime": 1723444881372,
    "processInstancePriority": "MEDIUM",
    "updateTime": 1723444881372,
    "workerGroup": "default",
    "tenantCode": "default",
    "environmentCode": -1,
    "dryRun": 0,
    "processInstanceId": 0,
    "processDefinitionVersion": 1,
    "testFlag": 0
}

ii.其次是消费者,master server中的MasterSchedulerBootstrap loop程序, MasterSchedulerBootstrap使用ZK分配到自己的slot,从t_ds_command表中select属于slot的command列表处理,其查询语句是:

iii.MasterSchedulerBootstrap loop轮训查到待处理的command任务,将command任务和master host生成ProcessInstance,将ProcessInstance对象插入到t_ds_process_instance表中, 同时生成包含运行所需要的上下文信息的可执行任务workflowExecuteRunnable。 将workflowExecuteRunnablecache到本地cache processInstanceExecCacheManager,同时生产将ProcessInstance的WorkflowEventType.START_WORKFLOW生产到workflowEventQueue队列中。

上面的步骤是用户在Web页面点击启动任务后的流程,而本次的问题是Master周期调度的问题。经过查阅资料,周期调度任务则是MasterServer将其封装为命令数据并插入t_ds_process_instance表中,后续步骤如上,大致流程如下:

  • 命令分发:以用户提交的工作流请求为触发,MasterServer将其封装为命令数据并插入数据库中。

  • 任务分配:MasterServer循环查询待处理的命令,依照负载情况将任务分配到对应的ProcessInstance中。

  • 任务执行:根据DAG的依赖关系,WorkerServer会优先执行无依赖的任务,然后根据优先级逐步执行其他任务。

  • 状态反馈:任务执行过程中,WorkerServer会定期回调MasterServer,通知任务的进展和执行状态。

所以,上述的问题就在这,当Master从停止到启动时,t_ds_command中会产生大量的任务数据。

在DolphinScheduler3.2.1中,其t_ds_command数据样例为:

id  |command_type|process_definition_code|process_definition_version|process_instance_id|command_param                        |task_depend_type|failure_strategy|warning_type|warning_group_id|schedule_time      |start_time         |executor_id|update_time        |process_instance_priority|worker_group|tenant_code|environment_code|dry_run|test_flag|
----+------------+-----------------------+--------------------------+-------------------+-------------------------------------+----------------+----------------+------------+----------------+-------------------+-------------------+-----------+-------------------+-------------------------+------------+-----------+----------------+-------+---------+
1988|           6|         15921642898976|                         4|                  0|{"schedule_timezone":"Asia/Shanghai"}|               2|               1|           0|               0|2024-12-11 00:36:40|2024-12-11 00:39:01|          2|2024-12-11 00:39:01|                        2|default     |default    |              -1|      0|        0|
1989|           6|         15921642898976|                         4|                  0|{"schedule_timezone":"Asia/Shanghai"}|               2|               1|           0|               0|2024-12-11 00:36:50|2024-12-11 00:39:01|          2|2024-12-11 00:39:01|                        2|default     |default    |              -1|      0|        0|
1990|           6|         15921642898976|                         4|                  0|{"schedule_timezone":"Asia/Shanghai"}|               2|               1|           0|               0|2024-12-11 00:37:00|2024-12-11 00:39:01|          2|2024-12-11 00:39:01|                        2|default     |default    |              -1|      0|        0|

而command_type的枚举由源码中的CommandType定义,其内容如下:

/**
 * command types
 * 0 start a new process
 * 1 start a new process from current nodes
 * 2 recover tolerance fault process
 * 3 recover suspended process
 * 4 start process from failure task nodes
 * 5 complement data
 * 6 start a new process from scheduler
 * 7 repeat running a process
 * 8 pause a process
 * 9 stop a process
 * 10 recover waiting thread
 * 11 recover serial wait
 * 12 start a task node in a process instance
 */
START_PROCESS(0, "start a new process"),
START_CURRENT_TASK_PROCESS(1, "start a new process from current nodes"),
RECOVER_TOLERANCE_FAULT_PROCESS(2, "recover tolerance fault process"),
RECOVER_SUSPENDED_PROCESS(3, "recover suspended process"),
START_FAILURE_TASK_PROCESS(4, "start process from failure task nodes"),
COMPLEMENT_DATA(5, "complement data"),
SCHEDULER(6, "start a new process from scheduler"),
REPEAT_RUNNING(7, "repeat running a process"),
PAUSE(8, "pause a process"),
STOP(9, "stop a process"),
RECOVER_WAITING_THREAD(10, "recover waiting thread"),
RECOVER_SERIAL_WAIT(11, "recover serial wait"),
EXECUTE_TASK(12, "start a task node in a process instance"),
DYNAMIC_GENERATION(13, "dynamic generation"),
;

那为什么会这样呢?本质上是Master自身的容错机制造成的,其容错机制可以细分为如下几个模块:

  • 1)Master自身的容错:如果是多Master同时运行,其中一个作为Active Master负责处理任务调度请求,其他节点作为Standby Master。当Active Master出现故障时,Standby Master将自动接管其工作,确保系统的正常运行。这是通过ZooKeeper实现的,ZooKeeper负责选举Active Master节点,并监控节点的状态。

  • 2)状态同步:多Master节点之间会进行状态同步,以确保在Active Master宕机时,Standby Master能够接管任务调度。

  • 3)故障恢复:当Master节点宕机后,其他Master节点会通过ZooKeeper的Watcher机制监听到这一事件,并触发故障恢复。

  • 4)正在运行任务的容错:当前Master节点宕机后,新Master会通过已下线的Master的地址和正在运行的工作流状态数组获取需要容错的ProcessInstance列表,之后将其放入t_ds_command表中(后续流程就是Master获取到并调度+Worker执行了)。

  • 5)分布式锁:在容错过程中,Master节点会使用ZK分布式锁+采用指定command表分配ID的形式来确保只有一个Master节点执行容错操作,避免多个Master节点同时接管同一个任务。

  • 6)定时容错线程:除了ZooKeeper的事件触发容错外,DolphinScheduler还实现了一个定时线程FailoverExecuteThread,用于Master重启后恢复自身之前的工作流实例。

  • 7)任务重试:DolphinScheduler还支持任务失败后的重试机制,这与服务宕机容错相辅相成,确保任务的最终执行成功。

所以,此时根据原理+复现可以初步推测出,是在Master启动时的某一个线程进行的定时容错,接下来就进入源码来真正验证一下。

04 源码解析

在org.apache.dolphinscheduler.server.master.MasterServer下,启动Master时会有run入口:

/**
 * run master server
 */
@PostConstruct
public void run() throws SchedulerException {
    // init rpc server
    this.masterRPCServer.start();
    // install task plugin
    this.taskPluginManager.loadPlugin();
    this.masterSlotManager.start();
    // self tolerant
    this.masterRegistryClient.start();
    this.masterRegistryClient.setRegistryStoppable(this);
    this.masterSchedulerBootstrap.start();
    this.eventExecuteService.start();
    this.failoverExecuteThread.start();
    this.schedulerApi.start();
    this.taskGroupCoordinator.start();
    MasterServerMetrics.registerMasterCpuUsageGauge(() -> {
        SystemMetrics systemMetrics = metricsProvider.getSystemMetrics();
        return systemMetrics.getTotalCpuUsedPercentage();
    });
    MasterServerMetrics.registerMasterMemoryAvailableGauge(() -> {
        SystemMetrics systemMetrics = metricsProvider.getSystemMetrics();
        return (systemMetrics.getSystemMemoryMax() - systemMetrics.getSystemMemoryUsed()) / 1024.0 / 1024 / 1024;
    });
    MasterServerMetrics.registerMasterMemoryUsageGauge(() -> {
        SystemMetrics systemMetrics = metricsProvider.getSystemMetrics();
        return systemMetrics.getJvmMemoryUsedPercentage();
    });
    Runtime.getRuntime().addShutdownHook(new Thread(() -> {
        if (!ServerLifeCycleManager.isStopped()) {
            close("MasterServer shutdownHook");
        }
    }));
}

通过上面的代码,可以看到Master启动执行了:

  • masterRPCServer.start():初始化并启动RPC服务器,用于节点间通信。

  • taskPluginManager.loadPlugin():加载任务插件,这些插件可以扩展DolphinScheduler的任务类型。

  • masterSlotManager.start():启动Master的Slot管理器,它负责管理Master的资源槽位,用于任务调度。

  • masterRegistryClient.start():启动Master的注册客户端,它负责将Master节点注册到分布式协调服务(如ZooKeeper)中。

  • masterRegistryClient.setRegistryStoppable(this):设置注册客户端的可停止对象,以便在Master停止时能够进行清理工作。

  • masterSchedulerBootstrap.start():启动Master的调度引导服务,它负责初始化调度相关的服务。

  • eventExecuteService.start():启动事件执行服务,它负责处理工作流中的事件,如任务状态变化。

  • failoverExecuteThread.start():启动故障恢复执行线程,它负责在Master宕机后恢复任务执行。

  • schedulerApi.start():启动调度API服务,提供调度相关的接口供外部调用。

  • taskGroupCoordinator.start():启动任务组协调器,它负责协调任务组内的任务执行。

经过源码探查,发现最关键的failoverExecuteThread不是重新执行未调度的周期任务,而是容错未执行完的任务。并且其他源码中也没有关于恢复周期任务调度的内容。

那现在需要换一个思路,就是从下往上走:

  1. 首先发现重启恢复后,Web页面上的“运行类型”是“调度执行”,而数据库的“command_type”是“6”,那就意味着必须有一个服务会有往数据库里面去插入command_type为6的方法。并且其会去获取t_ds_schedules表中的任务定时调度实例。

  2. 根据源码,排查到dolphinscheduler-dao项目下会存放所有的数据库操作DAO,遂可以找到ScheduleMapper类,此类是和t_ds_schedules相关的DAO类;之后根据t_ds_command反查,找到了CommandServiceImpl类中的createCommand方法;再根据两者反查+command_type为6,找到了ProcessScheduleTask类中的executeInternal方法。

  3. ProcessScheduleTask类中的executeInternal方法,同时满足:获取了调度任务、插入command数据、类型为6这三个条件。

  4. 查看ProcessScheduleTask的executeInternal源码,前半部分是从Quartz上下文中获取到预定义的调度时间和调度实际运行时间,下半部分是校验这个调度Cron是否存在和上线。

  5. 在executeInternal中,最关键的其实就是scheduledFireTime和fireTime。

找到这里的话,我们再结合DolphinScheduler+Quartz总结一下调度的原理:

  • Web页面设置调度,其会通过SchedulerController中的createSchedule()来创建调度,并往t_ds_schedules中插入一条数据;

  • Web页面设置调度上线,其会通过QuartzScheduler中的insertOrUpdateScheduleTask()向Quartz中创建Trigger触发器,并往QRTZ_CRON_TRIGGERS中插入一条数据;

  • 之后定期调用ProcessScheduleTask中的executeInternal()来往t_ds_command中插入数据;

  • 之后就是Master-Worker的执行流程了;

了解了大致的调度流程后,结合源码中的scheduledFireTime和fireTime,就可以推断出调度时间不是由DolphinScheduler设置的,而是由Quartz设置的。

那就继续查阅Quartz相关的资料,发现在Quartz中有一个misfire机制:周期性任务A需要在某个规定的时间执行,但是由于某种原因导致任务A未执行,称为MisFire。

而Quartz判断一个任务是MisFire,提供了一个配置项:org.quartz.jobStore.misfireThreshold,默认是60000ms(即60秒)。

misfire产生需要有2个前置条件:

  • 一个是job到达触发时间时没有被执行;

  • 二是被执行的延迟时间超过了Quartz配置的misfireThreshold阀值;

如果延迟执行的时间小于阀值,则Quartz不认为发生了misfire,立即执行job;如果延迟执行的时间大于或者等于阀值,则被判断为misfire,然后会按照指定的策略来执行。

那misfire产生的原因一般如下:

  • 当job达到触发时间时,所有线程都被其他job占用,没有可用线程。;

  • 在job需要触发的时间点,scheduler停止了(可能是意外停止的);【——当前的问题属于这种类型】

  • job使用了@DisallowConcurrentExecution注解,job不能并发执行,当达到下一个job执行点的时候,上一个任务还没有完成;

  • job指定了过去的开始执行时间,例如当前时间是8点00分00秒,指定开始时间为7点00分00秒;

而判定了任务是MisFire后,会有一个补偿机制,补偿机制只有在任务确认为MisFire状态后,才会被执行。补偿机制配置在Quartz源码的Trigger中:

public interface Trigger extends Serializable, Cloneable, Comparable {
    long serialVersionUID = -3904243490805975570L;
    int MISFIRE_INSTRUCTION_SMART_POLICY = 0;
    int MISFIRE_INSTRUCTION_IGNORE_MISFIRE_POLICY = -1;
    int DEFAULT_PRIORITY = 5;
    ......

但是这个补偿机制需要根据Trigger来判定,如下是不同的Trigger:

在DolphinScheduler中,各种类型的Trigg都会涉及到:

Trigger的类型:

  • SimpleTrigger是一个简单的触发器,用于执行重复任务。它可以指定一个起始时间,然后按照固定的间隔时间重复执行任务,直到达到指定的重复次数。SimpleTrigger的属性包括重复间隔(repeatInterval)和重复次数(repeatCount),实际执行次数是repeatCount + 1,因为在开始时间(startTime)时会执行一次。

  • CronTrigger:CronTrigger使用Cron表达式来定义复杂的调度计划。Cron表达式由6或7个空格分隔的时间字段组成,分别表示秒、分、小时、一个月中的日期、月份、一周中的日期和可选的年份。CronTrigger允许设定非常复杂的触发时间表,基本上覆盖了其他触发器的绝大部分能力。

  • CalendarIntervalTrigger:CalendarIntervalTrigger指定从某一个时间开始,以一定的时间间隔执行的任务。不同于SimpleTrigger只支持毫秒单位的时间间隔,CalendarIntervalTrigger支持的间隔单位有秒、分钟、小时、天、月、年。它适合的任务类似于每周执行一次。

  • DailyTimeIntervalTrigger:DailyTimeIntervalTrigger指定每天的某个时间段内,以一定的时间间隔执行任务。并且它可以支持指定星期。它适合的任务类似于每天9:00到18:00,每隔70秒执行一次,并且只要周一至周五执行。

  • ......

所以,因为不同的Trigger类型其参数是不一样的,所以当Trigger触发Misfire机制时,根据Trigger的不同,策略也会不同:

/**
 公共的Misfire机制,在Trigger类中
 **/
 // 这是一个智能策略,Quartz会根据Trigger的类型自动选择一个合适的misfire策略。对于CronTrigger,默认使用MISFIRE_INSTRUCTION_FIRE_ONCE_NOW。
int MISFIRE_INSTRUCTION_SMART_POLICY = 0;
// 这个策略会将所有错过的触发事件,立即执行所有补偿动作。即使定时任务执行的时间已经结束,它也会把所有应该执行的任务一次性全部执行完。
int MISFIRE_INSTRUCTION_IGNORE_MISFIRE_POLICY = -1;
/**
 SimpleTrigger的Misfire机制,在SimpleTrigger类中
 **/
 // 如果触发器错过了预定的触发时间,这个策略会立即执行一次任务,然后按照原计划继续执行后续的任务。
int MISFIRE_INSTRUCTION_FIRE_NOW = 1;
// 这个策略会将触发器的开始时间设置为当前时间,并立即执行错过的任务,包括已经错过的重复次数。
int MISFIRE_INSTRUCTION_RESCHEDULE_NOW_WITH_EXISTING_REPEAT_COUNT = 2;
// 类似于MISFIRE_INSTRUCTION_RESCHEDULE_NOW_WITH_EXISTING_REPEAT_COUNT,但是会忽略已经错过的触发次数,只执行剩余的重复次数。
int MISFIRE_INSTRUCTION_RESCHEDULE_NOW_WITH_REMAINING_REPEAT_COUNT = 3;
// 这个策略会忽略已经错过的触发次数,并在下一个预定的触发时间执行任务,执行剩余的重复次数。
int MISFIRE_INSTRUCTION_RESCHEDULE_NEXT_WITH_REMAINING_COUNT = 4;
// 类似于MISFIRE_INSTRUCTION_RESCHEDULE_NEXT_WITH_REMAINING_COUNT,但是会包括所有错过的重复次数。
int MISFIRE_INSTRUCTION_RESCHEDULE_NEXT_WITH_EXISTING_COUNT = 5;
/** 
CronTrigger的Misfire机制,在CronTrigger类中
**/
// 如果触发器错过了预定的触发时间,这个策略会立即执行一次任务,然后按照原计划继续执行后续的任务。
int MISFIRE_INSTRUCTION_FIRE_ONCE_NOW = 1;
// 对于CronTrigger,这个策略会忽略所有错过的触发事件,直接等待下一次预定的触发时间。
int MISFIRE_INSTRUCTION_DO_NOTHING = 2;
......

在QuartzScheduler的insertOrUpdateScheduleTask()中,用的只有CronTrigger,其源码如下:

CronTrigger cronTrigger = newTrigger()
        .withIdentity(triggerKey)
        .startAt(startDate)
        .endAt(endDate)
        .withSchedule(
                cronSchedule(cronExpression)
                        .withMisfireHandlingInstructionIgnoreMisfires()
                        .inTimeZone(DateUtils.getTimezone(timezoneId)))
        .forJob(jobDetail).build();
// 往下走
public CronScheduleBuilder withMisfireHandlingInstructionIgnoreMisfires() {
    this.misfireInstruction = -1;
    return this;
}

其补偿机制采用的-1编码,也就是会将所有错过的触发事件,立即执行所有补偿动作。所以此时就可以解释,为什么Master重启后,会将所有的未执行的周期任务,全部执行一次!!!

这个设置根据Trigger的不同,也可以分别设置不同的参数:

/**
 CronTrigger,引用CronScheduleBuilder中的设置
 **/
public CronScheduleBuilder withMisfireHandlingInstructionIgnoreMisfires() {
    this.misfireInstruction = -1;
    return this;
}
public CronScheduleBuilder withMisfireHandlingInstructionDoNothing() {
    this.misfireInstruction = 2;
    return this;
}
public CronScheduleBuilder withMisfireHandlingInstructionFireAndProceed() {
    this.misfireInstruction = 1;
    return this;
}
/**
 SimpleTrigger,引用SimpleScheduleBuilder的设置
**/
public SimpleScheduleBuilder withMisfireHandlingInstructionIgnoreMisfires() {
    this.misfireInstruction = -1;
    return this;
}
public SimpleScheduleBuilder withMisfireHandlingInstructionFireNow() {
    this.misfireInstruction = 1;
    return this;
}
public SimpleScheduleBuilder withMisfireHandlingInstructionNextWithExistingCount() {
    this.misfireInstruction = 5;
    return this;
}
public SimpleScheduleBuilder withMisfireHandlingInstructionNextWithRemainingCount() {
    this.misfireInstruction = 4;
    return this;
}
public SimpleScheduleBuilder withMisfireHandlingInstructionNowWithExistingCount() {
    this.misfireInstruction = 2;
    return this;
}
public SimpleScheduleBuilder withMisfireHandlingInstructionNowWithRemainingCount() {
    this.misfireInstruction = 3;
    return this;
}

05 解决方案

  • 将任务设置为“串行等待”。——可行,但无法发挥出大数据集群的并行化优势。并且有一个致命的缺陷,就是串行等待的任务无法在页面数手动停止,需要去到t_ds_process_instance中更改状态或删除数据。

  • Master HA:单机Master时,对Master设置守护,宕机后自动拉起(但也有无法拉起的时候);多机Master时,部署多台Master,使其可以实现HA。

  • DolphinScheduler监控告警:持续监控DolphinScheduler运行状态,当有角色宕机后,及时发出告警信息(会有半夜宕机而运维人员没有及时发现告警信息的情况)。

  • 设置DolphinScheduler的CPU和内存使用阈值:在配置文件中,默认的CPU和内存阈值是70%,以为着当服务器的CPU和内存占用达到了70%后,DolphinScheduler就不会在这台服务器上调度任务了。这种方式的好处是可以保证服务器资源不被打满,弊端是如果Master容错的旧任务打满了资源,那就会影响DolphinScheduler正常状态下的新任务了。并且有的任务是非常关键的任务,必须要跑成功的。

  • 设置DolphinScheduler的任务数:在配置文件中,DolphinScheduler默认的任务数是单Worker100个,单Master是1000个。而在现网中,无法对任务数去做到精细的控制,并且DolphinScheduler也无法做到自动调配。

  • 在宕机后重新启动前删除t_ds_command表中的数据:经过验证,Master在宕机后是不会往t_ds_command中写数据了。其会在重启启动后,将数据写到t_ds_command后执行,但其中的时间大概就1~2秒钟,手工无法去执行删除。

  • 修改t_ds_process_instance中的数据:根据时间周期,修改t_ds_process_instance中所有这个范围内的工作流的状态,人工使其结束(但如果DolphinScheduler和元数据库在一台服务器上,容易DolphinScheduler启动后里面把服务器资源打满,造成无法操作元数据库了)。

上面的解决方案主要是分为:

  • 避免或减少Master的宕机;

  • 在Master宕机后,不要运行MisFire的任务;

首先是“避免或减少Master宕机”,这在生产环境中是很难做到的,计算机程序的假设就是100%会在某一个时刻产生某些问题,所以才有了各种微服务架构、高可用HA、多活、容灾等等机制。

其次是“不要运行MisFire的任务”,依照前面的解决方案,没有一个方案能解决这个问题。所以,根据之前的源码解析,需要考虑采用源码修改+重新编译打包的方式进行解决。

06 修改源码

将关键源码修改为:

            CronTrigger cronTrigger = newTrigger()
                    .withIdentity(triggerKey)
                    .startAt(startDate)
                    .endAt(endDate)
                    .withSchedule(
                            cronSchedule(cronExpression)
                                    .withMisfireHandlingInstructionDoNothing()
//                                    .withMisfireHandlingInstructionIgnoreMisfires()
                                    .inTimeZone(DateUtils.getTimezone(timezoneId)))
                    .forJob(jobDetail).build();

07 开发环境验证

使用Java8进行。

更改Master、worker、API下的application.yaml中的MySQL链接信息:

spring:
  config:
    activate:
      on-profile: mysql
  datasource:
    driver-class-name: com.mysql.cj.jdbc.Driver
    url: jdbc:mysql://IP地址:3306/dolphinscheduler?useUnicode=true&characterEncoding=UTF-8&useSSL=false
    username: 账号
    password: 密码
  quartz:
    properties:
      org.quartz.jobStore.driverDelegateClass: org.quartz.impl.jdbcjobstore.StdJDBCDelegate

更改Master、Worker、API下的Zookeeper信息:

registry:
  type: zookeeper
  zookeeper:
    namespace: dolphinscheduler_dev
    connect-string: IP地址:2181
    retry-policy:
      base-sleep-time: 60ms
      max-sleep: 300ms
      max-retries: 5
    session-timeout: 30s
    connection-timeout: 9s
    block-until-connected: 600ms
    digest: ~

更改bom下面的pom:

            
                mysql
                mysql-connector-java
                ${mysql-connector.version}

            

更改api、master、worker下的logback-spring.xml,开启运行日志:

    





        
        
    

    





        
        
        
    
    





        
        
        
    

启动 Master、Worker、Api:

  • Master VM Options:-Dlogging.config=classpath:logback-spring.xml -Ddruid.mysql.usePingMethod=false -Dspring.profiles.active=mysql

  • Worker VM Options:-Dlogging.config=classpath:logback-spring.xml -Ddruid.mysql.usePingMethod=false -Dspring.profiles.active=mysql

  • Api VM Options:-Dlogging.config=classpath:logback-spring.xml -Dspring.profiles.active=api,mysql

如果报错:

Error running 'ApiApplicationServer' Error running ApiApplicationServer. Command line is too long. Shorten the command line via JAR manifest or via a classpath file and rerun. 则加入:

如果还是报错缺少MySQL的JDBC驱动包,则在Master、Woker、API的Pom下面添加:


    mysql
    mysql-connector-java
    8.0.33

08 整体编译打包

需要注意,此时打包的项目,需要只是经过了《修改源码》环境的,不是进行了《开发环境验证》环节的!!!

使用Java8进行。

在项目根目录下执行命令,打包时间较长:

mvn spotless:apply clean package -Dmaven.test.skip=true -Prelease

打包后的二进制文件在dolphinscheduler-dist/target 下 bin.tar.gz 后缀文件。

之后就可以尝试重新部署,验证是否解决上面的问题了。

09 只编译单个模块

去到dolphinscheduler-scheduler-quartz根目录下,执行:

mvn spotless:apply clean package -Dmaven.test.skip=true -Prelease

打包后的文件在dolphinscheduler-scheduler-quartz/target目录下:

将其在服务器上进行替换:

su dolphinscheduler -

mv /opt/module/dolphinscheduler-3.2.1/master-server/libs/dolphinscheduler-scheduler-quartz-3.2.1.jar /opt/module/dolphinscheduler-3.2.1/master-server/libs/dolphinscheduler-scheduler-quartz-3.2.1.jar.bak
mv /opt/module/dolphinscheduler-3.2.1/api-server/libs/dolphinscheduler-scheduler-quartz-3.2.1.jar /opt/module/dolphinscheduler-3.2.1/api-server/libs/dolphinscheduler-scheduler-quartz-3.2.1.jar.bak

cp dolphinscheduler-scheduler-quartz-3.2.1.jar /opt/module/dolphinscheduler-3.2.1/master-server/libs/dolphinscheduler-scheduler-quartz-3.2.1.jar
cp dolphinscheduler-scheduler-quartz-3.2.1.jar /opt/module/dolphinscheduler-3.2.1/api-server/libs/dolphinscheduler-scheduler-quartz-3.2.1.jar

chown -R dolphinscheduler:dolphinscheduler /opt/module/dolphinscheduler-3.2.1/

之后就可以尝试重启DolphinScheduler,验证是否解决上面的问题了。

10 问题解决

再次进行问题复现,发现问题已经被解决了:

至此,本次问题排查及修复完成。

本文由 白鲸开源科技 提供发布支持!

本文地址:https://www.vps345.com/1690.html

搜索文章

Tags

PV计算 带宽计算 流量带宽 服务器带宽 上行带宽 上行速率 什么是上行带宽? CC攻击 攻击怎么办 流量攻击 DDOS攻击 服务器被攻击怎么办 源IP 服务器 linux 运维 游戏 云计算 javascript 前端 chrome edge deepseek Ollama 模型联网 API CherryStudio 进程 操作系统 进程控制 Ubuntu python MCP llama 算法 opencv 自然语言处理 神经网络 语言模型 ssh harmonyos 华为 开发语言 typescript 计算机网络 ubuntu 阿里云 网络 网络安全 网络协议 数据库 centos oracle 关系型 安全 分布式 github 创意 社区 笔记 C 环境变量 进程地址空间 RTSP xop RTP RTSPServer 推流 视频 flutter Hyper-V WinRM TrustedHosts react.js 前端面试题 node.js 持续部署 macos adb ollama ai 人工智能 llm Dell R750XS 科技 java 个人开发 udp unity rust http tcp/ip fastapi mcp mcp-proxy mcp-inspector fastapi-mcp agent sse 深度学习 YOLO 目标检测 计算机视觉 pycharm ide pytorch nginx 监控 自动化运维 django flask web3.py numpy docker 容器 DeepSeek-R1 API接口 c# springsecurity6 oauth2 授权服务器 token sas 后端 c++ Flask FastAPI Waitress Gunicorn uWSGI Uvicorn prometheus kvm 无桌面 命令行 串口服务器 DigitalOcean GPU服务器购买 GPU服务器哪里有 GPU服务器 apache mysql离线安装 ubuntu22.04 mysql8.0 matlab YOLOv8 NPU Atlas800 A300I pro asi_bench android windows 搜索引擎 Deepseek golang vscode mount挂载磁盘 wrong fs type LVM挂载磁盘 Centos7.9 c语言 自动化 智能路由器 dell服务器 IIS .net core Hosting Bundle .NET Framework vs2022 YOLOv12 rabbitmq es jvm AI编程 websocket php html 经验分享 oceanbase rc.local 开机自启 systemd 麒麟 ecm bpm ssl kylin 深度优先 图论 并集查找 换根法 树上倍增 ddos 机器学习 chatgpt 大模型 llama3 Chatglm 开源大模型 zotero WebDAV 同步失败 代理模式 ansible playbook vue.js audio vue音乐播放器 vue播放音频文件 Audio音频播放器自定义样式 播放暂停进度条音量调节快进快退 自定义audio覆盖默认样式 vim java-ee 面试 性能优化 jdk intellij-idea 架构 bash 博客 sql KingBase uni-app conda spring 银河麒麟 kylin v10 麒麟 v10 LDAP spring boot tomcat postman mock mock server 模拟服务器 mock服务器 Postman内置变量 Postman随机数据 蓝耘科技 元生代平台工作流 ComfyUI ESP32 maven intellij idea 腾讯云 嵌入式 linux驱动开发 arm开发 嵌入式硬件 nuxt3 vue3 实时音视频 .netcore dubbo elasticsearch jenkins .net AI 爬虫 数据集 前端框架 openEuler android studio 交互 低代码 gitlab filezilla 无法连接服务器 连接被服务器拒绝 vsftpd 331/530 多线程服务器 Linux网络编程 Qwen2.5-coder 离线部署 json html5 firefox pillow live555 rtsp rtp 运维开发 统信 国产操作系统 虚拟机安装 web安全 Kali Linux 黑客 渗透测试 信息收集 kubernetes 学习方法 程序人生 代码调试 ipdb Docker Compose docker compose docker-compose asm FTP 服务器 语法 崖山数据库 YashanDB ffmpeg 音视频 视频编解码 pip 源码剖析 rtsp实现步骤 流媒体开发 mysql uniapp Ubuntu 24.04.1 轻量级服务器 WSL2 NFS redhat TRAE 监控k8s集群 集群内prometheus pdf asp.net大文件上传 asp.net大文件上传下载 asp.net大文件上传源码 ASP.NET断点续传 asp.net上传文件夹 asp.net上传大文件 .net core断点续传 群晖 文件分享 中间件 iis 学习 5G 3GPP 卫星通信 VSCode postgresql git 负载均衡 odoo 服务器动作 Server action NPS 内网穿透 雨云服务器 雨云 1024程序员节 服务器数据恢复 数据恢复 存储数据恢复 raid5数据恢复 磁盘阵列数据恢复 shell ios 开源 银河麒麟操作系统 国产化 rpc 远程过程调用 Windows环境 kafka zookeeper 服务器部署ai模型 pygame 小游戏 五子棋 rsyslog Anolis nginx安装 环境安装 linux插件下载 高效日志打印 串口通信日志 服务器日志 系统状态监控日志 异常记录日志 qt Linux awk awk函数 awk结构 awk内置变量 awk参数 awk脚本 awk详解 毕设 jar 电脑 云原生 大数据 v10 镜像源 软件 ceph 软件工程 risc-v 3d aws ci/cd C语言 驱动开发 硬件工程 嵌入式实习 编辑器 ipython 物联网 单片机 svn 三级等保 服务器审计日志备份 FTP服务器 css 本地部署 api 架构与原理 DeepSeek 服务器繁忙 联想开天P90Z装win10 VMware安装Ubuntu Ubuntu安装k8s k8s bootstrap redis zabbix 系统架构 Linux ecmascript nextjs react reactjs stm32 软考 僵尸进程 https 流式接口 dify 深度求索 私域 知识库 gpu算力 camera Arduino 电子信息 hive Hive环境搭建 hive3环境 Hive远程模式 JAVA IDEA Java 统信UOS bonding 链路聚合 压力测试 tailscale derp derper 中转 网工 数据挖掘 flash-attention 报错 spring cloud GaN HEMT 氮化镓 单粒子烧毁 辐射损伤 辐照效应 Unity Dedicated Server Host Client 无头主机 数据库架构 数据管理 数据治理 数据编织 数据虚拟化 缓存 交叉编译 idm 远程工作 课程设计 MCP server C/S LLM windows日志 能力提升 面试宝典 技术 IT信息化 eureka unix 微服务 命名管道 客户端与服务端通信 jmeter 职场和发展 软件测试 测试工具 自动化测试 性能测试 功能测试 debian PVE 软件需求 netty go Ubuntu Server Ubuntu 22.04.5 服务器无法访问 ip地址无法访问 无法访问宝塔面板 宝塔面板打不开 鸿蒙 XFS xfs文件系统损坏 I_O error 直播推流 virtualenv arm 磁盘监控 飞牛NAS 飞牛OS MacBook Pro iot midjourney AI写作 jupyter 相差8小时 UTC 时间 状态管理的 UDP 服务器 Arduino RTOS 服务器配置 生物信息学 mcu gitea 多进程 媒体 微信公众平台 Reactor 设计模式 C++ FunASR ASR 佛山戴尔服务器维修 佛山三水服务器维修 file server http server web server 集成学习 集成测试 Invalid Host allowedHosts vue 远程连接 rdp 实验 tcpdump fpga开发 gitee Wi-Fi 计算机 干货分享 黑客工具 密码爆破 Spring Security microsoft AIGC C++软件实战问题排查经验分享 0xfeeefeee 0xcdcdcdcd 动态库加载失败 程序启动失败 程序运行权限 标准用户权限与管理员权限 Agent ISO镜像作为本地源 mybatis 云电竞 云电脑 todesk 企业微信 Linux24.04 deepin 矩阵 线性代数 电商平台 UOS 统信操作系统 yum SysBench 基准测试 transformer ping++ 游戏服务器 Minecraft stm32项目 MNN Qwen 重启 排查 系统重启 日志 原因 ui 备份SQL Server数据库 数据库备份 傲梅企业备份网络版 cursor 音乐服务器 Navidrome 音流 系统安全 部署 agi 微信 远程桌面 gaussdb CPU 内存 主板 电源 网卡 宝塔面板 宝塔面板访问不了 宝塔面板网站访问不了 宝塔面板怎么配置网站能访问 宝塔面板配置ip访问 宝塔面板配置域名访问教程 宝塔面板配置教程 H3C 机器人 ESXi Dell HPE 联想 浪潮 iDRAC R720xd freebsd pppoe radius 信息与通信 ocr 命令 AI agent 硬件架构 MacOS录屏软件 云服务 kind 华为云 next.js 部署next.js QQ 聊天室 前后端分离 温湿度数据上传到服务器 Arduino HTTP 银河麒麟服务器操作系统 系统激活 Linux PID 智能手机 googlecloud 剧本 muduo X11 Xming 小程序 弹性计算 虚拟化 KVM 计算虚拟化 弹性裸金属 游戏程序 windwos防火墙 defender防火墙 win防火墙白名单 防火墙白名单效果 防火墙只允许指定应用上网 防火墙允许指定上网其它禁止 工业4.0 firewalld minio 医疗APP开发 app开发 ollama下载加速 IPMI 远程登录 telnet 交换机 硬件 设备 GPU PCI-Express 安全威胁分析 vscode 1.86 jetty undertow NAS Termux Samba 权限 SSH express p2p mongodb prompt easyui AI大模型 langchain ip Netty 即时通信 NIO SWAT 配置文件 服务管理 网络共享 HTTP 服务器控制 ESP32 DeepSeek ruoyi 银河麒麟桌面操作系统 Kylin OS DeepSeek行业应用 Heroku 网站部署 xss 游戏机 hugo 思科模拟器 思科 Cisco vasp安装 边缘计算 智能硬件 AutoDL IIS服务器 IIS性能 日志监控 田俊楠 国标28181 视频监控 监控接入 语音广播 流程 SIP SDP 其他 MQTT mosquitto 消息队列 向日葵 r语言 数据可视化 数据分析 计算机外设 mac word图片自动上传 word一键转存 复制word图片 复制word图文 复制word公式 粘贴word图文 粘贴word公式 程序员 策略模式 单例模式 sqlite TCP服务器 qt项目 qt项目实战 qt教程 openssl 密码学 模拟退火算法 kamailio sip VoIP wsl2 wsl 银河麒麟高级服务器 外接硬盘 Kylin 根服务器 clickhouse list 数据结构 社交电子 数据库系统 EMQX 通信协议 hibernate webrtc remote-ssh sqlserver junit W5500 OLED u8g2 chfs ubuntu 16.04 漏洞 selete 高级IO 同步 备份 建站 laravel Docker Hub docker pull daemon.json 大模型入门 大模型教程 火绒安全 Nuxt.js Xterminal 需求分析 规格说明书 豆瓣 追剧助手 迅雷 nas 微信小程序 unity3d 微信分享 Image wxopensdk WebUI DeepSeek V3 springboot minicom 串口调试工具 飞书 孤岛惊魂4 恒源云 备选 网站 调用 示例 AD域 vSphere vCenter 软件定义数据中心 sddc 反向代理 致远OA OA服务器 服务器磁盘扩容 okhttp CORS 跨域 大模型微调 open webui cnn GoogLeNet echarts 传统数据库升级 银行 大语言模型 LLMs Dify excel 单一职责原则 北亚数据恢复 oracle数据恢复 opcua opcda KEPServer安装 HCIE 数通 oneapi code-server 外网访问 端口映射 Headless Linux XCC Lenovo 华为od 华为认证 网络工程师 移动云 MS Materials gateway Clion Nova ResharperC++引擎 Centos7 远程开发 embedding visualstudio HarmonyOS Next SSL 域名 华为机试 Python skynet Windsurf 安全架构 AISphereButler 自定义客户端 SAS LORA NLP 7z 输入法 Trae IDE AI 原生集成开发环境 Trae AI ukui 麒麟kylinos openeuler av1 电视盒子 机顶盒ROM 魔百盒刷机 npm 框架搭建 数学建模 网络结构图 WSL win11 无法解析服务器的名称或地址 armbian u-boot ftp web 云服务器 VPS c pyqt 微信小程序域名配置 微信小程序服务器域名 微信小程序合法域名 小程序配置业务域名 微信小程序需要域名吗 微信小程序添加域名 EasyConnect Cline 远程 执行 sshpass 操作 RustDesk自建服务器 rustdesk服务器 docker rustdesk 黑客技术 linux环境变量 URL 服务器主板 AI芯片 ssrf 失效的访问控制 HTML audio 控件组件 vue3 audio音乐播放器 Audio标签自定义样式默认 vue3播放音频文件音效音乐 自定义audio播放器样式 播放暂停调整声音大小下载文件 MI300x 安装教程 GPU环境配置 Ubuntu22 CUDA PyTorch Anaconda安装 WebRTC gpt openwrt tcp ux 多线程 vscode1.86 1.86版本 ssh远程连接 SSE open Euler dde RTMP 应用层 LLM Web APP Streamlit hadoop big data opensearch helm xrdp string模拟实现 深拷贝 浅拷贝 经典的string类问题 三个swap Cursor TrinityCore 魔兽世界 开发环境 SSL证书 sysctl.conf vm.nr_hugepages adobe elk 网络编程 聊天服务器 套接字 TCP 客户端 Socket IPMITOOL BMC 硬件管理 VMware创建虚拟机 信号处理 python3.11 DevEco Studio HarmonyOS OpenHarmony 真机调试 dash 正则表达式 tidb GLIBC 代理服务器 docker命令大全 无人机 可信计算技术 音乐库 飞牛 实用教程 nac 802.1 portal 视觉检测 捆绑 链接 谷歌浏览器 youtube google gmail 僵尸世界大战 游戏服务器搭建 远程控制 远程看看 远程协助 浏览器开发 AI浏览器 图形渲染 docker run 数据卷挂载 交互模式 知识图谱 sqlite3 系统 黑苹果 虚拟机 VMware cpu 实时 使用 sdkman sequoiaDB ruby ldap proxy模式 devops alias unalias 别名 虚拟局域网 GIS 遥感 WebGIS Python基础 Python教程 Python技巧 网络攻击模型 cuda cudnn nvidia prometheus数据采集 prometheus数据模型 prometheus特点 相机 RAGFlow 本地知识库部署 DeepSeek R1 模型 具身智能 强化学习 政务 分布式系统 监控运维 Prometheus Grafana bug 环境配置 Typore Claude Kylin-Server 服务器安装 eNSP 网络规划 VLAN 企业网络 多个客户端访问 IO多路复用 回显服务器 TCP相关API mariadb 源码 毕业设计 AnythingLLM AnythingLLM安装 gpt-3 文心一言 内网环境 Kali 混合开发 JDK regedit 开机启动 显卡驱动 AP配网 AK配网 小程序AP配网和AK配网教程 WIFI设备配网小程序UDP开 京东云 压测 ECS 匿名管道 基础入门 编程 实战案例 宕机切换 服务器宕机 序列化反序列化 主从复制 webgl 腾讯云大模型知识引擎 网卡的名称修改 eth0 ens33 k8s资源监控 annotations自动化 自动化监控 监控service 监控jvm centos-root /dev/mapper yum clean all df -h / du -sh 考研 大文件分片上传断点续传及进度条 如何批量上传超大文件并显示进度 axios大文件切片上传详细教 node服务器合并切片 vue3大文件上传报错提示错误 大文件秒传跨域报错cors onlyoffice 在线office 网络用户购物行为分析可视化平台 大数据毕业设计 vue-i18n 国际化多语言 vue2中英文切换详细教程 如何动态加载i18n语言包 把语言json放到服务器调用 前端调用api获取语言配置文件 DOIT 四博智联 防火墙 NAT转发 NAT Server GCC aarch64 编译安装 HPC chrome 浏览器下载 chrome 下载安装 谷歌浏览器下载 私有化 docker搭建pg docker搭建pgsql pg授权 postgresql使用 postgresql搭建 虚幻 游戏引擎 线程 can 线程池 健康医疗 互联网医院 迁移指南 环境迁移 常用命令 文本命令 目录命令 P2P HDLC 树莓派 VNC thingsboard MySql USB网络共享 llama.cpp QT 5.12.12 QT开发环境 Ubuntu18.04 Playwright 双系统 GRUB引导 Linux技巧 Linux环境 docker搭建nacos详解 docker部署nacos docker安装nacos 腾讯云搭建nacos centos7搭建nacos ssh远程登录 域名服务 DHCP 符号链接 配置 springboot远程调试 java项目远程debug docker远程debug java项目远程调试 springboot远程 win服务器架设 windows server epoll linux上传下载 鲲鹏 昇腾 npu ssh漏洞 ssh9.9p2 CVE-2025-23419 css3 RAID RAID技术 磁盘 存储 sentinel 图像处理 visual studio code uv 移动魔百盒 技能大赛 vmware 卡死 USB转串口 CH340 harmonyOS面试题 邮件APP 免费软件 程序 性能分析 etl 自动驾驶 状态模式 yaml Ultralytics 可视化 服务器管理 配置教程 网站管理 wps 安卓 AI代码编辑器 deepseek r1 OpenSSH 我的世界服务器搭建 rocketmq 加解密 Yakit yaklang 王者荣耀 xml linux安装配置 DNS 技术共享 我的世界 我的世界联机 数码 Ark-TS语言 rnn UDP 链表 流量运营 微信开放平台 微信公众号配置 iphone frp cmos Docker引擎已经停止 Docker无法使用 WSL进度一直是0 镜像加速地址 iftop 网络流量监控 perf eclipse etcd 数据安全 RBAC 带外管理 wireshark 小智AI服务端 xiaozhi TTS make命令 makefile文件 执法记录仪 智能安全帽 smarteye mamba 金融 AD 域管理 seatunnel jina ue4 着色器 ue5 VMware安装mocOS macOS系统安装 产测工具框架 IMX6ULL 管理框架 目标跟踪 OpenVINO 推理应用 鸿蒙系统 Linux的基础指令 Erlang OTP gen_server 热代码交换 事务语义 ros rag ragflow ragflow 源码启动 iperf3 带宽测试 镜像 TCP协议 IMX317 MIPI H265 VCU composer 文件系统 路径解析 glibc rustdesk milvus ROS dns是什么 如何设置电脑dns dns应该如何设置 在线预览 xlsx xls文件 在浏览器直接打开解析xls表格 前端实现vue3打开excel 文件地址url或接口文档流二进 gcc anaconda Logstash 日志采集 Vmamba Ubuntu共享文件夹 共享目录 Linux共享文件夹 navicat 开发 Unity插件 iventoy VmWare OpenEuler lio-sam SLAM 测试用例 .net mvc断点续传 less AI作画 端口测试 实时互动 HiCar CarLife+ CarPlay QT RK3588 RAGFLOW RAG 检索增强生成 文档解析 大模型垂直应用 yolov8 ubuntu24.04.1 CLion Node-Red 编程工具 流编程 LInux pgpool 个人博客 串口驱动 CH341 uart 485 bcompare Beyond Compare 模拟器 教程 edge浏览器 curl wget 端口 查看 ss fast cd 目录切换 大模型应用 n8n 工作流 workflow rtsp服务器 rtsp server android rtsp服务 安卓rtsp服务器 移动端rtsp服务 大牛直播SDK linux 命令 sed 命令 grafana Cookie 游戏开发 TrueLicense IPv4 子网掩码 公网IP 私有IP SSH 密钥生成 SSH 公钥 私钥 生成 hexo 显示管理器 lightdm gdm 阻塞队列 生产者消费者模型 服务器崩坏原因 Windows 网站搭建 serv00 Linux无人智慧超市 LInux多线程服务器 QT项目 LInux项目 单片机项目 Jellyfin 超融合 蓝桥杯 EMUI 回退 降级 升级 裸金属服务器 弹性裸金属服务器 自动化任务管理 开机自启动 kali 共享文件夹 ShenTong 代理 飞牛nas fnos apt yum源切换 更换国内yum源 毕昇JDK 中兴光猫 换光猫 网络桥接 自己换光猫 springcloud fd 文件描述符 Linux find grep ArkUI 多端开发 智慧分发 应用生态 鸿蒙OS micropython esp32 mqtt vr 单元测试 selenium 查询数据库服务IP地址 SQL Server 分布式训练 语音识别 灵办AI 智能音箱 智能家居 半虚拟化 硬件虚拟化 Hypervisor dba 图形化界面 换源 国内源 Debian AI-native Docker Desktop mq SVN Server tortoise svn 算力 Radius rclone AList webdav fnOS 繁忙 解决办法 替代网站 汇总推荐 AI推理 元服务 应用上架 ABAP bat 物联网开发 tensorflow trae outlook 办公自动化 自动化生成 pdf教程 crosstool-ng matplotlib IM即时通讯 剪切板对通 HTML FORMAT 高效远程协作 TrustViewer体验 跨设备操作便利 智能远程控制 HAProxy 直流充电桩 充电桩 deekseek arcgis rust腐蚀 SEO Ubuntu DeepSeek DeepSeek Ubuntu DeepSeek 本地部署 DeepSeek 知识库 DeepSeek 私有化知识库 本地部署 DeepSeek DeepSeek 私有化部署 safari Mac 多层架构 解耦 g++ g++13 影刀 #影刀RPA# 历史版本 下载 安装 做raid 装系统 Java Applet URL操作 服务器建立 Socket编程 网络文件读取 阿里云ECS pyautogui VM搭建win2012 win2012应急响应靶机搭建 攻击者获取服务器权限 上传wakaung病毒 应急响应并溯源 挖矿病毒处置 应急响应综合性靶场 分析解读 SSH 服务 SSH Server OpenSSH Server 软链接 硬链接 企业网络规划 华为eNSP 网络穿透 Google pay Apple pay 信号 dns ip命令 新增网卡 新增IP 启动网卡 DenseNet CrewAI log4j bot Docker autodl qemu libvirt OD机试真题 华为OD机试真题 服务器能耗统计 efficientVIT YOLOv8替换主干网络 TOLOv8 Xinference MacMini 迷你主机 mini Apple 宠物 免费学习 宠物领养 宠物平台 小艺 Pura X 用户缓冲区 模拟实现 cocoapods xcode threejs 3D db ubuntu24 vivado24 SenseVoice CDN 业界资讯 怎么卸载MySQL MySQL怎么卸载干净 MySQL卸载重新安装教程 MySQL5.7卸载 Linux卸载MySQL8.0 如何卸载MySQL教程 MySQL卸载与安装 大数据平台 wsgiref Web 服务器网关接口 程序员创富 flink nfs 信息可视化 网页设计 k8s集群资源管理 云原生开发 Open WebUI VR手套 数据手套 动捕手套 动捕数据手套 xpath定位元素 RoboVLM 通用机器人策略 VLA设计哲学 vlm fot robot 视觉语言动作模型 Ubuntu 24 常用命令 Ubuntu 24 Ubuntu vi 异常处理 ardunio BLE 烟花代码 烟花 元旦 webstorm lsb_release /etc/issue /proc/version uname -r 查看ubuntu版本 大大通 第三代半导体 碳化硅 UDP的API使用 ros2 moveit 机器人运动 ai工具 wordpress 无法访问wordpess后台 打开网站页面错乱 linux宝塔面板 wordpress更换服务器 java-rocketmq CVE-2024-7347 C# MQTTS 双向认证 emqx keepalived sonoma 自动更新 大模型面经 大模型学习 h.264 trea idea dity make 实习 gradle 项目部署到linux服务器 项目部署过程 chrome devtools chromedriver web3 ArcTS 登录 ArcUI GridItem arkUI rime KylinV10 麒麟操作系统 Vmware 流水线 脚本式流水线 cpp-httplib 键盘 抗锯齿 IMM SRS 流媒体 直播 金仓数据库 2025 征文 数据库平替用金仓 EtherCAT转Modbus ECT转Modbus协议 EtherCAT转485网关 ECT转Modbus串口网关 EtherCAT转485协议 ECT转Modbus网关 合成模型 扩散模型 图像生成 firewall iBMC UltraISO lua nlp spark HistoryServer Spark YARN jobhistory 嵌入式系统开发 鸿蒙开发 移动开发 IO MVS 海康威视相机 搭建个人相关服务器 聚类 ai小智 语音助手 ai小智配网 ai小智教程 esp32语音助手 diy语音助手 远程服务 conda配置 conda镜像源 dock 加速 swoole DBeaver Qwen2.5-VL vllm 大模型部署 本地化部署 基础环境 人工智能生成内容 ArtTS triton 模型分析 ubuntu20.04 开机黑屏 多路转接 拓扑图 Deepseek-R1 私有化部署 推理模型 沙盒 word openstack Xen 玩机技巧 软件分享 软件图标 项目部署 mm-wiki搭建 linux搭建mm-wiki mm-wiki搭建与使用 mm-wiki使用 mm-wiki详解 IO模型 hosts UOS1070e VS Code 服务器时间 数据仓库 kerberos 粘包问题 seleium visual studio 上传视频至服务器代码 vue3批量上传多个视频并预览 如何实现将本地视频上传到网页 element plu视频上传 ant design vue vue3本地上传视频及预览移除 neo4j 系统开发 binder 车载系统 framework 源码环境 Attention 宝塔 uni-file-picker 拍摄从相册选择 uni.uploadFile H5上传图片 微信小程序上传图片 软负载 本地部署AI大模型 网络建设与运维 AI Agent 字节智能运维 存储维护 NetApp存储 EMC存储 产品经理 离线部署dify CentOS Stream CentOS docker部署翻译组件 docker部署deepl docker搭建deepl java对接deepl 翻译组件使用 grub 版本升级 扩容 嵌入式Linux IPC gnu 磁盘镜像 服务器镜像 服务器实时复制 实时文件备份 大模型推理 rpa minecraft 西门子PLC 通讯 Redis Desktop x64 SIGSEGV xmm0 热榜 免费域名 域名解析 李心怡 Linux的权限 MDK 嵌入式开发工具 论文笔记 sublime text docker部署Python 内网服务器 内网代理 内网通信 运维监控 figma leetcode 推荐算法 风扇控制软件 网络爬虫 PX4 增强现实 沉浸式体验 应用场景 技术实现 案例分析 AR 并查集 DocFlow EtherNet/IP串口网关 EIP转RS485 EIP转Modbus EtherNet/IP网关协议 EIP转RS485网关 EIP串口服务器 wpf 虚幻引擎 渗透 信创 信创终端 中科方德 论文阅读 自动化编程 deep learning kernel xshell termius iterm2 网络搭建 神州数码 神州数码云平台 云平台 数据库开发 database searxng 网络药理学 生信 PPI String Cytoscape CytoHubba 服务网格 istio js 欧标 OCPP