docs/CN/LLM-Hub/Model-Design/Model-Design.md
2025-04-23 15:57:59 +08:00

1.7 KiB
Raw Blame History

调度模块

主要作用:负责模型服务的自动化部署、健康检查及异常处理流程。

核心功能包括

  1. 部署管理

    • 通过 Helm ChartKubernetes Operator 实现模型服务的标准化部署;
    • 支持参数化配置,提升环境适配能力(如测试、生产等)。
  2. 健康探针机制

    • 集成 liveness/readiness probe
    • 自动检测服务健康状态,若失败则触发告警或回滚。
  3. 自动回滚策略

    • 若部署失败(如探针不通过、服务未启动),自动回滚至上一个稳定版本;
    • 并通过控制台、邮件或钉钉等方式通知管理员。
  4. 状态持久化与可追溯性

    • 每次部署任务都记录 版本号、时间戳、操作人、变更详情 等。

调度模块

主要作用:负责后端算力资源的智能分配与弹性管理,确保服务的高效运行与租户隔离。

核心功能包括

  1. 资源调度与分配

    • 根据模型运行所需的 CPU/GPU、内存等资源,调度至合适的 Node
    • 支持多租户资源隔离(如 Kubernetes Namespace、Node Affinity
  2. 弹性伸缩Auto-scaling

    • 基于业务负载或资源利用率(如 QPS、GPU 使用率)动态扩缩容;
    • 与 HPA/VPA 集成,或自定义弹性逻辑。
  3. 资源利用率监控

    • 实时采集 Pod/Node 级别资源指标,辅助性能优化与容量规划。
  4. 多集群/区域支持

    • 可按策略调度至不同集群或可用区,实现高可用性与地理容灾。
  5. 调度优先级与抢占机制

    • 引入优先级队列与抢占策略,保障关键任务资源优先级。