docs/Model-Design.md at 82aa7e6c1c319ed535b51c0c19b6d28e16854028 - docs - JCNC: Welcome to JCNC gitea,Welcome your visit!

JCNC/docs

Luke 82aa7e6c1c 增加详细设计

2025-04-23 15:57:59 +08:00

1.7 KiB

Raw Blame History

调度模块

主要作用：负责模型服务的自动化部署、健康检查及异常处理流程。

核心功能包括：

部署管理：
- 通过 Helm Chart 或 Kubernetes Operator 实现模型服务的标准化部署；
- 支持参数化配置，提升环境适配能力（如测试、生产等）。
健康探针机制：
- 集成 liveness/readiness probe；
- 自动检测服务健康状态，若失败则触发告警或回滚。
自动回滚策略：
- 若部署失败（如探针不通过、服务未启动），自动回滚至上一个稳定版本；
- 并通过控制台、邮件或钉钉等方式通知管理员。
状态持久化与可追溯性：
- 每次部署任务都记录 版本号、时间戳、操作人、变更详情 等。

调度模块

主要作用：负责后端算力资源的智能分配与弹性管理，确保服务的高效运行与租户隔离。

核心功能包括：

资源调度与分配：
- 根据模型运行所需的 CPU/GPU、内存等资源，调度至合适的 Node；
- 支持多租户资源隔离（如 Kubernetes Namespace、Node Affinity）。
弹性伸缩（Auto-scaling）：
- 基于业务负载或资源利用率（如 QPS、GPU 使用率）动态扩缩容；
- 与 HPA/VPA 集成，或自定义弹性逻辑。
资源利用率监控：
- 实时采集 Pod/Node 级别资源指标，辅助性能优化与容量规划。
多集群/区域支持：
- 可按策略调度至不同集群或可用区，实现高可用性与地理容灾。
调度优先级与抢占机制：
- 引入优先级队列与抢占策略，保障关键任务资源优先级。