docs/CN/LLM-Hub/Model-Design/Model-Design.md
2025-04-23 15:57:59 +08:00

45 lines
1.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

### 调度模块
**主要作用**:负责模型服务的自动化部署、健康检查及异常处理流程。
**核心功能包括**
1. **部署管理**
- 通过 **Helm Chart****Kubernetes Operator** 实现模型服务的标准化部署;
- 支持参数化配置,提升环境适配能力(如测试、生产等)。
2. **健康探针机制**
- 集成 **liveness/readiness probe**
- 自动检测服务健康状态,若失败则触发告警或回滚。
3. **自动回滚策略**
- 若部署失败(如探针不通过、服务未启动),自动回滚至上一个稳定版本;
- 并通过控制台、邮件或钉钉等方式通知管理员。
4. **状态持久化与可追溯性**
- 每次部署任务都记录 **版本号、时间戳、操作人、变更详情** 等。
---
### 调度模块
**主要作用**:负责后端算力资源的智能分配与弹性管理,确保服务的高效运行与租户隔离。
**核心功能包括**
1. **资源调度与分配**
- 根据模型运行所需的 **CPU/GPU**、内存等资源,调度至合适的 Node
- 支持多租户资源隔离(如 Kubernetes Namespace、Node Affinity
2. **弹性伸缩Auto-scaling**
- 基于业务负载或资源利用率(如 QPS、GPU 使用率)动态扩缩容;
- 与 HPA/VPA 集成,或自定义弹性逻辑。
3. **资源利用率监控**
- 实时采集 **Pod/Node 级别资源指标**,辅助性能优化与容量规划。
4. **多集群/区域支持**
- 可按策略调度至不同集群或可用区,实现高可用性与地理容灾。
5. **调度优先级与抢占机制**
- 引入优先级队列与抢占策略,保障关键任务资源优先级。