增加详细设计
This commit is contained in:
parent
5aa7cae940
commit
82aa7e6c1c
@ -63,10 +63,9 @@
|
||||
---
|
||||
|
||||
## 6. 技术架构与模块设计
|
||||

|
||||
|
||||
### 6.1 总体架构
|
||||
|
||||
|
||||

|
||||
|
||||
### 6.2 模块细化
|
||||
|
||||
@ -81,6 +80,7 @@
|
||||
| 权限管理 | RBAC、OAuth2.0、SSO 集成 |
|
||||
| SDK & CLI | 多语言 SDK、CLI 工具、Mock 本地模式 |
|
||||
| 运维工具 | 灾备脚本、升级回滚脚本、备份恢复脚本 |
|
||||
[详细设计](../Model-Design/Model-Design.md)
|
||||
|
||||
---
|
||||
|
||||
|
||||
44
CN/LLM-Hub/Model-Design/Model-Design.md
Normal file
44
CN/LLM-Hub/Model-Design/Model-Design.md
Normal file
@ -0,0 +1,44 @@
|
||||
### 调度模块
|
||||
**主要作用**:负责模型服务的自动化部署、健康检查及异常处理流程。
|
||||
|
||||
**核心功能包括**:
|
||||
|
||||
1. **部署管理**:
|
||||
- 通过 **Helm Chart** 或 **Kubernetes Operator** 实现模型服务的标准化部署;
|
||||
- 支持参数化配置,提升环境适配能力(如测试、生产等)。
|
||||
|
||||
2. **健康探针机制**:
|
||||
- 集成 **liveness/readiness probe**;
|
||||
- 自动检测服务健康状态,若失败则触发告警或回滚。
|
||||
|
||||
3. **自动回滚策略**:
|
||||
- 若部署失败(如探针不通过、服务未启动),自动回滚至上一个稳定版本;
|
||||
- 并通过控制台、邮件或钉钉等方式通知管理员。
|
||||
|
||||
4. **状态持久化与可追溯性**:
|
||||
- 每次部署任务都记录 **版本号、时间戳、操作人、变更详情** 等。
|
||||
|
||||
---
|
||||
|
||||
### 调度模块
|
||||
|
||||
**主要作用**:负责后端算力资源的智能分配与弹性管理,确保服务的高效运行与租户隔离。
|
||||
|
||||
**核心功能包括**:
|
||||
|
||||
1. **资源调度与分配**:
|
||||
- 根据模型运行所需的 **CPU/GPU**、内存等资源,调度至合适的 Node;
|
||||
- 支持多租户资源隔离(如 Kubernetes Namespace、Node Affinity)。
|
||||
|
||||
2. **弹性伸缩(Auto-scaling)**:
|
||||
- 基于业务负载或资源利用率(如 QPS、GPU 使用率)动态扩缩容;
|
||||
- 与 HPA/VPA 集成,或自定义弹性逻辑。
|
||||
|
||||
3. **资源利用率监控**:
|
||||
- 实时采集 **Pod/Node 级别资源指标**,辅助性能优化与容量规划。
|
||||
|
||||
4. **多集群/区域支持**:
|
||||
- 可按策略调度至不同集群或可用区,实现高可用性与地理容灾。
|
||||
|
||||
5. **调度优先级与抢占机制**:
|
||||
- 引入优先级队列与抢占策略,保障关键任务资源优先级。
|
||||
Loading…
x
Reference in New Issue
Block a user