diff --git a/CN/LLM-Hub/LLM-Hub-PRD/LLM-Hub-PRD.md b/CN/LLM-Hub/LLM-Hub-PRD/LLM-Hub-PRD.md index e5e3ab4..f3f2918 100644 --- a/CN/LLM-Hub/LLM-Hub-PRD/LLM-Hub-PRD.md +++ b/CN/LLM-Hub/LLM-Hub-PRD/LLM-Hub-PRD.md @@ -63,10 +63,9 @@ --- ## 6. 技术架构与模块设计 -![](../Mermaid/LLMHub-Architecture-Diagram/LLMHub-Architecture-Diagram.png) + ### 6.1 总体架构 - - +![](../Mermaid/LLMHub-Architecture-Diagram/LLMHub-Architecture-Diagram.png) ### 6.2 模块细化 @@ -81,6 +80,7 @@ | 权限管理 | RBAC、OAuth2.0、SSO 集成 | | SDK & CLI | 多语言 SDK、CLI 工具、Mock 本地模式 | | 运维工具 | 灾备脚本、升级回滚脚本、备份恢复脚本 | +[详细设计](../Model-Design/Model-Design.md) --- diff --git a/CN/LLM-Hub/Model-Design/Model-Design.md b/CN/LLM-Hub/Model-Design/Model-Design.md new file mode 100644 index 0000000..5359eab --- /dev/null +++ b/CN/LLM-Hub/Model-Design/Model-Design.md @@ -0,0 +1,44 @@ +### 调度模块 +**主要作用**:负责模型服务的自动化部署、健康检查及异常处理流程。 + +**核心功能包括**: + +1. **部署管理**: + - 通过 **Helm Chart** 或 **Kubernetes Operator** 实现模型服务的标准化部署; + - 支持参数化配置,提升环境适配能力(如测试、生产等)。 + +2. **健康探针机制**: + - 集成 **liveness/readiness probe**; + - 自动检测服务健康状态,若失败则触发告警或回滚。 + +3. **自动回滚策略**: + - 若部署失败(如探针不通过、服务未启动),自动回滚至上一个稳定版本; + - 并通过控制台、邮件或钉钉等方式通知管理员。 + +4. **状态持久化与可追溯性**: + - 每次部署任务都记录 **版本号、时间戳、操作人、变更详情** 等。 + +--- + +### 调度模块 + +**主要作用**:负责后端算力资源的智能分配与弹性管理,确保服务的高效运行与租户隔离。 + +**核心功能包括**: + +1. **资源调度与分配**: + - 根据模型运行所需的 **CPU/GPU**、内存等资源,调度至合适的 Node; + - 支持多租户资源隔离(如 Kubernetes Namespace、Node Affinity)。 + +2. **弹性伸缩(Auto-scaling)**: + - 基于业务负载或资源利用率(如 QPS、GPU 使用率)动态扩缩容; + - 与 HPA/VPA 集成,或自定义弹性逻辑。 + +3. **资源利用率监控**: + - 实时采集 **Pod/Node 级别资源指标**,辅助性能优化与容量规划。 + +4. **多集群/区域支持**: + - 可按策略调度至不同集群或可用区,实现高可用性与地理容灾。 + +5. **调度优先级与抢占机制**: + - 引入优先级队列与抢占策略,保障关键任务资源优先级。