模型训练操作
训练配置
在工作流中配置模型节点后,需要设置训练参数:
基本参数
| 参数 | 说明 | 推荐值 |
|---|---|---|
| Epochs | 训练轮数 | 100-300 |
| Batch Size | 批次大小 | 4-16(取决于 GPU 显存) |
| Learning Rate | 学习率 | 1e-4 |
| Optimizer | 优化器 | AdamW |
| Loss Function | 损失函数 | Dice Loss / Cross Entropy |
数据分割
| 参数 | 说明 | 推荐值 |
|---|---|---|
| Train Ratio | 训练集比例 | 0.7 |
| Val Ratio | 验证集比例 | 0.15 |
| Test Ratio | 测试集比例 | 0.15 |
启动训练
- 配置好训练参数
- 选择执行 Worker(GPU / CPU)
- 点击"开始训练"
- 系统将任务提交到 Celery 队列
训练监控
训练过程中可以实时查看:
- 损失曲线 — 训练集和验证集的 loss 变化
- 指标曲线 — Dice 系数、IoU 等指标变化
- 资源使用 — GPU 显存、CPU 使用率
- 训练日志 — 详细的训练输出
断点续训
如果训练中断,可以从最近的 checkpoint 继续训练:
- 在训练任务列表中找到中断的任务
- 点击"继续训练"
- 系统从最近的 checkpoint 恢复
超参数搜索(可选)
支持自动超参数搜索:
- 网格搜索
- 随机搜索
- 贝叶斯优化