需求说明与项目信息
先看项目目标、预算和周期,再决定留言沟通还是提交报价。
需求介绍
岗位要求: ✅ 接受分阶段交付与付费 ✅ 必须有扩散模型(Diffusion Models)编程经验,包括部署在云端GPU上,能够对模型进行大规模扩展,在单个GPU实例上处理上千请求 ✅ 熟悉在GPU服务器(如Runpod、AWS、Huggingface)上部署开源模型 ✅ 熟悉围绕无服务器(Serverless)部署的微服务搭建,包括任务队列(Q-based)管理系统及批处理服务 ✅ 理解模型克隆与优化处理图像以支持大规模图像处理任务 ✅ 掌握Python代码结构,熟悉常见后端技术栈 技术任务要求: 主要目标:在单个GPU上启动多个推理进程(Inference Workers) 使用 Python 的 multiprocessing、asyncio 或 Celery 任务队列并行启动多个模型实例(workers) 每个 worker 负责处理批量图像请求 使用共享请求队列(如 Redis 或 RabbitMQ)将任务分发给 workers 1. 优化 Diffusion 模型 a. 减少每张图像的推理时间: 使用半精度(FP16 或 INT8)运算:降低显存占用并加快处理速度,同时保持画质 模型蒸馏:训练一个更轻量的模型复制完整模型的输出,可将推理时间降低2~5倍 量化感知训练(QAT):在降低精度的同时尽可能保留模型精度 2. 智能批量推理 a. 在服务端进行输入批量化: 将请求合并为批次(如每批 8、16、32 张图,依据显存情况) 批量一次性前向推理处理 使用队列系统聚合请求,延迟几百毫秒进行一次批量处理 b. 异步处理架构: Runpod 容器需采用异步队列架构(如 Celery 或基于 asyncio 的 FastAPI) 使 GPU 保持持续工作,避免请求之间的空闲 3. 使用高效的调度器(Scheduler) 默认每张图要执行30~50步采样,可进行优化: 使用 DDIM / DPM-Solver 等调度器,将采样步骤降至15~20 调整 Classifier-Free Guidance 参数,在不损失画质的情况下减少采样步骤 4. Runpod 多线程 Worker 模式部署 a. 单个 GPU 上进行多进程并行: 使用 Ray、Joblib 或 TorchServe + gRPC 等方式 同时运行多个模型进程,批量处理图像 避免每次请求都单独初始化模型实例,提高GPU利用率 5. 推理流程中的非GPU步骤并行化 图像预处理(如缩放、扭曲)和后处理(如叠加、遮罩)任务转移到CPU线程处理 仅将模型核心推理部分留给GPU 可将10~30%的工作负载转移至CPU和RAM,从而释放GPU计算资源 6. Runpod 容器的战略部署 若使用单个GPU: 利用 Runpod 的 “Secure Volume Mounts” 功能,在同一个 Pod 内共享模型和中间文件 使用 RunPod Serverless API 模式为CPU容器开启自动扩缩容,负责排队、预处理图像请求,然后再发给GPU容器 7. 使用持久图像缓存机制 对于重复生成的VTON图像结果(如:同一件衣服搭配不同模型): 使用Redis等快速内存存储系统,以图像哈希为键进行缓存,快速返回历史生成结果,避免重复生成
- 预算
- 10000元
- 期望周期
- 招标·按项目付费
- 发布单位
- 深圳市
- 商机阶段
- 新线索
- 发布时间
- 2025-05-07发布
- 任务模式
- 招标·按项目付费
- 所在地区
- 广东省 / 深圳市
- 公开状态
- 进行中
真实类目路径
AI人工智能 / AI工具与解决方案 / AI金融与商业