Can AI Replace E-commerce Models?

This answer has changed as the product changed. When I first wrote it, the honest conclusion was: diffusion models could already produce impressive images, but they were still far from a foolproof e-commerce workflow. Since then, we have turned a lot of that exploration into WeShop, including a commercial Virtual Try-On system rather than just a demo.

The current WeShop workflow can change faces, backgrounds, poses, and even rotate a garment presentation. You can try the demo on Hugging Face, or use the commercial product and API through WeShop.

WeShop virtual try-on examples — Examples from the WeShop virtual try-on workflow.

WeShop product examples from the original Zhihu answer — WeShop product workflow example 1 from the original Zhihu answer.

The important problem is not whether the image looks good once

E-commerce is not a purely digital scenario. A product photo is connected to fulfillment, consumer trust, returns, and long-term brand credibility. If an AI image changes the product detail, the image may look beautiful but still hurt the buyer experience. That is why the hardest part is not generating a good-looking model. It is preserving the actual product.

This is also where many early demos became misleading. A few screenshots could make the technology look ready, but a merchant needs repeatable control: keep the garment, change the model, change the scene, keep the SKU reliable, and do it at scale.

Early WeShop e-commerce image generation example — Early WeShop e-commerce generation case 1.

The technical routes we tried

Midjourney was polished but too closed for this use case. Stable Diffusion WebUI was much more useful because it exposed the workflow and had an active ecosystem. DreamBooth and LoRA were helpful for injecting a specific person, product, or style into generation, but product details were still fragile. LoRA could learn that a piece of lingerie had patterns, for example, while still losing the structure of the lower band.

ControlNet improved structure preservation. Inpainting made the model-replacement path more realistic because we could keep the original product image and only change the model. But inpainting introduced another product problem: masks, stages, uncertainty, and debugging cost. It was powerful for studios, but too complicated for a normal merchant.

We also looked at the image-editing literature: ControlNet, Prompt-to-Prompt, Null-text Inversion, Pix2Pix-Zero, InstructPix2Pix, SDEdit, Composer, and related work. Some of these directions were promising, but e-commerce has its own instruction distribution. A model trained on general editing instructions does not automatically understand what a merchant means by “keep the collar”, “do not change the strap”, or “make this red dress green without changing the cut”.

Diffusion-model and image-editing experiment for e-commerce photos — Technical experiment from the original answer, case 1.

Productization means narrowing freedom

A raw generation interface gives users freedom, but it also gives them too many ways to fail. For WeShop, we started to design templates: common scenes, parameter sets, and workflows that compress the best practices we discovered through repeated testing. This sacrifices some creative freedom, but it makes the result more controllable.

WeShop template and demo output example — Template and demo output from the original answer, case 1.

That is the pattern I keep seeing in AI applications: early technology expands the possibility space, while product work narrows that space into something repeatable, legible, and safe enough for real users.

The business window

Even an imperfect intermediate product can move an industry forward. Cross-border sellers, apparel manufacturers, wholesalers, and small brands all face real production costs. If AI can reduce part of the photo-shooting cost while preserving enough trust, it is already useful.

But the long-term value will not come from one more image-generation demo. It will come from workflow depth: product detail preservation, model consistency, background control, QA, API delivery, data accumulation, and the ability to serve real merchants repeatedly.

更新下我们已经商用的Virtual TryOn 技术（不是DEMO!），换脸换背景换姿势都可以，转个身也可以。

想玩一下可以去Huggingface：https://huggingface.co/spaces/WeShopAI/WeShopAI-Virtual-Try-On

想商用可以直接去官网(提供API服务)：https://www.weshop.com

详细介绍：https://www.weshop.com/blog/post-10661

PS：预计未来一两周内，我们会更新商品细节保持更好的版本
更新于2025.3.20

WeShop 虚拟试衣效果示例 — WeShop 虚拟试衣与 AI 模特效果示例。

在这篇回答后，我们做了个产品，肝了一个月终于有点成绩和大家见面，效果比上个月好多了，老规矩先看下效果，目前产品开放测试：www.weshop.com

几种常见需求场景梳理：

假人台转真人模特，适合服装制造商、批发商等需要给大量SKU拍照的场景。
真人实拍换模特、换背景，适合普通服装品牌、出海卖家等。
实物商品添加背景、场景等，适合大部分零售商家。
借助人台

高级复杂服装

高难度人物姿势

高难度姿势

多人

简单的绿幕背景

非全身人台

已有商品图片换模特

换背景换表情

换年龄

换模特人种肤色

大码模特也没有问题

换金发美女

换亚裔，亚洲人目前还有不少场景需要优化

商品换背景

本身有背景商品换背景

白底商品图（PNG）换背景

以上是我们近期在不断实践新技术的结果展示，当然已经有一批内测客户体验过我们的产品。目前AI还处于早期的阶段，不同的使用姿势，效果差异很大，我们团队一直在不断迭代，尝试用产品化的功能去沉淀最佳实践，降低客户使用AI产品的门槛。同时我们整个团队也不断被AI的能力边界所震撼，依旧在快速的成长中，欢迎对我们产品感兴趣的朋友们去官网加小助手和我们交流：

WeShop 更多商品图和模特图生成案例。 — WeShop 更多商品图和模特图生成案例（1）。

-----------------------------------5月13号更新----------------------------------------------

先看一个场景，国内的商家在出海时，常常要面对重新请他国的模特重新拍摄商品照片的问题，如果能一键变换不同国家的模特而保持商品不变，则能降低不少营销侧的成本。给大家看下这两周和几个小伙伴一起搞的一个demo效果：

说下结论，diffusion models虽然已经能生成出非常惊艳的效果，但其在精准和控制上依旧离傻瓜式的产品体验有明显的距离。将技术产品化的过程中，不仅仅是基础模型的创新，也存在工程、场景适配的调参、不同模型的融合等大量的具体工作，需要更多相关的从业者投入其中。就算是不成熟的中间态产品，也能对行业起到不错的推动作用。

背景

随着AI技术的持续出圈，电商圈的小伙伴也很积极在尝试各种可能性，估计很多从业者在各种社交媒体刷到过下面一些图：

基于Diffusion技术有明显的特点：

生成效果更加逼真，具备接近真实图片的观感，
通过自然语言来描述需求，即常说的prompt，自由度很高。

但如果大家仔细看上面的图片，也很容易发现问题，商品图片的细节被改变了。在今天的电商业务中，拍摄成本确实一个明显的成本项，若有新的技术能够帮助大家优化其中成本，体现在消费者侧则是可进一步降低售价。但电商它不是一个纯数字化场景，最终需要实物履约，消费者的购物体验经常被货不对板伤害，比如有些商家过度P图，更甚的是有些商家直接无货空挂，靠图片测款，有了订单再想办法找补货。因此，若新技术的产品化程度不高，则一定会伤害到用户体验，如果靠牺牲用户体验来达成该成本的优化，从长期看并不是一个有意义的事情。

快速梳理下现有技术的方案

考虑到今天AI技术的进步是以天为单位在更新，现在有缺陷的技术不代表未来不能解决。梳理一波现有技术的方案，有助于我们理解如何开展下一步的创新，但并不是说这个技术路线的正确性。

工具选型：MidJourney vs Stable diffusion webui
依靠MidJourney，MidJourney的产品化程度很高，导致自由度也比较低。一般是用它的img2img来做，经常需要用PS做一些mask图，整体效果不太可控，个人认为可行性最差。
基于开源的stable diffusion webui项目，该项目是在stable diffusion社区基础上做的一个集成工作，应该是目前最流行、各项feature集成度最高、社区最活跃的项目，在github上已经有63k的star。

目前已经有很多产品都是基于webui做二次开发。

文本驱动生成：Dreambooth + LoRA的方式

diffusion难点是准确控制生成想要的特定物体，Google提出了dreambooth的来解决这个问题。训练特色的模特或商品LoRA模型，依靠webui的feature，在text2img或者img2img时候在prompt里面插入自有的LoRA模型，从而保持一定的商品或模特的独特性。Civitai上有非常多社区贡献的LoRA模型，大家可以去感受一波。

dreambooth+lora确实能保持不少独特性，而且训练也很简单，只要10张左右的图片效果就挺好的，加上用lora的训练方式，对算力要求也不高。其效果就如论文原作者给的示例，能把作者原图中狗的样子变成一个概念注入到一个特殊的[V]中，从而可以在未来生成过程中用[V]来触发。

当然还有text inversion等方案，不过text inverison没有它方便，大家用dreambooth比较多。本质上是自然语言和图像之间存在多对多的问题，用自然语言精准的描述一个图片的所有细节是不现实的，这也是目前很多多模态模型在各个领域应用中经常会碰到的问题。

但如果大家仔细去看网上分享的case，会发现人的lora模型效果要比商品好很多，比如一些明星、二次元妹子的LoRA，反过来在商品维度，很多细节、色彩还是会有问题。在我们早期的LoRA实践中，输入的原商品如下：

可以看到LoRA是学到了这家内衣会有花纹，但是下围没有了，当然在后面不停的prompt工程和调参中，也能有一些出图是有完整商品结构的，但是别的细节又会有问题，比如下面的case，左边是用于训练LoRA的商品图，右边是生成的图片。

LoRA + ControlNet

很自然，大家就会想要ControlNet来帮忙，比如用它的Canny去做商品细节的复原，如下面两张图所示，虽然还有明显的问题，但商品的结构、花纹细节已经好很多了：

局部编辑：impaint + LoRA + ControlNet

对国内的商家来讲，请不同国家的模特拍摄成本不低，如果我们换个思路，只对已有的商品图片换模特，则有可能利用生成式模型逼真的特点同时又保留了商品的细节。下图是我们快速实践的效果：

生成式模型对比过去的换脸和换肤色技术，在感官上明显更逼真，五官会更接近不同国家民族的特色。但是impaint有个致命的问题，需要去手动做mask，我们调研了不少skin detect，包括最近的segment anything、Grounding_DINO等技术，各种corner case比较多，目前还无法直接产品化。

而且从用户体验的角度，mask、impaint、img2img，stage比较多，需要用户理解的成本变大，且每个stage的生成即需要不少时间又有一定的不确定性，调试成本很高，用户体验不可控，因此，这个方案还是只能工作室玩，无法有效的产品化。

模型层面的Image Editing的相关工作

作为一个算法背景的工程师，在快速实践了网上已有的技术方案后，直觉上判断学术界肯定有很多相关的工作。我们把相关的paper过了一遍，其中比较重要的工作：ControlNet、Prompt2Prompt、Null-text Inversion、pix2pix-zero、InstructPix2Pix、SDEdit、Composer等等。其中我个人认为比较有潜力的工作是prompt2prompt和instructpix2pix，可能比较有机会在更大的数据集和算力上进一步进化。

instructpix2pix结合了prompt2prompt的想法，提出用gpt3来构造不同的prompt的edit instruction，再通过sd模型来构造出这个edit instruction的图片对，从而无中生有的构造出了大量的带对比的样本对。接着finetune了stable diffusion的model，从而让模型更容易去对齐用户的instruction。考虑到该论文的作者是学校的背景，受限于与资金和算力，只能在一个比较小的数据集上finetune，希望未来有实力更强大的团队能把它顺利scaling。

然而但由于电商场景的特殊性，在使用中的场景和isntruction构造的训练数据集存在天然差异，直接按paper里面说的姿势使用效果一般。我们也在尝试去构建电商侧的instruction数据集，finetune一个更适合电商图片编辑的model。

在实践中，我一开始选型了diffusers，对比webui的项目，它干净的多，而且是我比较熟悉的huggingface团队的工作，只需要按需求开发个新的pipeline就好了。

但是团队的另一个设计师同学，主要用webui做调参，导致我们两边调参匹配不方便。因此后面还是切到了基于webui的api做二次开发，它的api文档比较落后，直接看代码更容易理解使用姿势。

PS：diffusers的instructpix2pix的example有些问题，不过社区反应很快，我们给了issue和改进意见后，基本都是当天就修复。

我们实践过程中发现生成的效果和输入图片本身、想要的效果、模型、参数、prompt都有关系，对普通用户太不友好了。因此从用户体验出发，我们做点了产品流程的设计，预先设计一批不同参数的模板，用户可以根据需求选择合适的模板，一键生成需要的图片。这么做一定程度上损失了不少自由度，但效果的可控性会好很多。以下是我们一些模板的示例：

下面是我们Demo实际run的一些case：

最后

这个项目对我个人来讲有点像AI hackathon，整个项目就两三个人，搞了2周左右，迭代速度非常快，有点10年前移动互联网刚起来时写代码的感觉。原计划开放一些内测的接口给大家测试，但我们这个项目的算力也是别人支持的，目前想出一组效果不错的图，大概需要2-4分钟左右，用户体验也不好。若未来我们能更好的解决这些体验的问题，应该会和大家见上面。

还有许多未尽的想法，也欢迎大家有想法和我们交流，如果合适，我们可以提供一些算力支持。

如何融合ControlNet与InstructPix2Pix的各自优点，一些衣服的纹理细节、一些场景的深度信息，都需要controlnet来帮忙
finetune出一个能够准确理解电商场景需求的diffusion model。电商垂直领域的图像文本对齐工作。包括两部分，一个是文本对齐电商侧的概念，一个是需要对stable diffusion的预训练model做finetune。

如果有同学针对上述问题有想法，请联系我们wujia@mogu.com，我们可以一起探讨下，如果合适我们愿意提供一些算力支持。另外，如果有同学对电商侧的数据感兴趣，商业合作和一些偏公益的用途，都可以联系我申请。

去年花了大半年的时间，做了一个轻量的多模态模型，它能够对大部分的电商网站做结构化的信息抽取，我们把它用在weshop这个项目中，

我们已经在全球收录了接近10亿左右的电商数据，300w左右的独立站点，其中有一半左右是非标准化的站点。WeShop项目目前还是beta状态，产品体验问题较多，们计划建立一个全网最全的电商数据库，欢迎大家给我们提意见。

若有同学对diffusion不熟悉，可以先参考我这篇导读：

PS：当然项目还有很多考虑不周的情况，请多多包涵，上诉图片如有侵权，请联系我删除。