AI 技术代替电商模特，现在可以实现了吗？

heyond · 发表于 2023-8-18 08:30:19|来自：北京

有人可以复现吗？

abc8885 · 发表于 2023-8-18 08:30:24|来自：北京

现在已经有公司在利用Stable Diffusion做这个商业化尝试了。
这家公司叫做Booth.ai，你只要把服装图片拍摄好，就可以交给它自动生成各种模特展示的图片了。

下面这些都是AI电商模特的实际效果；

我去看了一下，价格不算便宜，每月199美元，不过比模特的花费那是小多了啊。

我现在突然觉得乌克兰那些在华工作的模特，这下真的不好过了。
收入大幅缩水是肯定的，回国的话战争又没结束.....

hk640509 · 发表于 2023-8-18 08:31:02|来自：北京

现在不止是可以做到的事情了，而是行业内的确已经有公司用AI替代真人来做衣服饰品的宣传了。
以前拍摄模式是，找好模特，穿好需要进行宣传的衣服或者戴好需要宣传的饰品，在一个合格的拍摄场地，请专业的拍摄场地进行大概两个小时的拍摄，其中要不断更换拍摄角度进行重复拍摄，最后将拍摄图片进行筛选和美化，最后才能获得一张合格的宣传用照片。
看起来简单，但真做过就知道其中花费的人力物力非常大，而且有时候有的模特身材和皮肤都不错，但由于人体的复杂结构，在做一些姿势的时候避免不了皮肤的褶皱和形体的变形，这都会让拍摄和后期多好几道工序。
其实在画图AI刚出来的时候，就有团队在做电商宣传图片的拍摄了，但是那会儿手指问题一直没得到解决，直到今年3月16日知名AI绘画网站Midjourney（宣布公测其V5算法模型，把画手这个难点直接克服以后，其实AI替代人做商品宣传图片就已经具备了完全的可行性。
要知道，其实这类宣传图和明星宣传图本来就不一样，前者完全专注于产品，后者才会考虑明星的带货效应。
至于复现，其实国内已经有完整的AI模特应用了，也不用自己调复杂参数和进行约束了。

已经有用过的朋友说，只需要拍平铺图再上传系统就OK，但这种既定的模型目前也有缺陷，特别精细的特殊角度目前还不是很好，不如专业小团队针对具体产品定制的效果。
不过说实话，AI发展速度太快了，其实从技术层面讲，直接将产品建模渲染的图直接导入AI然后生成宣传照其实难度并不大。
以后说不定产品宣传图不仅不需要模特和拍摄团队，可能连实际产品都不需要了……
其中其实也有风险，不好说到时候电商行业到底会发生好的变化还是坏的变化。不过或许这就是科技发展的双刃剑吧，总归要承受的。

alexgoodboy · 发表于 2023-8-18 08:31:35|来自：北京

目前各大电商平台已经开始使用AI模特了，从生成效果来看，AI模特已非常接近真人。

但目前AI模特还是不能解决手部生成问题：

所以短时间内我们还可以通过手部细节来判断模特是真人还是AI，不过随着AI模特的大量应用，这个问题会很快得到解决，那时可就真的难辨真假了。

UPG_DRAGON · 发表于 2023-8-18 08:31:50|来自：北京

在这篇回答后，我们做了个产品，肝了一个月终于有点成绩和大家见面，效果比上个月好多了，老规矩先看下效果，目前产品开放测试：www.weshop.com

几种常见需求场景梳理：

假人台转真人模特，适合服装制造商、批发商等需要给大量SKU拍照的场景。
真人实拍换模特、换背景，适合普通服装品牌、出海卖家等。
实物商品添加背景、场景等，适合大部分零售商家。

借助人台

高级复杂服装

高难度人物姿势

高难度姿势

多人

多人

简单的绿幕背景

非全身人台

已有商品图片换模特

换背景换表情

换年龄

换模特人种肤色

大码模特也没有问题

换金发美女

换亚裔，亚洲人目前还有不少场景需要优化

商品换背景

本身有背景商品换背景

白底商品图（PNG）换背景

以上是我们近期在不断实践新技术的结果展示，当然已经有一批内测客户体验过我们的产品。目前AI还处于早期的阶段，不同的使用姿势，效果差异很大，我们团队一直在不断迭代，尝试用产品化的功能去沉淀最佳实践，降低客户使用AI产品的门槛。同时我们整个团队也不断被AI的能力边界所震撼，依旧在快速的成长中，欢迎对我们产品感兴趣的朋友们去官网加小助手和我们交流：

和大家汇报下我们电商AI模特产品WeShop beta版本开放测试-----------------------------------5月13号更新----------------------------------------------
先看一个场景，国内的商家在出海时，常常要面对重新请他国的模特重新拍摄商品照片的问题，如果能一键变换不同国家的模特而保持商品不变，则能降低不少营销侧的成本。给大家看下这两周和几个小伙伴一起搞的一个demo效果：

说下结论，diffusion models虽然已经能生成出非常惊艳的效果，但其在精准和控制上依旧离傻瓜式的产品体验有明显的距离。将技术产品化的过程中，不仅仅是基础模型的创新，也存在工程、场景适配的调参、不同模型的融合等大量的具体工作，需要更多相关的从业者投入其中。就算是不成熟的中间态产品，也能对行业起到不错的推动作用。
背景

随着AI技术的持续出圈，电商圈的小伙伴也很积极在尝试各种可能性，估计很多从业者在各种社交媒体刷到过下面一些图：

基于Diffusion技术有明显的特点：

生成效果更加逼真，具备接近真实图片的观感，
通过自然语言来描述需求，即常说的prompt，自由度很高。

但如果大家仔细看上面的图片，也很容易发现问题，商品图片的细节被改变了。在今天的电商业务中，拍摄成本确实一个明显的成本项，若有新的技术能够帮助大家优化其中成本，体现在消费者侧则是可进一步降低售价。但电商它不是一个纯数字化场景，最终需要实物履约，消费者的购物体验经常被货不对板伤害，比如有些商家过度P图，更甚的是有些商家直接无货空挂，靠图片测款，有了订单再想办法找补货。因此，若新技术的产品化程度不高，则一定会伤害到用户体验，如果靠牺牲用户体验来达成该成本的优化，从长期看并不是一个有意义的事情。
快速梳理下现有技术的方案

考虑到今天AI技术的进步是以天为单位在更新，现在有缺陷的技术不代表未来不能解决。梳理一波现有技术的方案，有助于我们理解如何开展下一步的创新，但并不是说这个技术路线的正确性。
工具选型：MidJourney vs Stable diffusion webui

依靠MidJourney，MidJourney的产品化程度很高，导致自由度也比较低。一般是用它的img2img来做，经常需要用PS做一些mask图，整体效果不太可控，个人认为可行性最差。
基于开源的stable diffusion webui项目，该项目是在stable diffusion社区基础上做的一个集成工作，应该是目前最流行、各项feature集成度最高、社区最活跃的项目，在github上已经有63k的star。

https://github.com/AUTOMATIC1111/stable-diffusion-webui目前已经有很多产品都是基于webui做二次开发。
文本驱动生成：Dreambooth + LoRA的方式

diffusion难点是准确控制生成想要的特定物体，Google提出了dreambooth的来解决这个问题。训练特色的模特或商品LoRA模型，依靠webui的feature，在text2img或者img2img时候在prompt里面插入自有的LoRA模型，从而保持一定的商品或模特的独特性。Civitai上有非常多社区贡献的LoRA模型，大家可以去感受一波。
Civitai | Stable Diffusion models, embeddings, hypernetworks and moredreambooth+lora确实能保持不少独特性，而且训练也很简单，只要10张左右的图片效果就挺好的，加上用lora的训练方式，对算力要求也不高。其效果就如论文原作者给的示例，能把作者原图中狗的样子变成一个概念注入到一个特殊的[V]中，从而可以在未来生成过程中用[V]来触发。

当然还有text inversion等方案，不过text inverison没有它方便，大家用dreambooth比较多。本质上是自然语言和图像之间存在多对多的问题，用自然语言精准的描述一个图片的所有细节是不现实的，这也是目前很多多模态模型在各个领域应用中经常会碰到的问题。
但如果大家仔细去看网上分享的case，会发现人的lora模型效果要比商品好很多，比如一些明星、二次元妹子的LoRA，反过来在商品维度，很多细节、色彩还是会有问题。在我们早期的LoRA实践中，输入的原商品如下：

可以看到LoRA是学到了这家内衣会有花纹，但是下围没有了，当然在后面不停的prompt工程和调参中，也能有一些出图是有完整商品结构的，但是别的细节又会有问题，比如下面的case，左边是用于训练LoRA的商品图，右边是生成的图片。

LoRA + ControlNet

很自然，大家就会想要ControlNet来帮忙，比如用它的Canny去做商品细节的复原，如下面两张图所示，虽然还有明显的问题，但商品的结构、花纹细节已经好很多了：

局部编辑：impaint + LoRA + ControlNet

对国内的商家来讲，请不同国家的模特拍摄成本不低，如果我们换个思路，只对已有的商品图片换模特，则有可能利用生成式模型逼真的特点同时又保留了商品的细节。下图是我们快速实践的效果：

生成式模型对比过去的换脸和换肤色技术，在感官上明显更逼真，五官会更接近不同国家民族的特色。但是impaint有个致命的问题，需要去手动做mask，我们调研了不少skin detect，包括最近的segment anything、Grounding_DINO等技术，各种corner case比较多，目前还无法直接产品化。
而且从用户体验的角度，mask、impaint、img2img，stage比较多，需要用户理解的成本变大，且每个stage的生成即需要不少时间又有一定的不确定性，调试成本很高，用户体验不可控，因此，这个方案还是只能工作室玩，无法有效的产品化。
模型层面的Image Editing的相关工作

作为一个算法背景的工程师，在快速实践了网上已有的技术方案后，直觉上判断学术界肯定有很多相关的工作。我们把相关的paper过了一遍，其中比较重要的工作：ControlNet、Prompt2Prompt、Null-text Inversion、pix2pix-zero、InstructPix2Pix、SDEdit、Composer等等。其中我个人认为比较有潜力的工作是prompt2prompt和instructpix2pix，可能比较有机会在更大的数据集和算力上进一步进化。
instructpix2pix结合了prompt2prompt的想法，提出用gpt3来构造不同的prompt的edit instruction，再通过sd模型来构造出这个edit instruction的图片对，从而无中生有的构造出了大量的带对比的样本对。接着finetune了stable diffusion的model，从而让模型更容易去对齐用户的instruction。考虑到该论文的作者是学校的背景，受限于与资金和算力，只能在一个比较小的数据集上finetune，希望未来有实力更强大的团队能把它顺利scaling。
然而但由于电商场景的特殊性，在使用中的场景和isntruction构造的训练数据集存在天然差异，直接按paper里面说的姿势使用效果一般。我们也在尝试去构建电商侧的instruction数据集，finetune一个更适合电商图片编辑的model。
在实践中，我一开始选型了diffusers，对比webui的项目，它干净的多，而且是我比较熟悉的huggingface团队的工作，只需要按需求开发个新的pipeline就好了。
https://github.com/huggingface/diffusers但是团队的另一个设计师同学，主要用webui做调参，导致我们两边调参匹配不方便。因此后面还是切到了基于webui的api做二次开发，它的api文档比较落后，直接看代码更容易理解使用姿势。
PS：diffusers的instructpix2pix的example有些问题，不过社区反应很快，我们给了issue和改进意见后，基本都是当天就修复。
我们实践过程中发现生成的效果和输入图片本身、想要的效果、模型、参数、prompt都有关系，对普通用户太不友好了。因此从用户体验出发，我们做点了产品流程的设计，预先设计一批不同参数的模板，用户可以根据需求选择合适的模板，一键生成需要的图片。这么做一定程度上损失了不少自由度，但效果的可控性会好很多。以下是我们一些模板的示例：

下面是我们Demo实际run的一些case：

最后

这个项目对我个人来讲有点像AI hackathon，整个项目就两三个人，搞了2周左右，迭代速度非常快，有点10年前移动互联网刚起来时写代码的感觉。原计划开放一些内测的接口给大家测试，但我们这个项目的算力也是别人支持的，目前想出一组效果不错的图，大概需要2-4分钟左右，用户体验也不好。若未来我们能更好的解决这些体验的问题，应该会和大家见上面。
还有许多未尽的想法，也欢迎大家有想法和我们交流，如果合适，我们可以提供一些算力支持。

如何融合ControlNet与InstructPix2Pix的各自优点，一些衣服的纹理细节、一些场景的深度信息，都需要controlnet来帮忙
finetune出一个能够准确理解电商场景需求的diffusion model。电商垂直领域的图像文本对齐工作。包括两部分，一个是文本对齐电商侧的概念，一个是需要对stable diffusion的预训练model做finetune。

如果有同学针对上述问题有想法，请联系我们wujia@mogu.com，我们可以一起探讨下，如果合适我们愿意提供一些算力支持。另外，如果有同学对电商侧的数据感兴趣，商业合作和一些偏公益的用途，都可以联系我申请。
去年花了大半年的时间，做了一个轻量的多模态模型，它能够对大部分的电商网站做结构化的信息抽取，我们把它用在weshop这个项目中，
WeShop | AI-Powered E-commerce Data Tool我们已经在全球收录了接近10亿左右的电商数据，300w左右的独立站点，其中有一半左右是非标准化的站点。WeShop项目目前还是beta状态，产品体验问题较多，们计划建立一个全网最全的电商数据库，欢迎大家给我们提意见。
若有同学对diffusion不熟悉，可以先参考我这篇导读：
Diffusion Models导读PS：当然项目还有很多考虑不周的情况，请多多包涵，上诉图片如有侵权，请联系我删除。
<hr/>

kissinger · 发表于 2023-8-18 08:32:16|来自：北京

各位亲爱的同学们大家好，欢迎来到觉悟之坡的AI绘画小课堂。
今天给大家分享的内容是：如何给图片换脸换装，拥有自己的AI模特。
掌握并灵活运用本节课的内容，你将获得一个免费高效的AI模特，可以大大提高服装网店的拍摄和制图效率。
今天的教程分两部分。
第一部分，局部修图换脸换装。
第二部分，让AI穿上你家的衣服。
下面，教程正式开始。
一．
首先，假设我是个体户某宝女装小店主，预算很少，捉襟见肘，那么怎么办呢？
1．你需要自己穿上自家的服装，比如这个，然后拍照。比如下面这个。

（网图，侵删）

2.把这张图上传到stable-diffusion-weubi的img2img（图生图）

因为（假设）我们是卖女装的，总不能让男模来穿吧，接下来要换脸，把他变成好看的女生。
4.读取tag
把这张图上传到tagger插件里面（需要提前安装wd tagger插件），点击interrogate推理tag。方便后续在图生图中，新生成的更像原图。

5.把tagger生成的prompt复制到img2img的prompt区域，并优化tag
（1）男性化的tag去掉，比如boy改成girl，facial hair, stubble面部毛发，胡茬这些删掉。
（2）加上一些质量控制的词汇，比如best quality, wallpaper, beautiful face, detailed face之类。
（3）如果觉得脸部偏国外审美，可以加上亚洲小姐姐的lora，比如Korea doll，Asian doll之类的lora。
不过销售商品这种商用的话，最好用经过授权的脸部lora，这样可以控制模特看起来都是同一个人，显得专业，高大上一些，也不容易吃律师函。
6.把脸涂黑，设置参数
（1）涂黑掉脸部，代表我要这一块重新生成，其他区域不动。

（2）其他参数如下，仅供参考，你们也可以调试测试哪种效果最好。

6.点击生成，过一会，结果就出来啦。
这种做法比训练服装lora的好处是，服装的细节可以完全保留，不会有细节的差异，产生货不对版的投诉和退货。

7.出图之后，可以img2img再修一下，或者ps精修一下，就很好看啦。我不是卖家，就懒得修了，直接把生成的图片挑几张给大家看看。

除了换脸，其实换装也是同样的做法（涂黑衣服部分然后重新生成），就不一一演示了。

二．
全身照，怎么让AI模特穿上我们的衣服？
思路是inpaint + controlnet (canny+openpose)，因为时间有限，今天就暂时不展示啦。
原理其实也是一样的。通过inpaint替换掉指定区域之外的图形。
但是因为要生成的区域太多太大，所以还要辅之以canny和openpose来引导图像。
原图：

（某网店商详图截图）

处理过程：inpaint（蒙版） + controlnet（openpose + canny）

结果图：

三.
其实这套方法（inpaint + controlnet + lora人物训练）的玩法挺多的。
比如，可以通过换脸，换人（AI人）省下模特的钱，自己做很多卖家秀和商详图。
也可以通过训练自己脸部的lora，让自己穿上各种美美的衣服，（假装）去过很多地方，然后收获朋友圈一堆的点赞。
也可以服装设计的时候，把人物体生成上去做成效果图，等大家投票或者众筹哪些喜欢再去投产。
等等等等....
我就不一一列举了，欢迎大家去探索发现。

最后提醒，换脸有侵权风险，要在合法合规范围内使用哦。
<hr/>本教程因为时间有限，只能先展示部分内容，如果有不会的欢迎私，会努力回复。

好了，那么今天到课先上到这里吧，明天再见，下课！
参考：AI绘画Stable Diffusion让模特再次失业, 作者 Toniiix
<End>
<hr/>历史教程文集，请查看AI绘画教程文章合集0327
记得关注我们，更多AI绘图技能知识持续更新中~

[电商] AI 技术代替电商模特，现在可以实现了吗？

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

快速回帖

关于楼主

最新悬赏

交流分类

常用

技术

区块链

十二星座

十二生肖

专属推荐

问答专家