[电商] AI 技术代替电商模特,现在可以实现了吗?

[复制链接]
heyond 发表于 2023-8-18 08:30:19|来自:北京 | 显示全部楼层 |阅读模式
有人可以复现吗?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
全部回复5 显示全部楼层
abc8885 发表于 2023-8-18 08:30:24|来自:北京 | 显示全部楼层
现在已经有公司在利用Stable Diffusion做这个商业化尝试了。
这家公司叫做Booth.ai,你只要把服装图片拍摄好,就可以交给它自动生成各种模特展示的图片了。


下面这些都是AI电商模特的实际效果;


我去看了一下,价格不算便宜,每月199美元,不过比模特的花费那是小多了啊。

我现在突然觉得乌克兰那些在华工作的模特,这下真的不好过了。
收入大幅缩水是肯定的,回国的话战争又没结束.....

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
hk640509 发表于 2023-8-18 08:31:02|来自:北京 | 显示全部楼层
现在不止是可以做到的事情了,而是行业内的确已经有公司用AI替代真人来做衣服饰品的宣传了。
以前拍摄模式是,找好模特,穿好需要进行宣传的衣服或者戴好需要宣传的饰品,在一个合格的拍摄场地,请专业的拍摄场地进行大概两个小时的拍摄,其中要不断更换拍摄角度进行重复拍摄,最后将拍摄图片进行筛选和美化,最后才能获得一张合格的宣传用照片。
看起来简单,但真做过就知道其中花费的人力物力非常大,而且有时候有的模特身材和皮肤都不错,但由于人体的复杂结构,在做一些姿势的时候避免不了皮肤的褶皱和形体的变形,这都会让拍摄和后期多好几道工序。
其实在画图AI刚出来的时候,就有团队在做电商宣传图片的拍摄了,但是那会儿手指问题一直没得到解决,直到今年3月16日知名AI绘画网站Midjourney(宣布公测其V5算法模型,把画手这个难点直接克服以后,其实AI替代人做商品宣传图片就已经具备了完全的可行性。
要知道,其实这类宣传图和明星宣传图本来就不一样,前者完全专注于产品,后者才会考虑明星的带货效应。
至于复现,其实国内已经有完整的AI模特应用了,也不用自己调复杂参数和进行约束了。




已经有用过的朋友说,只需要拍平铺图再上传系统就OK,但这种既定的模型目前也有缺陷,特别精细的特殊角度目前还不是很好,不如专业小团队针对具体产品定制的效果。
不过说实话,AI发展速度太快了,其实从技术层面讲,直接将产品建模渲染的图直接导入AI然后生成宣传照其实难度并不大。
以后说不定产品宣传图不仅不需要模特和拍摄团队,可能连实际产品都不需要了……
其中其实也有风险,不好说到时候电商行业到底会发生好的变化还是坏的变化。不过或许这就是科技发展的双刃剑吧,总归要承受的。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
alexgoodboy 发表于 2023-8-18 08:31:35|来自:北京 | 显示全部楼层
目前各大电商平台已经开始使用AI模特了,从生成效果来看,AI模特已非常接近真人。




但目前AI模特还是不能解决手部生成问题:


所以短时间内我们还可以通过手部细节来判断模特是真人还是AI,不过随着AI模特的大量应用,这个问题会很快得到解决,那时可就真的难辨真假了。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
UPG_DRAGON 发表于 2023-8-18 08:31:50|来自:北京 | 显示全部楼层
在这篇回答后,我们做了个产品,肝了一个月终于有点成绩和大家见面,效果比上个月好多了,老规矩先看下效果,目前产品开放测试:www.weshop.com

几种常见需求场景梳理:

  • 假人台转真人模特,适合服装制造商、批发商等需要给大量SKU拍照的场景。
  • 真人实拍换模特、换背景,适合普通服装品牌、出海卖家等。
  • 实物商品添加背景、场景等,适合大部分零售商家。
借助人台

高级复杂服装


高难度人物姿势



高难度姿势

多人



多人

简单的绿幕背景


非全身人台


已有商品图片换模特

换背景换表情


换年龄


换模特人种肤色


大码模特也没有问题


换金发美女




换亚裔,亚洲人目前还有不少场景需要优化


商品换背景

本身有背景商品换背景


白底商品图(PNG)换背景


以上是我们近期在不断实践新技术的结果展示,当然已经有一批内测客户体验过我们的产品。目前AI还处于早期的阶段,不同的使用姿势,效果差异很大,我们团队一直在不断迭代,尝试用产品化的功能去沉淀最佳实践,降低客户使用AI产品的门槛。同时我们整个团队也不断被AI的能力边界所震撼,依旧在快速的成长中,欢迎对我们产品感兴趣的朋友们去官网加小助手和我们交流:

和大家汇报下我们电商AI模特产品WeShop beta版本开放测试-----------------------------------5月13号更新----------------------------------------------
先看一个场景,国内的商家在出海时,常常要面对重新请他国的模特重新拍摄商品照片的问题,如果能一键变换不同国家的模特而保持商品不变,则能降低不少营销侧的成本。给大家看下这两周和几个小伙伴一起搞的一个demo效果:


说下结论,diffusion models虽然已经能生成出非常惊艳的效果,但其在精准和控制上依旧离傻瓜式的产品体验有明显的距离。将技术产品化的过程中,不仅仅是基础模型的创新,也存在工程、场景适配的调参、不同模型的融合等大量的具体工作,需要更多相关的从业者投入其中。就算是不成熟的中间态产品,也能对行业起到不错的推动作用。
背景

随着AI技术的持续出圈,电商圈的小伙伴也很积极在尝试各种可能性,估计很多从业者在各种社交媒体刷到过下面一些图:


基于Diffusion技术有明显的特点:

  • 生成效果更加逼真,具备接近真实图片的观感,
  • 通过自然语言来描述需求,即常说的prompt,自由度很高。
但如果大家仔细看上面的图片,也很容易发现问题,商品图片的细节被改变了。在今天的电商业务中,拍摄成本确实一个明显的成本项,若有新的技术能够帮助大家优化其中成本,体现在消费者侧则是可进一步降低售价。但电商它不是一个纯数字化场景,最终需要实物履约,消费者的购物体验经常被货不对板伤害,比如有些商家过度P图,更甚的是有些商家直接无货空挂,靠图片测款,有了订单再想办法找补货。因此,若新技术的产品化程度不高,则一定会伤害到用户体验,如果靠牺牲用户体验来达成该成本的优化,从长期看并不是一个有意义的事情。
快速梳理下现有技术的方案

考虑到今天AI技术的进步是以天为单位在更新,现在有缺陷的技术不代表未来不能解决。梳理一波现有技术的方案,有助于我们理解如何开展下一步的创新,但并不是说这个技术路线的正确性。
工具选型:MidJourney vs Stable diffusion webui


  • 依靠MidJourney,MidJourney的产品化程度很高,导致自由度也比较低。一般是用它的img2img来做,经常需要用PS做一些mask图,整体效果不太可控,个人认为可行性最差。
  • 基于开源的stable diffusion webui项目,该项目是在stable diffusion社区基础上做的一个集成工作,应该是目前最流行、各项feature集成度最高、社区最活跃的项目,在github上已经有63k的star。
https://github.com/AUTOMATIC1111/stable-diffusion-webui目前已经有很多产品都是基于webui做二次开发。
文本驱动生成:Dreambooth + LoRA的方式

diffusion难点是准确控制生成想要的特定物体,Google提出了dreambooth的来解决这个问题。训练特色的模特或商品LoRA模型,依靠webui的feature,在text2img或者img2img时候在prompt里面插入自有的LoRA模型,从而保持一定的商品或模特的独特性。Civitai上有非常多社区贡献的LoRA模型,大家可以去感受一波。
Civitai | Stable Diffusion models, embeddings, hypernetworks and moredreambooth+lora确实能保持不少独特性,而且训练也很简单,只要10张左右的图片效果就挺好的,加上用lora的训练方式,对算力要求也不高。其效果就如论文原作者给的示例,能把作者原图中狗的样子变成一个概念注入到一个特殊的[V]中,从而可以在未来生成过程中用[V]来触发。


当然还有text inversion等方案,不过text inverison没有它方便,大家用dreambooth比较多。本质上是自然语言和图像之间存在多对多的问题,用自然语言精准的描述一个图片的所有细节是不现实的,这也是目前很多多模态模型在各个领域应用中经常会碰到的问题。
但如果大家仔细去看网上分享的case,会发现人的lora模型效果要比商品好很多,比如一些明星、二次元妹子的LoRA,反过来在商品维度,很多细节、色彩还是会有问题。在我们早期的LoRA实践中,输入的原商品如下:


可以看到LoRA是学到了这家内衣会有花纹,但是下围没有了,当然在后面不停的prompt工程和调参中,也能有一些出图是有完整商品结构的,但是别的细节又会有问题,比如下面的case,左边是用于训练LoRA的商品图,右边是生成的图片。


LoRA + ControlNet

很自然,大家就会想要ControlNet来帮忙,比如用它的Canny去做商品细节的复原,如下面两张图所示,虽然还有明显的问题,但商品的结构、花纹细节已经好很多了:




局部编辑:impaint + LoRA + ControlNet

对国内的商家来讲,请不同国家的模特拍摄成本不低,如果我们换个思路,只对已有的商品图片换模特,则有可能利用生成式模型逼真的特点同时又保留了商品的细节。下图是我们快速实践的效果:






生成式模型对比过去的换脸和换肤色技术,在感官上明显更逼真,五官会更接近不同国家民族的特色。但是impaint有个致命的问题,需要去手动做mask,我们调研了不少skin detect,包括最近的segment anything、Grounding_DINO等技术,各种corner case比较多,目前还无法直接产品化。
而且从用户体验的角度,mask、impaint、img2img,stage比较多,需要用户理解的成本变大,且每个stage的生成即需要不少时间又有一定的不确定性,调试成本很高,用户体验不可控,因此,这个方案还是只能工作室玩,无法有效的产品化。
模型层面的Image Editing的相关工作

作为一个算法背景的工程师,在快速实践了网上已有的技术方案后,直觉上判断学术界肯定有很多相关的工作。我们把相关的paper过了一遍,其中比较重要的工作:ControlNet、Prompt2Prompt、Null-text Inversion、pix2pix-zero、InstructPix2Pix、SDEdit、Composer等等。其中我个人认为比较有潜力的工作是prompt2prompt和instructpix2pix,可能比较有机会在更大的数据集和算力上进一步进化。
instructpix2pix结合了prompt2prompt的想法,提出用gpt3来构造不同的prompt的edit instruction,再通过sd模型来构造出这个edit instruction的图片对,从而无中生有的构造出了大量的带对比的样本对。接着finetune了stable diffusion的model,从而让模型更容易去对齐用户的instruction。考虑到该论文的作者是学校的背景,受限于与资金和算力,只能在一个比较小的数据集上finetune,希望未来有实力更强大的团队能把它顺利scaling。
然而但由于电商场景的特殊性,在使用中的场景和isntruction构造的训练数据集存在天然差异,直接按paper里面说的姿势使用效果一般。我们也在尝试去构建电商侧的instruction数据集,finetune一个更适合电商图片编辑的model。
在实践中,我一开始选型了diffusers,对比webui的项目,它干净的多,而且是我比较熟悉的huggingface团队的工作,只需要按需求开发个新的pipeline就好了。
https://github.com/huggingface/diffusers但是团队的另一个设计师同学,主要用webui做调参,导致我们两边调参匹配不方便。因此后面还是切到了基于webui的api做二次开发,它的api文档比较落后,直接看代码更容易理解使用姿势。
PS:diffusers的instructpix2pix的example有些问题,不过社区反应很快,我们给了issue和改进意见后,基本都是当天就修复。
我们实践过程中发现生成的效果和输入图片本身、想要的效果、模型、参数、prompt都有关系,对普通用户太不友好了。因此从用户体验出发,我们做点了产品流程的设计,预先设计一批不同参数的模板,用户可以根据需求选择合适的模板,一键生成需要的图片。这么做一定程度上损失了不少自由度,但效果的可控性会好很多。以下是我们一些模板的示例:




下面是我们Demo实际run的一些case:






最后

这个项目对我个人来讲有点像AI hackathon,整个项目就两三个人,搞了2周左右,迭代速度非常快,有点10年前移动互联网刚起来时写代码的感觉。原计划开放一些内测的接口给大家测试,但我们这个项目的算力也是别人支持的,目前想出一组效果不错的图,大概需要2-4分钟左右,用户体验也不好。若未来我们能更好的解决这些体验的问题,应该会和大家见上面。
还有许多未尽的想法,也欢迎大家有想法和我们交流,如果合适,我们可以提供一些算力支持。

  • 如何融合ControlNet与InstructPix2Pix的各自优点,一些衣服的纹理细节、一些场景的深度信息,都需要controlnet来帮忙
  • finetune出一个能够准确理解电商场景需求的diffusion model。电商垂直领域的图像文本对齐工作。包括两部分,一个是文本对齐电商侧的概念,一个是需要对stable diffusion的预训练model做finetune。
如果有同学针对上述问题有想法,请联系我们wujia@mogu.com,我们可以一起探讨下,如果合适我们愿意提供一些算力支持。另外,如果有同学对电商侧的数据感兴趣,商业合作和一些偏公益的用途,都可以联系我申请。
去年花了大半年的时间,做了一个轻量的多模态模型,它能够对大部分的电商网站做结构化的信息抽取,我们把它用在weshop这个项目中,
WeShop | AI-Powered E-commerce Data Tool我们已经在全球收录了接近10亿左右的电商数据,300w左右的独立站点,其中有一半左右是非标准化的站点。WeShop项目目前还是beta状态,产品体验问题较多,们计划建立一个全网最全的电商数据库,欢迎大家给我们提意见。
若有同学对diffusion不熟悉,可以先参考我这篇导读:
Diffusion Models导读PS:当然项目还有很多考虑不周的情况,请多多包涵,上诉图片如有侵权,请联系我删除。
<hr/>

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
kissinger 发表于 2023-8-18 08:32:16|来自:北京 | 显示全部楼层
各位亲爱的同学们大家好,欢迎来到觉悟之坡的AI绘画小课堂。
今天给大家分享的内容是:如何给图片换脸换装,拥有自己的AI模特。
掌握并灵活运用本节课的内容,你将获得一个免费高效的AI模特,可以大大提高服装网店的拍摄和制图效率。
今天的教程分两部分。
第一部分,局部修图换脸换装。
第二部分,让AI穿上你家的衣服。
下面,教程正式开始。
一.
首先,假设我是个体户某宝女装小店主,预算很少,捉襟见肘,那么怎么办呢?
1.你需要自己穿上自家的服装,比如这个,然后拍照。比如下面这个。



(网图,侵删)

2.把这张图上传到stable-diffusion-weubi的img2img(图生图)


因为(假设)我们是卖女装的,总不能让男模来穿吧,接下来要换脸,把他变成好看的女生。
4.读取tag
把这张图上传到tagger插件里面(需要提前安装wd tagger插件),点击interrogate推理tag。方便后续在图生图中,新生成的更像原图。


5.把tagger生成的prompt复制到img2img的prompt区域,并优化tag
(1)男性化的tag去掉,比如boy改成girl,facial hair, stubble面部毛发,胡茬这些删掉。
(2)加上一些质量控制的词汇,比如best quality, wallpaper, beautiful face, detailed face之类。
(3)如果觉得脸部偏国外审美,可以加上亚洲小姐姐的lora,比如Korea doll,Asian doll之类的lora。
不过销售商品这种商用的话,最好用经过授权的脸部lora,这样可以控制模特看起来都是同一个人,显得专业,高大上一些,也不容易吃律师函。
6.把脸涂黑,设置参数
(1)涂黑掉脸部,代表我要这一块重新生成,其他区域不动。


(2)其他参数如下,仅供参考,你们也可以调试测试哪种效果最好。


6.点击生成,过一会,结果就出来啦。
这种做法比训练服装lora的好处是,服装的细节可以完全保留,不会有细节的差异,产生货不对版的投诉和退货。


7.出图之后,可以img2img再修一下,或者ps精修一下,就很好看啦。我不是卖家,就懒得修了,直接把生成的图片挑几张给大家看看。


除了换脸,其实换装也是同样的做法(涂黑衣服部分然后重新生成),就不一一演示了。

二.
全身照,怎么让AI模特穿上我们的衣服?
思路是inpaint + controlnet (canny+openpose),因为时间有限,今天就暂时不展示啦。
原理其实也是一样的。通过inpaint替换掉指定区域之外的图形。
但是因为要生成的区域太多太大,所以还要辅之以canny和openpose来引导图像。
原图:



(某网店商详图截图)

处理过程:inpaint(蒙版) + controlnet(openpose + canny)



结果图:



三.
其实这套方法(inpaint + controlnet + lora人物训练)的玩法挺多的。
比如,可以通过换脸,换人(AI人)省下模特的钱,自己做很多卖家秀和商详图。
也可以通过训练自己脸部的lora,让自己穿上各种美美的衣服,(假装)去过很多地方,然后收获朋友圈一堆的点赞。
也可以服装设计的时候,把人物体生成上去做成效果图,等大家投票或者众筹哪些喜欢再去投产。
等等等等....
我就不一一列举了,欢迎大家去探索发现。

最后提醒,换脸有侵权风险,要在合法合规范围内使用哦。
<hr/>本教程因为时间有限,只能先展示部分内容,如果有不会的欢迎私,会努力回复。

好了,那么今天到课先上到这里吧,明天再见,下课!
参考:AI绘画Stable Diffusion让模特再次失业, 作者 Toniiix
<End>
<hr/>历史教程文集,请查看AI绘画教程文章合集0327
记得关注我们,更多AI绘图技能知识持续更新中~

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

快速回帖

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则