/aidmt

AI多面体——致力于制作AI头像、AI写真、AI数字分身(可参考妙鸭),欢迎联系,v:y309310(添加时备注AI头像)

简单叙述下项目的发展由来,叙述方式较为啰嗦,望各位海涵。

项目背景/研发初衷

在三、四月份Midjourney在国内热度猛飚时,沉迷做盲盒头像无法自拔;但苦于人像相似度把控问题,调出一张满意的头像需要耗费大半天时间;甚至有的花费了1天多都无法生成满意的图片……

当时断断续续做了一周时间,帮10个朋友制作了迪士尼风格的卡通头像,其中有5个以上都拿去做微信头像,另外还有朋友开心地po朋友圈;同时了解到市面上有许多小姑娘付费让人用mj基于自己的照片,生成不同风格的美照,制作出卡片等…… 结各方需求情况与成本估算,诞生了开发AI形象应用的想法:

用户只需上传一张照片样本,即可自动生成与本人【极高相似度】的各类风格头像。

毕竟开发干了那么多年、快30岁的人了,总得发掘睡后收入拥有亲手建立的心血,开发只属于自己的、有正经运营的项目;也算给自己的一个交代吧。

基于Midjourney的研发方案

最早的思考是基于Midjourney进行研发,成本是一个月几百元的会员费,还是很有信心能回本的;主要问题在于以下痛点:
1、脱离人工介入mj,由程序自动上传样本并生成效果图
2、脱离人工解决相似度问题,寻找能与样本高度匹配出图的技术方案

脱离人工进行图片上传、结合prompt出图的全流程,通过脚本编写是可以解决的;但相似度的问题,始终无法脱离人类反馈,必须得人工识别更符合的照片,并进行迭代绘画,才能获得想要的图。因为相似度问题始终没想通方案,被卡了一段时间,加上一直忙工作,没时间调研其他方案,搁置了一段时间;直到遇到avatarai……

Avatarai —— Stable diffsion + Dreambooth + Fine tuning

avatarai最初是做AI头像/写真,目前经过多轮迭代已经大变样;早期的商业方案是一次性消费80~200+(各地区价格不一样),获得110+张头像/写真图,非常简单粗暴。该项目在2022年底发布,没几个月即获利上百万。

实现原理是利用用户提供的20张照片样本,利用Dreambooth算法结合sd底模,去进行模型微调Fine tuning,生成出包含用户面容数据的模型文件(可以理解为把用户照片喂给了模型);同时结合各类prompt即可推理出不同风格、与用户高度相似的的AI效果图。参考教程在这,自备梯子。

这就是我想要的技术方案与商业模式!马上开干!!

Avatarai部分截图

学习AIGC

作为一个AIGC小白,初期接触这类知识无疑是需要时间的,这期间最难的不是prompt编写,不是模型微调,而是GPU…… T T 开发网站、小程序、服务端和各类运维部署都不是难事,但被GPU卡脖子就非常难受了……为此耽误不少时间,好在后面利用Google Colab实现了流程跑通,证明了技术方案是可行的。但昂贵的GPU成本不由得让人开始怀疑,这条路子是否可行,能否赚钱。不管如何,做这项目的主要目的是作为AI领域的入门门槛,无论如何我都得干出来!

利用工作闲暇时不断反复摸索、学习AIGC相关原理知识;同时不断调整各类prompt进行风格尝试,发现出图效果不稳定;要么不像,要么图崩…… 并且耗时过长,用Tesla T4的显卡进行模型微调,10来张照片需要耗时50分钟左右;推理出4张512x512的图需要至少15分钟,不得不担心产品上线体验的问题。没法,继续死磕吧。

Lora模型

Lora是从C站与B站上了解到的,只需任务几张图即可制作专属的Lora模型,而且效果不错;但是同样吃配置,因硬件不给力所以未进行尝试,但这方案是可行的。

现在的方案

面对一直卡脖子的局面,不知为何心理不慌,始终觉得下半年开始才会好起来…… 这不,7月份一到,新技术方案来了,是目前最满意最可行的技术方案。

  • 只需一张照片,规避了多样本的用户隐私问题;
  • 无需走模型微调,降低了硬件要求;
  • 使用M1无额外独显的iMac,出图4张仅需13分钟左右,耗时降低非常多。

暂时不公布是啥方案了,等后面再具体聊~

目前已经基本完成了小程序的开发,在内部测试中;晚点走周围朋友进行灰度测试,通过后即可正式发布上线,敬请期待。

产品方向思考路径

在研发项目的路上一直在思考,AIGC如此火热,始终只有少数人才能体会到它的厉害之处;对绝大多数人民群众而言,观念依旧停留在那个“人工智障“、“AI远远无法代替人类“阶段;市场上缺少了一个可以给平民大众无门槛使用,获巨大利益并且能颠覆他们以往观念的产品。AI头像/写真非常适合做这个产品。

这不,妙鸭出了之后,和羊了又羊同样爆火,甚至有新闻联播替他们“宣传“。

这类产品,在未来会越来越多。想避免走35岁“断头路“的各位,可以好好研究下。

【产品路径】

  • 最初规划是做AI头像, 制作与用户高度相似的各类图,模式参照Avatarai;类似现在美颜相的AI头像,但效果会比他的好非常多;
  • 二阶段规划同妙鸭基本一致,做各类风格的人像写真、证件照;替代影楼、天真蓝等摄影机构;
  • 提供Open API服务,进一步降低大家的门槛,同时也丰富商业模式;
  • 其他还有零碎的想法,诸如更换发型、盲盒、小朋友的成人形象、web3赛博朋克NFT头像……等等,有很多产品模式与商业方案,就不展开了;(有金主爸爸需要的欢迎联系我~)

反思

一路过来也算挺辛苦,毕竟闲暇时间不多,且通勤距离过远,每天2-3点睡是常态,早上7点多起床。加上是非熟悉领域的东西,耗时不言而喻,项目进度一拖再拖…… 但好在,坚持下来了,也学习了非常多的知识;在这广袤无垠的领域里,相信未来会有一番发展。

现在的AI相当于早期互联网大蛮荒时代,充斥着许多机会与风险,也是资本目前最热衷的领域;相信只要有付出,必然能获得上班收入更高的回报。

有兴趣的小伙伴可以一起结伴同行~ (联系方式在项目介绍中)


如果对你有用,欢迎star、投币支持~

可否来杯瑞幸支持下?:P

可否来杯瑞幸支持下?:P