/Old-Image-recovery-based-on-the-NoGANs

大三下学期参加互联网+的项目完整作品

Primary LanguageJupyter Notebook

时光重塑--基于NoGAN的黑白影像修复大师项目简介:

时光重塑项目致力于利用自回归的NoGAN,为黑白老照片与视频带来全新的生命。我们的目标是让珍贵的历史影像重现光彩,传承历史文化遗产,帮助人们更好地回顾和了解过去。 技术上主要通过对Generative Adversarial Networks(生成对抗网络,简称GAN)的深入研究和应用,我们开发了一套高效的黑白影像修复与优化方案。这套方案能够智能识别照片和视频中的细节,自动修复损伤、模糊、颜色失真等问题,还原画质,提升观感。 时光重塑项目为个人和企业提供专业的黑白影像修复服务,无论是家庭珍藏的老照片,还是历史影像资料,都可以借助我们的技术重现光彩。让我们一起探索过去的美好时光,感受历史的魅力。

永不消逝的电波片段修复前:

修复后:

Migrant Mother

Golden Gate Bridge

技术实现主要部分:

首先,我们独立地以常规方法训练生成器,仅关注特征损失。然后,用生成器产生图像,并训练评论家以识别这些生成图像与真实图像之间的差异,从而构建一个基本的二分类器。接下来,在 GAN 框架中同时训练生成器和评论家(本例中以 192px 的目标尺寸为起点)。

在这个过程中,所有有效的 GAN 训练仅在非常短的时间内完成。一旦到达某个临界点,设定的评价体系似乎已经学会了有助于改进生成器的所有知识。超过这个临界点后,图像质量将在最佳质量和预期较差的质量(例如波动的橙色皮肤、过红的嘴唇等)之间波动。在临界点之后,训练似乎失去了产出。这仅通过对 ImageNet 数据集的 1% 至 3% 进行训练实现,相当于在 192px 分辨率下训练约 30-60 分钟。

目前,通过创建大量模型检查点(每 0.1% 的数据迭代一次)并在图像完全变为橙色皮肤之前找到表现良好的图像(总是第一个任务)来实现。此外,此时生成器开始立即产生错误和不一致,对于视频来说尤其不利。我们希望找到临界点的标志,并将其自动化为一个提前终止点。这方面暂时没有实现出明显有用的效果。这发生在训练损失减小过程中,而不是在其趋于平稳时,后者在表面上看起来更合理。

image-20230506151603373

NoGAN 训练的另一个关键点是,在初始 GAN 训练之后,可以反复对生成图像的评论家进行预训练,然后以类似的方式重复 GAN 训练本身。这就是我如何使用我们团队训练出的模型获得额外色彩效果的方法。但当前这是有代价的——生成器的输出变得越来越不一致,必须尝试调整渲染分辨率 (render_factor) 以获得最佳效果。虽然需要不断调整,但是渲染仍然没有故障,而且比使用原作者的模型实现的效果更胜一筹。根据训练情况分析,在获得递减回报之前,可以进行大约五轮重复周期。

自注意力生成对抗网络(SAGAN)

它允许对图像生成任务进行注意力驱动的远程依赖建模。传统的卷积 GAN 生成高分辨率细节作为低分辨率特征图中空间局部点的函数。在 SAGAN 中,可以使用来自所有特征位置的线索生成细节。此外,鉴别器可以检查图像远处部分的高度详细特征是否相互一致。然后,最近的训练结果表明生成器调节会影响 GAN 的性能。利用这种洞察力,我们将频谱归一化应用于 GAN 生成器,并发现这可以改善训练动态结果。

两个时间尺度更新规则

它只是一对一的生成器/批评家迭代和更高的批评家学习率。这被修改为包含一个“阈值”critic loss,确保 critic 在继续进行生成器训练之前被超过。这对于下面描述的“NoGAN”方法特别有用。

NoGAN⭐

综合上述两种处理方法,衍生出NoGAN。NoGAN是一种生成对抗网络(GAN)的变体,它旨在提高GAN的稳定性和可控性。与传统的GAN不同,NoGAN没有使用对抗损失函数,而是通过优化对抗度量来训练生成器和判别器。NoGAN通过使用生成器和判别器之间的重构误差和分布差异来衡量生成样本与真实样本之间的差异,以获得更好的生成样本。此外,NoGAN还采用了一个梯度平衡机制,通过减小生成器和判别器之间的梯度差异来提高训练的稳定性。最终,NoGAN可以产生高质量的图像,并且在训练过程中不会出现GAN的常见问题,如崩溃或模式崩塌。可以在花费最少的时间进行直接 GAN 训练的同时获得 GAN 训练的好处。

在 NoGAN 训练过程中,损失包含两个部分:一是基于 VGG16 的基本感知损失(或特征损失),它使生成器模型倾向于复制输入图像。第二部分是评论家给出的损失分数。值得注意的是,单独使用感知损失并不能产生良好的结果。它往往只会鼓励产生一些棕色/绿色/蓝色的图像,实际上是神经网络在定向引导的结果。这里需要认识到的关键是,GANs 本质上是在为您学习损失函数,这更接近我们在机器学习中所追求的理想。

也就是说这里不再进行类似于“GANs 的渐进式增长”那样的训练。与上述 "NoGAN" 技术获得的显著结果相比,这种训练已经没有必要了。

这个模型的应用前景之处在于,它应该对各种图像修改都具有普遍的应用价值,并且表现的非常好。

训练成果对比:

1.人像

image

NoGAN

image

GAN

Origin (GAN) 原作者的模型针对流畅、一致且无闪烁的视频进行了优化。虽然颜色可以被区分,但会存在不均匀着色现象。该模型的架构与作者参考的原始修复模型基本相同,但在训练方面略有不同。它只进行了初始生成器/评论家预训练和GAN NoGAN训练(直接GAN训练1小时),并使用Imagenet数据集(图片数据库)中的2.2%进行了192像素的训练。

Stable (NoGAN) - 此模型相较于原始模型,在风景和人像方面取得了最佳效果。并且它产生的“不均匀着色”较少——面部或四肢保持灰色而不是正确着色。跟艺术作品相比,通常出现更少的色彩错误,但总体上也没有那么丰富多彩。该模型在 UNet 上使用 resnet101 主干,强调解码器端的层宽度。除了初始生成器/评论家预训练/GAN NoGAN 训练之外,该模型还通过 NoGAN 进行了 3 次评论家预训练/GAN 循环重复训练,分辨率为 192px。这加起来总共有 7% 的 Imagenet 数据训练过一次(6 小时的直接 GAN 训练)。

2.电影片段

Origin (GAN)

Before Flicker

Stable (NoGAN)

![2](C:\Users\m\Desktop\img_recover\Train result\Original\2.gif)

具体分工(2023/5/25之前完成):

吴昊:计划书前五章(项目概况、市场分析、产品及服务)+答辩PPT润色+LOGO设计

薛兆文:计划书后五章(营销与运营、组织管理、发展规划、财务分析、风险规避)+封面设计

韩梦媛:答辩PPT制作+后期路演

项目计划书基本结构:

\1. 概述:在商业计划书的开头,简要介绍老照片黑白修复的概念。说明它可以帮助人们找回失去的回忆,为历史研究提供更丰富的视觉资料,以及为影视行业提供高质量的修复服务。

\2. 市场分析:深入研究并分析潜在客户群,包括家庭用户、历史研究机构、影视制作公司等。了解客户的需求和预期,评估市场规模和增长潜力。

\3. 产品与服务:详细描述提供的产品与服务,如黑白照片上色、破损照片修复、高清重制等。强调技术创新和优势,如使用先进的人工智能技术进行高效、准确的修复。

\4. 营销策略:制定有效的营销策略,包括线上和线下推广活动、社交媒体营销、合作伙伴关系等。通过案例展示和口碑传播,提升品牌知名度和信誉。

\5. 运营计划:说明组织结构、人员配置、技术开发和维护、客户服务等方面的运营计划。为提高效率和质量制定严格的质量控制流程。

\6. 财务规划:提供详细的财务预测,包括预期收入、成本、利润等。阐述资金需求和融资计划,分析盈利能力和回报期。

\7. 风险评估与对策:识别潜在的市场、技术和运营风险,为应对这些风险制定相应的应急计划和策略。

\8. 发展规划:展望未来几年的业务发展目标和计划,包括市场拓展、技术创新、服务升级等。展示企业长期愿景和持续增长潜力。

关于老照片彩色修复技术的部分可以放在"产品与服务"章节进行详细描述。如下:

\1. 技术原理:介绍彩色修复技术的基本原理,例如使用人工智能和深度学习NoGAN算法识别图像中的对象和纹理,根据历史资料和颜色模型进行上色。

\2. 技术优势:强调技术的独特优势,如高精度的颜色匹配、自然的过渡效果、节省人工成本等。比较传统的手工彩色修复方法和现代的自动修复技术,凸显创新性和竞争力。

\3. 技术进步:描述当前技术发展状况,以及未来可能的技术升级和优化。例如,可以介绍新的算法改进、硬件加速、云端处理等技术发展趋势。

\4. 应用场景:举例说明彩色修复技术在不同场景中的应用,如家庭照片、历史照片、电影画面等。突显技术的广泛适用性和市场需求。

\5. 定制服务:介绍针对不同客户需求的定制化服务,如提供专业级别的高精度修复、个性化的颜色调整等。强调客户满意度和个性化服务的重要性。

LOGO设计

https://www.canva.cn/

设计要求:

  1. 首先,在LOGO的**,设计一个类似沙漏的图形,代表“时光”。沙漏中的上半部分为黑色沙粒,下半部分为白色沙粒,寓意黑白影像的修复。沙漏的轮廓线可以采用金属质感的银色,以彰显高质感。
  2. 沙漏下方,设计一条由点和线组成的动态曲线,代表“重塑”。曲线的颜色可以是渐变的蓝色,从深蓝到浅蓝,象征着修复过程中的平滑过渡。
  3. 在沙漏的左侧和右侧,分别设计两个半圆形的图案,代表“黑白影像”。左侧的半圆形由浅到深的灰阶色块组成,右侧的半圆形由深到浅的灰阶色块组成,这两个半圆形的边缘处,呈现出一个明暗对比的效果。
  4. 将NoGAN的字母作为LOGO的主要文字元素。在沙漏的上方,用大写字母“NOGAN”组成一个半圆形的排列。字母的颜色为深蓝色,与动态曲线呼应。字体采用简约现代的无衬线字体,体现科技感。
  5. 在沙漏的下方,添加“时光重塑”和“基于NoGAN的黑白影像修复大师”的文字。字体采用优雅的衬线字体,颜色为深蓝色。为了增强层次感,可以将“时光重塑”放在“基于NoGAN的黑白影像修复大师”的上方,并适当缩小字号。