这是我在大三完成《科研实训》课程时,留下的实验报告。
在课程中,我还有另外两名大三的学生,跟随高老师和她所带领的两名大四的保研生,学习深度学习。
通常来说,每周都会布置一次学习任务,要求学生对指定的知识点进行学习,把学习过程写成实验报告,并于下周提交。
我将布置的任务文档,实验代码,都收集起来托管在github上。而实验报告则保存在简书的个人主页上。
这个系列不属于深度学习的部分,而是属于编程类任务。这个系列从2月开始,陆陆续续布置了三次,分别为task2_png_to_text, task2_png_to_text++ 和 task2_png_to_text#。 持续到6月1日最终告一段落。
这个任务与学长、学姐正在完成的论文相关,因为他们在完成论文时,中间一个步骤需要将图片转换为描述这张图片的文字,这个任务就交给了我。
第一次任务是给我们组三个人都布置了的,当时布置的任务是简化版,目的是为了得到一个临时能排上用场的代码,同时考察我们完成任务的能力。
由于第一次任务我完成地比较认真,效果较好,图像转文字的任务就正式由我负责了。
最后一次的任务代码圆满完成,已被应用在了论文中。
提供一个数据集,主要包含两个文件夹:
- 图片文件夹。包含很多卡通图片,图片内会有树、山、房子、车、动物等物体。
- json文件夹,包含对应图片经过处理后的json文件。
输入为一张图经过处理后的json文件。要求根据输入中给出的信息,对原图产生一个文字描述。
最后把这些图片和它们的文字描述制作成一个html文件以便浏览效果。
输入的不再是json文件,而是mat文件。输出仍然是对原图产生一个文字描述
此次的任务是前两次任务的升级版。第一次任务布置的是最简化版的,布置给了我们组所有的三个人,因为我的完成度较好,被委任继续完成1.2和1.3的任务。
第三次任务的要求是:
- 输入为一张图经过处理后生成的list,它包含了物体的坐标、大小和类别信息,通过它可以还原原图的各个物体摆放的位置、大小和类别。
- 根据输入进行处理,生成该图片的文字描述,并记录下描述时各个物体的编号出现的顺序,以及每句话所提及的物体的编号
- 输出文字描述,编号顺序,还有每句话所提及的物体的编号。
运行效果
因为代码量和内容较多,单独放置在另一个仓库: https://github.com/worstprogrammerCN/FCN-tensorflow-ADE20k