新媒易动态
NEWS CENTER
NEWS CENTER
2023-09-26
这个不解释了吧,便是你自己有许多图,自己建个图画库,然后不断地练习大模型去辨认这些图画,最终给模型一两个词,大模型就能辨认且生成类似的图画,这样就实现了Finetune一个自己的小模型的作用。
留意:Finetune需要留意边界和用力程度,测试集的作用的评判指标要做好,否则练习时刻很久的时分,就会对小样本数据过拟合,这样会失去大模型的泛化性,可能得不偿失(也有解决方案,比如Reply,让大模型重新学一遍,或许正则化模型,或许做并行模型,细节不展开)。
祝贺,当你阅读到这里的时分,基本上应该现已了解了AI绘画的前龙去脉了,由于是把许多算法文章抽象为了白话文,所以许多细节也都略去了,抛砖引玉,有遗漏或不妥的地方,欢迎和大家交流、互相学习。
说好的福利来了,相信AIGC死忠粉会喜爱。
惊喜:同享7个常见的文图生成的数据集
COCO(COCO Captions)
COCO Captions是一个字幕数据集,它以场景理解为目标,从日常日子场景中捕获图片数据,经过人工生成图片描绘。该数据集包括330K个图文对。
数据集下载链接:https://cocodataset.org/
Visual Genome
Visual Genome是李飞飞在2016年发布的大规划图片语义理解数据集,含图画和问答数据。标注密集,语义多样。该数据集包括5M个图文对。
数据集下载链接:http://visualgenome.org/
Conceptual Captions(CC)
Conceptual Captions(CC)是一个非人工注释的多模态数据,包括图画URL以及字幕。对应的字幕描绘是从网站的alt-text属性过滤而来。CC数据集因为数据量的不同分为CC3M(约330万对图文对)以及CC12M(约1200万对图文对)两个版别。
数据集下载链接:https: //ai.google.com/research/ConceptualCaptions/
YFCC100M
YFCC100M数据库是2014年来基于雅虎Flickr的影像数据库。该库由一亿条产生于2004年至2014年间的多条媒体数据组成,其间包括了9920万张的相片数据以及80万条视频数据。YFCC100M数据集是在数据库的根底之上建立了一个文本数据文档,文档中每一行都是一条相片或视频的元数据。
数据集下载链接:http://projects.dfki.uni-kl.de/yfcc100m/
ALT200M
ALT200M是微软团队为了研讨缩放趋势在描绘使命上的特点而构建的一个大规划图画-文本数据集。该数据集包括200M个图画-文本对。对应的文本描绘是从网站的alt-text属性过滤而来。(私有数据集,无数据集链接)
LAION-400M
LAION-400M经过CommonCrwal获取2014-2021年网页中的文本和图片,然后运用CLIP过滤掉图画和文本嵌入类似度低于0.3的图文对,最终保存4亿个图画-文本对。然而,LAION-400M含有大量令人不适的图片,对文图生成使命影响较大。许多人用该数据集来生成色情图片,产生欠好的影响。因而,更大更洁净的数据集成为需求。
数据集下载链接:https://laion.ai/blog/laion-400-open-dataset/
LAION-5B
LAION-5B是目前已知且开源的最大规划的多模态数据集。它经过CommonCrawl获取文本和图片,然后运用CLIP过滤掉图画和文本嵌入类似度低于0.28的图文对,最终保存下来50亿个图画-文本对。该数据集包括23.2亿的英文描绘,22.6亿个100+其他言语以及12.7亿的不知道语。
数据集下载链接:https://laion.ai/blog/laion-5b/
最后,一些题外话:
AIGC技术的开展,除了数据突破、算力突破、算法突破等等之外。
我觉得最重要的一点是:开源。
开源,代表的是公开、通明、同享、共同进步,期待共创。
包括像上面说到的CLIP(OpenAI同享了模型权重),不可否认有些国家核心技术不能开源能够理解,可是AI开源这事,的确能够让众多研讨人员、科学家、学者甚至野生的爱好者取得最大的信息量和通明度。
以此;
在该根底上快速、多样化的进行衍生和开展,这是极其有利于整个AI生态的长时间、可继续、良性开展的。
同享即学习,AI的新时代,永远是同享、通明的主旋律。