百家乐软件APP下载安装2026最新版 李飞飞又出手了!开源了1亿张授权图片数据集,重塑视觉生成基准

  着手:DeepTech深科技

  近日,好意思国斯坦福大学李飞飞、吴佳俊团队发布了一个图片数据集,名字叫作念 GPIC,该数据集包含了一亿张相片,总像素接近 28 万亿。每张图片都配有注重的笔墨形色,有的是一两个要害词,有的是五六句话的长段落。

  其最绝顶的方位在于所有图片都可免用度于营业和商议,无需牵挂版权问题。他们还提供了一个圭臬的测试本领,让不同公司的 AI 模子好像在相同的门径下比拼生图才智。

  GPIC 贬责了 AI 生图范围的两个老浩劫问题:

  其一贬责了版权问题,曩昔大公司西席模子使用的图片许多身分不解以至于惹上讼事,而 GPIC 所有图片的许可证都六根清净,商用皆备没问题;

  其二贬责了可叠加性问题,曩昔许多数据集给到是图片相连,时辰长远相连就会失效,别东谈主没法复现实验效果。GPIC 把图片打包成为固定的 tar 文献然后存在 Hugging Face 上,任何时候下载都是一样的。

  这意味着将来非论是手机里的修图软件、游戏里的场景生成器致使是电影殊效器用,都能用上更聪惠的 AI 生图模子。西席模子需要多量的图片,曩昔的作念法是从网上到处扒图,关联词许多图片都有版权,许多时候不敢怪异用。

  https://arxiv.org/abs/2605.30341)

  关于使用图片的商议者来说,不同数据集的测试圭臬不一样,A 模子说我方得分很高,B 模子说我方是第一,根底无法平正比拟。

  李飞飞等东谈主这次干脆我方从新搭建了一套系统,他们从 Flickr 和 Wikimedia 两个网站相聚了向上 1.1 亿张图片,只挑选那些明确允许商用的。相聚到的图片还弗成胜仗使用,有的图片分辨率太低腌臜不清,有的近乎空缺,还有些图片的履行不对适。

  为此,他们使用 Qwen3 VL 4B 模子作念自动筛选,把质料差和不安全的图片踢出去,节略淘汰了百分之一。剩下的一亿张相片里,还有多量的叠加履行。关于一些连拍相片、已被转发传播的相片以及修改版相片,都需要对其进行去重。

  https://arxiv.org/abs/2605.30341)

  他们使用一种名为 SSCD 的拷贝检测本领,给每一张图片都生成一个唯一无二的特征码,关于那些相似渡过高的相片只保留其中一张。经过这套经由之后,最终留住了干净的相片。

  图片准备好了,接下来即是配上笔墨形色。关于并吞种图片,不错有多种笔墨形色的风光。针对并吞个画面,李飞飞等东谈主联想了四种形色风光。

当先是标签式,即是为图片配置几个要害词,这种比拟相宜快速检索。

其次是短形色式,百家乐软件APP下载官方版即使用一两句话来轮廓主要履行,便捷巨匠用户贯穿。

再次是中形色式,即是用两三句话来布置细节和空间联系。

亚博体育世界杯中国官网首页

终末是长形色式,即是使用五到七句话把布景、物体位置和笔墨信息一起写澄莹。

  他们累计给一亿张相片配置了形色,短形色和中形色各占 45%,标签占 1%,长形色占 9%。面临这么一个责任量遍及的形色责任,详情弗成使用手工来写。他们使用 Qwen3 VL 4B 模子来批量生成,处理一起图使用了节略 500 张 H100 显卡,跑了一个多月。

  https://arxiv.org/abs/2605.30341)

  为了考据 AI 写的形色到底若何,他们立时抽取了 1,520 张图,用东谈主工风光重写一遍形色,随后拿着 AI 版块和东谈主工版块作对比。

  对比维度主要有五个,区别是:举座轮廓准不准、数目数得对不对、空间联系厘没厘清、神采材质等属性绑定是否正确、图片里的笔墨识别得准不准。

  效真实切 Qwen3 VL 4B 模子在速率和准确率之间得回了最佳的均衡,比更大的 Qwen3 VL 30B 模子并莫得慢太多,然则质料却极度接近。

  为了用好这个数据集,他们联想了一套测试门径,把一亿张图片分红三块,大部分用来西席模子,20 万张用来调试参数,100 万张动作测试基准。西席 AI 生图模子的时候,只可使用那 100 万张测试集里的 5 万条形色去生成图片,接着和 100 万张确凿图片作念对比,看哪个模子生成得最像。

  用来比拟的倡导叫作念 FD DINOv2,它使用 DINOv2 这个视觉模子来索取图片的特征,然后再研究生成图和确凿图之间的统计距离。

  https://arxiv.org/abs/2605.30341)

  他们还西席了一个参考模子动作基准,使用的是 JiT 架构,这是一种胜仗在像素空间里作念流匹配的模子,参数为 1.1 亿,在 GPIC 西席了一个周期,用了节略 40 个小时,8 张 H100 显卡。最佳效果的 FD DINOv2 得分为 76.25,这个分数不算高,不外从论文来看他们并不筹划冲高分,仅仅给自后者立个标杆。计论说文的第一作家是李飞飞团队的博士生 Keshigeyan Chandrasegaran。

  关于 AI 生图来说,GPIC 好比为其提供了一册教科书,它不仅免费、盛开、圭臬赈济,还附带巡逻大纲,一定进程上不错为 AI 公司提供一个不错平正比拟的圭臬。

  参考而已:

  计论说文 https://arxiv.org/abs/2605.30341

  https://keshik6.github.io/

  排版:胡巍巍

海量资讯、精确解读,尽在新浪财经APP

职守剪辑:张恒星 百家乐软件APP下载安装2026最新版