MIT重新构想图像生成标记器和解码器无需生成器即可进行编辑和修复

2025-07-24 19:12 来源：盖世汽车

盖世汽车讯人工智能图像生成——依靠神经网络根据各种输入创建新图像——预计到本世纪末将成为一个价值数十亿美元的产业。即使以今天的技术，如果想要创作一幅奇特的画面，比如一位朋友在火星上插上国旗，或者漫不经心地飞进黑洞，也只需不到一秒钟。

然而，在图像生成器能够执行此类任务之前，它们通常需要接受海量数据集的训练，这些数据集包含数百万张图像，通常还配有相关文本。训练这些生成模型可能是一项艰巨的任务，需要数周甚至数月的时间，并且会消耗大量的计算资源。

但是，如果真的可以通过人工智能方法生成图像，而无需使用生成器，那会怎样呢？

据外媒报道，2025年夏初，在加拿大不列颠哥伦比亚省温哥华举行的国际机器学习大会上，一篇研究论文阐述了这种现实可能性以及其他一些引人入胜的想法。研究人员重新构想图像生成，使标记器和解码器无需生成器即可进行编辑和修复图像。相关论文已发表在arXiv预印本服务器上。

论文由麻省理工学院信息与决策系统实验室(LIDS)研究生研究员Lukas Lao Beyer、麻省理工学院计算机科学与人工智能实验室(CSAIL)博士后研究员Tianhong Li、Facebook人工智能研究中心的Xinlei Chen、麻省理工学院航空航天学教授兼LIDS主任Sertac Karaman以及麻省理工学院电气工程与计算机科学副教授Kaiming He共同撰写。

这项团队研究的起源是Lao Beyer去年秋季参加的深度生成模型研究生研讨课的课堂项目。在学期中的交流中，Lao Beyer和研讨课的授课老师He都意识到这项研究具有真正的潜力，远远超出了普通家庭作业的范畴。很快，其他合作者也加入了进来。

Lao Beyer的研究起点是一篇发表于2024年6月的论文，该论文由慕尼黑工业大学和中国公司字节跳动的研究人员共同撰写，该论文介绍了一种新的视觉信息表示方法，称为一维标记器。利用这种设备(它也是一种神经网络)，可以将256x256像素的图像转换为仅由32个数字组成的序列，这些数字被称为标记。

郑重声明：此文内容为本网站转载企业宣传资讯，目的在于传播更多信息，与本站立场无关。仅供读者参考，并请自行核实相关内容。

栏目导读

: 广汽传祺E9超充版上市售32.28万起中大型

今日，广汽传祺E9PHEV超级快充版车型正式上市，共推出尊享、冠军、宗师三个版本，指导价区间为32.28万-39.28万元。新车搭载一套2....
2024-11-13 01:10

: 你与“诗和远方”之间,只差一个TA

第一次看到Poppy的时候，相信很多人会说这个姑娘真的很精致优雅。没错，小红书里的Poppy笑起来很甜，举手投足都很自信很淡定。但很难想象P...
2023-10-13 15:34

: 进军超深层，钻出“地下珠峰”

塔里木油田钻井现场塔里木油田公司供图位于沙漠腹地的塔中第三联合站塔里木油田公司供图在塔里木这个我国陆上最大的含油气盆地，分布着全国80%以上...
2022-08-18 11:43

: 四款人民视频融媒新品在2022智能视听大会上

8月16日至18日，以“虚实共生数字新未来”为主题的2022（GIAC）智能视听大会在山东省青岛市举办。在开幕式上，人民视频联合行业头部生态...
2022-08-18 11:42

焦点

头条关注

MIT重新构想图像生成标记器和解码器无需生成器即可进行编辑和修复

广汽传祺E9超充版上市售32.28万起中大型

你与“诗和远方”之间,只差一个TA

进军超深层，钻出“地下珠峰”

四款人民视频融媒新品在2022智能视听大会上