
在星期二的直播中,OpenAI的CEO Sam Altman宣布了ChatGPT的图片生成功能在一年多之后的首次重大升级。
现在,ChatGPT可以利用公司的GPT-4o模型来本地创建和修改图片和照片。GPT-4o长期以来一直是AI聊天机器人平台的基础,但直到现在,该模型才能生成和编辑文本,而不是图片。
Altman表示,GPT-4o原生图片生成已经在ChatGPT和OpenAI的AI视频生成产品Sora中上线,适用于公司每月200美元的Pro计划订阅用户。OpenAI称,该功能很快将推出Plus和免费用户,以及使用公司API服务的开发人员。
拥有图片输出的GPT-4o“思考”时间比其有效替代模型DALL-E 3要长一些,以生成OpenAI描述为更准确和详细的图片。GPT-4o可以编辑现有图片,包括人物图片,转换它们或修复细节如前景和背景物体。
为了支持新的图片功能,OpenAI告诉《华尔街日报》说,他们对GPT-4o进行了“公开可用数据”的训练,以及来自与Shutterstock等公司合作伙伴关系的专有数据。
许多生成式AI供应商认为训练数据是一种竞争优势,因此他们保密所有相关信息。但训练数据的细节也可能引发与知识产权相关的诉讼,这也是公司不愿透露太多信息的一种打击。
“对于我们如何生成输出方面,我们尊重艺术家的权利,我们制定了防止我们生成直接模仿任何活着的艺术家作品的图像的政策,”OpenAI首席运营官Brad Lightcap在声明中告诉《华尔街日报》。
OpenAI提供了一个选择退出的表格,允许创作者请求将他们的作品从训练数据集中删除。该公司还表示,尊重禁止其网络爬虫从网站获取训练数据的请求,包括图像。
ChatGPT升级的图片生成功能紧随谷歌实验性的Gemini 2.0 Flash的原声图片输出,Gemini 2.0 Flash是该公司旗舰型号之一。这一强大功能在社交媒体上走红,但不一定是出于最好的原因。Gemini 2.0 Flash的图片部分事实证明缺乏有效的限制,允许人们去除水印并创建描绘受版权保护人物的图片。
本文在太平洋时间12pm更新,以包括OpenAI对《华尔街日报》关于GPT-4o训练数据的声明。