GPT-4 识图功能迟迟不开放,终于有人忍不住自己动手做了一个。
MiniGPT-4 来了,Demo 开放在线可玩。
传一张海鲜大餐照片上去,就能直接获得菜谱。
传一张商品效果图,就可以让 AI 写一篇带货文案。
手绘一个网页,可以给出对应的 HTML 代码
除了生产力拉满,也支持根据常识推理图上内容是否合理、解释表情包为什么好笑,以及看截图找电影等娱乐玩法。
可以说,GPT-4 发布时展示过的功能,MiniGPT-4 基本也都有了。
这下网友直接把 Demo 服务器挤爆,开发团队连开 4 台备用服务器,都有几十人在排队。
不等 OpenAI 了,现在就能玩
除了研究团队给出的示例,网友也用 MiniGPT-4 玩出了各种花样
有人上传自己画的画,让 AI 评价评价。
有人上传一张从车道拍摄的飞机坠毁瞬间,让 MiniGPT-4 尽可能详细地描述,并思考自动驾驶 AI 能不能理解这个场面。
做到这么好的效果,MiniGPT-4 实现起来却并不复杂。
把图像编码器与开源语言模型 Vicuna整合起来,并且冻结了两者的大部分参数,只需要训练很少一部分。
传统预训练阶段,使用 4 张 A100 在 10 个小时内就可完成,此时训练出来的 Vicuna 已能够理解图像,但生成能力受到很大影响。
为解决这个问题,团队让 MiniGPT-4 与 ChatGPT 合作创建了 3500 个图像文本的高质量数据集,也一并开源。
用新的数据集微调可以显著提高模型的生成可靠性和整体可用性,而且计算效率很高,使用单个 A100 只需要 7 分钟。
并且团队正在准备一个更轻量级的版本,部署起来只需要 23GB 显存。
也就是消费级显卡中拥有 24GB 显存的 3090 或 4090 就可以本地运行了。
MiniGPT-4 开发团队来自 KAUST,包括 4 位华人成员和他们的导师 Mohamed Elhoseiny。
两位正在读博的共同一作还在 GitHub 页面上特别标注正在找工作。
有意向的公司要抓紧抢人了~
在线 Demo:
开源代码:
论文:
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。
-
盘扣式脚手架有哪些优点?四川远方模架告诉你答案!新浪网消息:四川远方模架科技有限公司位于四川省成都市,创建于2017年。公司拥有M60型盘扣脚手架总量达30000余吨,具有...
-
区块链如何跨越未来10年“十四五”时期,随着全球数字化进程的深入推进,区块链产业竞争将更加激烈。作为新兴数字产业之一,区块链在产业变革中发挥着重要作...
-
三人篮球将首登奥运舞台 国家三人男女篮签署反兴奋剂为实现东京奥运会兴奋剂问题“零出现”的目标,近日,中国篮协反兴奋剂委员会分别前往山东济南和上海崇明训练基地,为国家三人男、女...
-
京东限时补贴继续:bilibili大会员年卡98元4
2023-04-20 12:49
-
马斯克称特斯拉今年推出全自动驾驶技术,汽车价值将大幅
2023-04-20 12:39
-
商品期货早盘收盘大面积下挫,纯碱跌超6%,创5个月新
2023-04-20 12:23
-
港股午评:恒生指数涨0.19%,东方甄选跌9.7%,
2023-04-20 12:22
-
浏览器就能跑大模型了,陈天奇团队发布WebLLM,无
2023-04-20 12:22
-
报告:2023年第一季度全球PC出货量同比下降28%
2023-04-20 12:01
-
湖北巴东发现罕见白麂:古代称为“瑞兽”!--
2023-04-20 11:43
-
爱丽丝盟主:2023年,千万不要辞职创业,要做就做轻
2023-04-20 11:04
-
免费开源虚拟机VirtualBox7.0.8发布:初
2023-04-20 10:29
-
创史上15年期企业债券利率最低国泰君安成功助力重庆高
2023-04-20 10:19