羿阁 发自 凹非寺
量子位 | 公众号 QbitAI
2022年流行“ 文生图 ”模型,那2023年流行什么?
(资料图)
机器学习工程师Daniel Bourke的答案是:反过来!
这不,一个最新发布的“ 图生文 ”模型在网上爆火,其优秀的效果引发众多网友纷纷转发、点赞。
不仅是基础的“看图说话”功能, 写情诗 、 讲解剧情 、 给图片中对象设计对话 等等,这个AI都拿捏得稳稳的!
比如,当你在网上刷到诱人的美食时,只需把图片发给它,它就会立马识别出需要的 食材 和 做菜步骤 :
甚至图片中的一些列文虎克的细节也能“看”得清清楚楚。
当被问到如何才能从图片中倒着的房子里离开,AI的回答是:侧面不是有滑梯嘛!
这只新AI名为 BLIP-2 (Bootstrapping Language-Image Pre-training 2) ,目前代码已开源。
最重要的是,和以前的研究不同,BLIP-2使用的是一种通用的预训练框架,因此可以 任意对接自己的语言模型 。
有网友已经在畅想把接口换成 ChatGPT 后的强强组合了。
作者之一Steven Hoi更是放话:BLIP-2未来就是“ 多模态版ChatGPT ”。
那么,BLIP-2神奇的地方还有哪些?一起往下看。
BLIP-2的玩法可以说非常多样了。
只需提供一张图片,你就可以与它对话,让它看图讲故事、推理、生成个性化文本等各种要求都能满足。
举个例子,BLIP-2不仅能轻松识别图片中的景点是长城,还能介绍出长城的历史:
中国的长城是公元前221年秦始皇为了保护帝都不受北方侵略而建造的。
给它一张电影剧照,BLIP-2不光知道出自哪,还知道故事的结局是be:泰坦尼克号沉没,男主淹死。
在对人类神态的拿捏上,BLIP-2同样把握得非常准确。
被问到这张图片中的男人是什么表情,他为什么这样时,BLIP-2的回答是:他害怕那只鸡,因为它正朝他飞来。
更神奇的是,在许多开放性问题上,BLIP-2的表现也很出色。
让它根据下面的图片写一句浪漫的话:
它的回答是这样的:爱情就像日落,很难预见它的到来,但当它发生时,它是如此的美丽。
这不光理解能力满分,文学造诣也相当强啊!
让它给图片中的两只动物生成一段对话,BLIP-2也能轻松拿捏傲娇猫猫x蠢萌狗狗的设定:
猫: 嘿,狗狗,我能骑在你背上吗?
狗: 当然,为什么不呢?
猫: 我已经厌倦了在雪地里行走。
那么,如此强大的理解能力背后,BLIP-2究竟是怎么做到的?
考虑到大规模模型的端到端训练成本越来越高,BLIP-2使用的是一种通用且高效的预训练策略:
从现成的冻结预训练图像编码器和冻结的大型语言模型中引导视觉语言预训练。
这也意味着,每个人都可以选择自己想用的模型接入使用。
而为了弥补了模态之间的差距,研究者提出了一个轻量级的查询Transformer。
该Transformer分两个阶段进行预训练:
第一阶段从冻结图像编码器引导视觉语言表示学习,第二阶段将视觉从冻结的语言模型引导到语言生成学习。
为了测试BLIP-2的性能,研究人员分别从零样本图像-文本生成、视觉问答、图像-文本检索、图像字幕任务上对其进行了评估。
最终结果显示,BLIP-2在多项视觉语言任务上都实现了SOTA。
其中,BLIP-2在zero-shot VQAv2上比Flamingo 80B高8.7%,且训练参数还减少了54倍。
而且显而易见的是,更强的图像编码器或更强的语言模型都会产生更好的性能。
值得一提的是,研究者在论文最后也提到,BLIP-2还存在一个不足,那就是缺乏上下文学习能力:
每个样本只包含一个图像-文本对,目前还无法学习单个序列中多个图像-文本对之间的相关性。
BLIP-2的研究团队来自Salesforce Research。
第一作者为Junnan Li,他也是一年前推出的BLIP的一作。
目前是Salesforce亚洲研究院高级研究科学家。本科毕业于香港大学,博士毕业于新加坡国立大学。
研究领域很广泛,包括自我监督学习、半监督学习、弱监督学习、视觉-语言。
以下是BLIP-2的论文链接和GitHub链接,感兴趣的小伙伴们可以自取~
论文链接: https://arxiv.org/pdf/2301.12597.pdf
GitHub链接: https://github.com/salesforce/LAVIS/tree/main/projects/blip2
参考链接: [1]https://twitter.com/mrdbourke/status/1620353263651688448 [2]https://twitter.com/LiJunnan0409/status/1620259379223343107
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
羿阁发自凹非寺量子位|公众号QbitAI2022年流行“文生图”模型,那20...
解答:1、股利是公司股利的一种,即上市公司将一定时期内的利润以现...
1、膨胀螺栓种类金属膨胀螺栓(或称为套管式膨胀螺栓)2、电梯装用...
今天来聊聊关于借喻的句子10个简单,借喻的文章,现在就为大家来简...
1、图片转换器是一款图片格式的批量转换工具,图片转换器支持主流的...
《归去来兮辞》是东晋诗人陶渊明的作品,全诗讲述了诗人辞官初期的...
1、紧张、恐惧、害怕、担心可能是焦虑症,尤其是在没有明确对象或明...
1、马里努阿犬(英文名:BelgianMalinois),别名比利时马林诺斯犬...
1、中南新能源技术研究院(南京)有限公司于2018年09月12日成立。2...
1、《至少还有我》是飞轮海收录在第二张专辑《双面飞轮海》当中的第...
新型冠状病毒传播性强,不侥幸,不冒险,情谊常在,聚会不急一时。0...
1、《安全电压开门机》是2020年07月01日实施的一项行业标准。2、。...
【太平洋汽车新车频道】日前,我们从相关渠道获悉,大众汽车向德国...
1、《中国林权制度改革成效与经验(英文)》,本书介绍了中国林权制度...
1、《中国随想》是2011年由陕西人民出版社出版的图书。2、作者为陈...
1、号码2、水冰儿,唐家三少作品《斗罗大陆》中的女性角色,天水学...
感悟心善必心安 点上方绿标收听主播诵读美文《太上感应篇》有...
1、奥莱尔科技发展有限公司是最早致力于音响diy的公司之一,它是集...
关于理想旗下车型,近些年总是会伴随着很多争议。其中核心的问题当...
1、颈部神经刺激2、血管神经性头痛3、脑血管痉挛4、大脑机能不全5、...
1、出生地要按照我出生时爷爷的户口(户口)填写。出生地是指我的曾祖...
1、杨迪,1986年4月26日出生于中国四川省阿坝藏族羌族自治州汶川县...
1、《男亲女爱》是香港无线电视(TVB)制作出品的时装处境喜剧,由...
海尔生物(SH688139,收盘价:71 39元)2月3日晚间发布公告称,23年2...
1、立明堂隶属于广州立明堂文化传播有限公司旗下品牌。2、品牌使命...
长沙大专文凭最快落户更新时间:2023年2月3日人才新政45条落户政策...
九架棚电站位于四川省阿坝州理县境内,距县城约50Km。系一径流引水...
以下是川大智胜在北京时间2月3日14:10分盘口异动快照:2月3日,川大...
对于房产方面的知识很多小伙伴现在其实都不是很清楚,会产生各种各...
我们都知道,很多事情都是要付出代价的,没有不求回报的事情。比如...