开云体育AI 会借助图片编码器将相片调养为数字向量-开云·kaiyun体育(中国)官方网站 登录入口
快科技 8 月 16 日音书,近日,凤凰科技发布了一则测试 7 款 AI 家具的视频。
据视频画面骄傲,大部分 AI 家具都犯了并吞个初级诞妄:数不清手指。
视频以一张有 6 根手指的相片测试,后果大部分 AI 都"相等自信"的复兴 5 根。
据测试的 7 款 AI 家具,后果是豆包、kimi, 腾讯元宝、文小言、通义以及马斯克称之为最强 AI —— Gork 的复兴都是 5 根。
唯有 GPT 的复兴是 6 根。没错!唯有 GPT 答对了,其余全翻车。
那么,AI 为何会犯这种看似初级的诞妄呢?其实,这和 AI 额外的看图阵势密切关连。
与东谈主类直不雅地不雅察图片不同,AI 处分图良晌,会先将图片转换为翰墨含义。
举例,给它一张狗的相片,它脑海中潜入的不是具体的影像,而是"至少是一只狗"这么的翰墨形色。
这一历程有个专科术语叫"模态对王人"。具体而言,AI 会借助图片编码器将相片调养为数字向量,同期用"翰墨编码器"把翰墨也形成数字向量,然后辛勤让狗的相片和"狗"这个词在并吞个语义空间里"麇集"。
这种处分阵势有其上风,它能让 AI 大要了解图片中的物体类别。但瑕玷也十分知道,图片中的细节很容易被遗漏。
就像在 AI 的翰墨形色里,手等于"有 5 根手指",它不会像东谈主类相同崇敬去逐个计数。
这就好比你跟一又友说"我家有条小狗",一又友能思象到狗,却很难猜到狗耳朵是竖着仍是垂着。
是以,数手指这种对东谈主类十拿九稳的事,对 AI 来说却是与生俱来的短板。
除非为它特意装配一个数手指的插件,不然它可能会一直活在"默许 5 根"的"餍足天下"里。
转头来说,AI 数不清手指并非因为它"愚笨",而是其看图阵势自然地忽略了细节,它关心的是图片所传达的兴味,而非具体的像素信息。
对此开云体育,你怎样看?