过眼云烟

大模型为什么数不清几根手指

如何让图片和文字在同一个向量空间中对齐？

CLIP 基于 ViT 做多模态对齐：https://openai.com/index/clip/

相当于先把图片转换成文字描述（文字描述一张图片会非常困难，并且势必会损失很多细节信息）

大模型在文本方面远强于人类，整体逻辑基于文本，而文本内容就是将人类思维转换一层输出的结果。所以是不是人类对于文本所产生的问题，大模型也会产生同样的问题。让人类去描述一张图片也会错失很多信息，大模型同样也是，因为一切的语料都是来自于人类。

为啥AI很难处理数量问题？_哔哩哔哩_bilibili

文本先验力量远超视觉输入

视觉编码器没有捕捉细微修改
LLM文本偏见太强（哪怕是看到了也被压制）

===>语言指挥视觉：先找记忆定调，再找图像支持

李沐讲座：大语言模型的实践经验和未来预测

大模型目前的能力

Anything with enough data will be automated
只要能采集到足够到数据就可以实现自动化
corollary：推论（也称为系, 系理）是指能够 “简单明了地” 从前述命题推出的论断
need to capture the data and need to have actuators/sensors

文科白领：主要是文本能力，大模型对文本处理的能力非常强大

对于蓝领工作很难做到很好的应用

类似于让一个机器人去端盘子，对他的能力要求很高，对周围环境的感知，人的感知……

但是无人驾驶方面做的比较好：车多，有很多sensor，可以用到的数据很多；同时可以做到封闭环境