Ferret-UI：苹果公司推出的多模态AI模型

Ferret-UI是什么？

Ferret-UI是苹果公司与哥伦比亚大学研究团队联合发布的一个多模态模型。它是专门为了增强对移动端用户界面（UI）屏幕的理解而定制的，配备了引用、定位和推理功能。该模型能够“看懂”手机屏幕上的内容并执行任务，聚焦于移动端、关注用户交互。

多模态理解能力：Ferret-UI展现了高水平的图文关联能力，尤其是在理解用户界面屏幕并与其有效交互方面，弥补了现有大部分通用多模态大模型的不足。
UI任务执行：Ferret-UI在多数基础UI任务上展现出了优越的性能，特别是在与iPhone相关的任务上，其性能超过了Ferret和GPT-4V。
Anyres技术：为解决移动设备UI屏幕长宽比多样化问题，Ferret-UI引入了“任何分辨率”技术，使其能够适应不同长宽比的屏幕，提高模型对UI元素的细节识别能力。

Ferret-UI的评测结果表明，这款由苹果开发的多模态模型在多项手机UI任务上表现出色，甚至在某些方面超越了GPT-4V。以下是Ferret-UI在评测中的几个亮点：

基础UI任务表现：Ferret-UI在大多数基础UI任务上都展示了出色的性能，特别是与iPhone相关的任务。在OCR（光学字符识别）、图标识别和控件分类等任务上，Ferret-UI的平均准确率分别为72.9%、82.4%和81.4%，明显高于GPT-4V的相应准确率。
在安卓任务上的表现：尽管Ferret-UI的训练数据集未特别包含安卓数据，该模型在安卓平台的高级任务上仍然展现出了可观的性能。这表明Ferret-UI具备跨操作系统UI知识迁移的能力。
Anyres技术的应用：Ferret-UI采用了“任何分辨率”技术，成功解决了移动设备UI屏幕长宽比多样化的问题。这项技术通过生成额外的图像特征和区域连续特征，提高了模型对小型UI元素的识别和定位精度。
高级UI任务性能：在如详细描述、感知对话、交互对话和功能推断等高级任务上，Ferret-UI展现了与GPT-4V相当，甚至在某些任务上超过GPT-4V的性能。这进一步证明了Ferret-UI在理解和执行复杂UI交互方面的高效能力。