
GitHub - apple/ml-ferret
Ferret Model - Hybrid Region Representation + Spatial-aware Visual Sampler enable fine-grained and open-vocabulary referring and grounding in MLLM. GRIT Dataset (~1.1M) - A Large-scale, Hierarchical, Robust ground-and-refer instruction tuning dataset.
FERRET: Refer and Ground Anything Anywhere at Any Granularity - Apple …
We introduce FERRET, a novel MLLM capable of understanding spatial referring of any shape or granularity within an image and accurately grounding open-vocabulary descriptions. A hybrid region representation is proposed to marry discrete coordinates with continuous visual features, endowing versatile referring aptitude.
苹果发布第一个手机端UI多模态大模型——Ferret-UI,基本UI任务 …
苹果公司最近发布关于手机端多模态大模型的论文《Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs》(《Ferret-UI:理解移动用户界面的 多模态大语言模型》)。 论文介绍一个名为Ferret-UI的多模态大型语言模型(MLLM),该模型专为提升移动用户界面(UI)屏幕的理解而设计。 Ferret-UI具备指代(Referring)、定位(Grounding)和推理能力,能够与 UI屏幕 进行有效的互动。 Ferret-UI基于Ferret模型构建,该模型在自然图像中表现出强大的参照和定位 …
[2404.05719] Ferret-UI: Grounded Mobile UI Understanding with ...
2024年4月8日 · In this paper, we present Ferret-UI, a new MLLM tailored for enhanced understanding of mobile UI screens, equipped with referring, grounding, and reasoning capabilities.
蘋果公布多模態AI模型Ferret | iThome
2023年12月25日 · 蘋果公布了Ferret7B、130B二模型的程式碼、GRIT資料集、 標竿測試工具Ferret-Bench,上周也公布了 Ferret 70B及130B檢核點(checkpoint)。 這是蘋果公布最新AI研發成果。 12月初蘋果公布 Apple Silicon平臺專用AI框架MLX、以及能在裝置端執行LLM的方法, 後者能在邊緣裝置執行 DRAM兩倍大的LLM,可節省執行LLM所需的運算資源,也更能確保隱私。
Apple's 'Ferret' is a new open-source machine learning model - AppleInsider
2023年12月24日 · Researchers working for Apple and from Cornell University quietly pushed an open-source multimodal LLM in October, a research release called "Ferret" that can use regions of images for queries ...
超越GPT-4V,苹果多模态大模型上新_澎湃号·湃客_澎湃新闻-The …
2024年4月11日 · 4月8日,苹果发布了其最新的多模态大语言模型(MLLM )——Ferret-UI,能够更有效地理解和与屏幕信息进行交互,在所有基本UI任务上都超过了GPT-4V! 论文地址:https://arxiv.org/pdf/2404.05719.pdf. 虽然苹果前段时间经历了泰坦项目的沉没,但看目前的形式,这是又要开卷的节奏呀~ 不少人十分期待,这项技术如果在苹果的Siri上,Siri岂不是要变得聪明绝顶了! 众所周知,通用域多模态大型语言模型(MLLM )在理解和有效交互的能力方面往 …
论文分享:《Ferret-UI: Grounded Mobile UI Understanding with …
这篇论文介绍了 Ferret-UI ,这是一个由 Apple研究团队 开发的 多模态大型语言模型 (MLLM),专门为理解和交互移动用户界面(UI)屏幕而设计。 Ferret-UI通过结合先进的 视觉和语言处理技术 ,提供了对 UI元素的精确引用、定位和推理能力 。
Ferret-UI:苹果公司推出的多模态AI模型 - AIHub | AI导航
2024年4月10日 · Ferret-UI是苹果公司与哥伦比亚大学研究团队联合发布的一个多模态模型。 它是专门为了增强对移动端用户界面(UI)屏幕的理解而定制的,配备了引用、定位和推理功能。 该模型能够“看懂”手机屏幕上的内容并执行任务,聚焦于移动端、关注用户交互。 论文链接: https://arxiv.org/pdf/2404.05719.pdf. 多模态理解能力:Ferret-UI展现了高水平的图文关联能力,尤其是在理解用户界面屏幕并与其有效交互方面,弥补了现有大部分通用多模态大模型的不足。 …
How to Install the New Apple Ferret LLM on Your Mac
2024年1月8日 · Learn how to install and use Ferret, Apple's LLM, on Mac with Apple Silicon - a complete guide.
- 某些结果已被删除