经过一年的不懈努力,今天我们很高兴发布Qwen2-VL!Qwen2-VL 是 Qwen 模型系列中基于Qwen2的视觉语言模型的最新版本。与 Qwen-VL 相比,Qwen2-VL 具有以下功能:
- SoTA 对各种分辨率和比例的图像的理解:Qwen2-VL 在视觉理解基准上实现了最先进的性能,包括 MathVista、DocVQA、RealWorldQA、MTVQA 等。
- 理解20分钟以上的视频:Qwen2-VL可以理解20分钟以上的视频,实现基于高质量视频的问答、对话、内容创作等。
- 可以操作你的手机、机器人等的代理:Qwen2-VL 具有复杂的推理和决策能力,可以与手机、机器人等设备集成,根据视觉环境和文本指令进行自动操作。
- 多语言支持:为了服务全球用户,除了英语和中文,Qwen2-VL 现在还支持理解图像中不同语言的文本,包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。
我们以 Apache 2.0 许可证开源了 Qwen2-VL-2B 和 Qwen2-VL-7B,并发布了 Qwen2-VL-72B 的 API!开源已集成到 Hugging Face Transformers、vLLM 和其他第三方框架中。希望您喜欢!
中国新版 Qwen2 击败 GPT-4o
阿里巴巴刚刚推出了Qwen2-VL,这是一种新的视觉语言 AI 模型,其在多个基准测试中均优于 GPT-4o,尤其是在文档理解和多语言文本图像理解方面表现出色。
详细:
- Qwen2-VL 可以理解各种分辨率和比例的图像,以及超过 20 分钟的视频。
- 该模型尤其擅长解决大学水平的问题、数学推理和文档分析等复杂任务。
- 它还支持图像中的多语言文本理解,包括大多数欧洲语言、日语、韩语、阿拉伯语和越南语。
- 您可以在Hugging Face上尝试 Qwen2-VL ,更多信息请参阅官方公告博客
OpenAI 和 Anthropic 与美政府合作事会
OpenAI 和 Anthropic 刚刚与美国人工智能安全研究所签署了一项具有开创性的协议,允许政府在公开发布之前访问和测试他们的人工智能模型。
详细
- 美国人工智能安全研究所将在两家公司的主要新模型公开发布之前和之后对其进行评估。
- 此次合作是人工智能监管和安全工作的一步,美国政府将评估人工智能模型的能力和相关风险。
- 该研究所将向 OpenAI 和 Anthropic 提供有关应进行的潜在安全改进的反馈。
- 这些协议是在人工智能公司面临越来越严格的监管审查之际达成的,加州立法者今天早些时候通过了一项广泛的人工智能监管法案
重点指出:全球最受欢迎的两家人工智能公司正在向美国政府授予未发布模型的访问权限。这可能会重塑人工智能在全球范围内的开发、测试和部署方式,无论好坏,都会对人工智能领域的创新、安全和国际竞争产生重大影响。
使用自定义 LoRA 将自己添加到图像中
Fal AI 的 Flux LoRA 训练工具可帮助您创建定制的 AI 图像生成模型,该模型可以根据几张自拍照创建任何场景或风格的图像。
步骤:
- 访问 Fal AI 的 Flux LoRA 培训页面并创建一个帐户(需要约 10 美元的信用额度)。
- 上传 6-12 张背景清晰的高质量图像。
- 将训练步骤设置为 1000,并添加一个唯一的触发词(例如“您的名字”)。
- 开始训练过程(大约需要20分钟)。
- 使用“[您的名字] 作为超级英雄的肖像”等提示生成图像并探索。
专业提示:更进一步,将您的图像导入 Runway 的 Gen-3 图像转视频功能,并将您的生成内容转换为短片。
如需帮助可点击网站右上方群链接,加入QQ群寻求帮助
继续阅读
我的微信
我的微信
微信扫一扫
评论