免费 AI “神器”系列第四弹:字节跳动发布视频界“神笔马良”,谷歌Gemini最强竞对出现|钛媒体AGI

AI的潜力究竟有多大?

图片来源:unsplash

图片来源:unsplash

近期,生成式人工智能(AIGC)领域又涌现出多款创意十足的新应用。

今天,钛媒体AGI梳理了免费 AI “神器”系列第四弹,共五款,其中不少产品又再一次拓宽了我们对AI的想象力。

  • 视频界“神笔马良”——Boximator
  • 大模型直接操控电脑——ScreenAgent
  • 文本转声音神器——ElevenLabs人工智能音效模型
  • 谷歌Gemini 1.5最强竞对——LargeWorldModel
  • 阅读能力媲美人类——Readagent

1、视频界“神笔马良”——字节Boximator模型

产品信息:Boximator是一款由字节跳动开发的文生视频模型,可通过文本精准控制生成视频中人物或物体的动作。

产品功能:用户只需输入一句描述具体动作的文本,Boximator便可生成对应动作的视频片段,目前很多文生视频大模型其实做不到这一点。

例如,同时在Pika 1.0、Gen-2、Boximator上输入文本“一位英俊的男人用右手从口袋中掏出一支玫瑰,并注视着这只玫瑰”,三个大模型最终生成的视频中,只有Boximator做到了男士掏花和看花的动作,其他两个均没有。

只有Boximator的生成视频(最左)做到了男士掏花和看花的动作,其他两个均没有。

只有Boximator的生成视频(最左)做到了男士掏花和看花的动作,其他两个均没有。

为了实现对视频中人物或物体动作的精准控制,Boximator引入“硬盒”和“软盒”两种约束方法,用户可以使用这些盒子来严格定义对象在未来帧中的位置、形状或运动路径。

不过,Boximator相关技术似乎还未成熟。

2月20日,字节跳动相关人士表示,Boximator是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

据悉,字节跳动从2023年开始布局AI,并于去年11月成立专注于 AI 创新业务的新部门Flow。目前字节Flow部门已推出了三款AI对话类产品,包括豆包、扣子和Cici。其中,豆包为一款聊天机器人产品,可以完成问答、文本生成、语言翻译等多种任务,还可以根据用户需求和上下文进行自适应问答,提供个性化服务;扣子是一站式AI Bot开发平台,无论用户是否有编程基础,都可以在扣子平台上快速搭建基于AI模型的各类问答Bot,可完成解决简单的问答,并处理复杂逻辑的对话。

高管方面,前TikTok的产品负责人、现任字节跳动产品和战略副总裁朱骏已担任Flow产品负责人,此外还有一些内部核心产品人员转岗至Flow。

体验地址:https://boximator.github.io/

2、谷歌Gemini 1.5最强竞对——LargeWorldModel

产品信息:LargeWorldModel(LWM)是一种大型多模态自回归模型,由UC伯克利大学开发。它使用 RingAttention 在包含长视频和长文本的大型数据集上进行训练,从而执行语言、图像和视频的理解和生成。

产品功能:LWM支持处理多模态信息,能在100万token中准确找到目标文本,还能一口气看完1小时的视频后,准确地回答出有关视频内容细节的问题,突破了当前语言模型在处理复杂的长格式任务的不足。除此之外,LWM还支持图像和视频的生成,被外界视为谷歌Gemini 1.5最强竞对。

LargeWorldModel在看完1小时的视频后,能准确地回答出有关视频内容细节的问题

LargeWorldModel产品介绍界面

体验地址:https://github.com/LargeWorldModel/LWM

3.  大模型直接操控电脑——ScreenAgent

产品信息:ScreenAgent是一款由吉林大学人工智能学院开发、视觉语言大模型驱动的计算机控制代理。

产品功能:ScreenAgent可帮助用户在无需辅助定位标签的情况下,通过VLM Agent控制电脑鼠标和键盘,实现大模型直接操控电脑的功能。

ScreenAgent可根据用户的文本描述查找并播放指定的视频

ScreenAgent可根据用户的文本描述查找并播放指定的视频

例如,ScreenAgent可根据用户的文本描述查找并播放指定的视频,或根据用户要求调整视频播放速度。ScreenAgent还能帮用户打开Windows系统的事件查看器,使用office办公软件,例如根据用户文本描述,删除指定的PPT内容。

体验地址:https://github.com/niuzaisheng/ScreenAgent

4、文本转声音神器——ElevenLabs人工智能音效模型

产品信息:近日,ElevenLabs宣布将推出一款人工智能音效模型,可帮助用户通过文本生成音效,填补了当下AI视频生成缺乏背景音效的空白。

产品功能:在ElevenLabs发布的预告视频中,这款人工智能音效模型为Sora生成的视频画面添加了不同的音效,如人群中舞龙的喧闹声、高速列车运行的轰鸣声、行人的脚步声等。

目前,ElevenLabs公布了一段视频,但尚未公开该模型的具体细节,仅设立了一个注册页面,用户可提前注册等待该模型的开放试用。

注册地址:https://form.typeform.com/to/gg0xzZW4?typeform-source=t.co

5、阅读能力超强的Agent模型——Readagent

产品信息:Readagent是由Google开发的一款模仿人类阅读方式的阅读类型代理(Agent)模型。它通过学习人类阅读长文本时遗忘具体信息但保留要点信息的方式,来提高处理和理解长文本的效率。

产品功能:在处理长文本时,Readagent会把文本中的主要信息转化为“要点记忆”进行存储,当需要回答具体细节问题时,Readagent会迅速定位到到相应的“要点”中寻找答案,从而出色地完成长文本的阅读理解任务。此外,Readagent还能帮用户在复杂的网站中找到需要的信息。

体验地址:https://github.com/read-agent/read-agent.github.io/blob/main/assets/read_agent_demo.ipynb

(本文首发钛媒体App,作者|任颖文,编辑|林志佳)

转载请注明出处、作者和本文链接
声明:文章内容仅供参考、交流、学习、不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

快报

更多

2024-07-26 23:01

大商所、郑商所夜盘收盘,纯碱跌超3%

2024-07-26 22:57

NIPG美国IPO首日开盘涨超45%

2024-07-26 22:57

备案价约56万元/平方米、验资最低2000万元,广州豪宅又创新纪录

2024-07-26 22:53

天津7月27日10时启动市防洪四级应急响应

2024-07-26 22:52

广发银行将在下周下调银行存款利率

2024-07-26 22:45

人身险产品也绷不住了,3.0%预定利率下调渐近

2024-07-26 22:44

印度政府称,将电动交通推广计划的支出从50亿卢比提高到77.8亿卢比

2024-07-26 22:39

淡水河谷高管:公司不考虑在巴西的镍业并购机会

2024-07-26 22:38

安哥拉下调9月石油日出口量至110万桶

2024-07-26 22:31

北京口岸出入境旅客量大增至日均近6万人次,同比飙升160%

2024-07-26 22:23

美股区块链概念股集体走强,MicroStrategy涨超9%

2024-07-26 22:14

国资委:加快发展新质生产力,强化国有企业科技创新主体地位

2024-07-26 22:13

海柔创新回应中信建投实习生泄露信息事件:正在关注事件影响

2024-07-26 22:11

恒大汽车:潜在卖方、潜在买方及公司之间的讨论仍在进行中

2024-07-26 22:10

我国科研团队提出实时监测鼻咽癌治疗疗效的新方法

2024-07-26 22:09

生态环境部:健全生态环境治理体系,协同推进降碳、减污、扩绿、增长

2024-07-26 22:09

比特币突破68000美元/枚

2024-07-26 22:01

美国7月一年期通胀率预期终值2.9%,预期2.90%,前值2.90%

2024-07-26 22:01

美国7月密歇根大学消费者信心指数终值66.4,预期66,前值66

2024-07-26 21:55

闲鱼:拟向卖方收取基础软件服务费,按单笔订单实际成交额*0.6%收取

1

扫描下载App