谷歌发布史上最强多模态AI模型,Gemini 1.5 Pro,支持一百万Token,秒杀GPT-4
推广
推荐 | 链接 | 教程 |
---|---|---|
云狐不限时VPN | 注册链接 | 不限时翻墙机场推荐,众多不限时套餐|大流量套餐|免费试用|畅享4K |
长桥证券开户 | 文字教程 | 【视频教程】-长桥证券新加坡版开户入金教程:港美股永久免佣+0门槛开户 |
欧易开户教程 | 注册链接 | 【视频教程】-币圈小白入门,从零开始购买加密货币,欧易如何交易加密货币? |
背景
今天的视频我们来讲讲Google刚刚发布的地表最强多模态AI模型Gemini 1.5 Pro
,可以支持千万级Token,秒杀GPT-4。
首先说一下,目前我们能用到的Gemini AI模型,是基于Gemini 1.0。
Gemini是由Google Bard
AI聊天机器人改名而得的,对标的是ChatGPT 3.5
。
而同时为了对抗OpenAI的GPT-4,谷歌稍后发布了Gemini Ultra 1.0。和GPT-4一样,Gemini Ultra版本更加强大,同时也一样需要付费使用。
Gemini 1.5 Pro
而在Gemini 1.0发布后的一个半月之后,Google重磅发布了Gemini 1.5 Pro,而Gemini 1.5对Gemini 1.0 虽然只是半个版本号的变化,但是在性能方面,却具有非常大的改进。
我们来看一下官方Token数据对比。
- Gemini 1.0 Pro能处理 32K Token
- GPT-4能处理128K Token
- Claude 2.1 能处理 200K Token
- 而Gemini 1.5 Pro直接就提升到1M
一百万Token有多强大呢?
它可以一次性处理1小时视频,11小时的音频,三万行代码和大于七十万的单词,更是在测试中达到了一千万的Token。
有这么大的数量的Token到底有什么意义呢?模型的Token越大,它能处理的信息就越多,它的输出更加连贯、相关和实用。
Sora视频
我们都知道,前段时间OpenAI Sora生成的视频惊艳了很多人,我们来看下它生成的视频,的确非常惊艳。 那么我们把Sora生成的视频交给Gemini来处理,看看它能不能分析出来什么。
网上将一条 Sora 生成的视频发给 Gemini 1.5 Pro,让其点评一下。Gemini 1.5 Pro 犀利指出了视频中不合逻辑的地方:
首先,雪花飘落,但樱花盛开。樱花通常在天气温暖而没有雪的春天盛开。其次,雪以非常均匀的方式下落,这并不是雪在现实生活中下落的方式。第三,尽管下着大雪,视频中的人们没有穿任何冬季衣物。总的来说,这个视频在视觉上很吸引人,但不一致之处表明这不是一个真实场景。
不得不说,就分析视频AI痕迹的准确度来看,Gemini的回答非常切题,说明它的识别和理解能力确实非常出色。
Sora视频2
与此同时,The Rundown AI创始人在Twitter上测试了猫在丛林里漫步的视频。大家可以看下视频相当真实。
对此,Gemini 1.5给出的评价是:
这段视频很有可能是由人工智能(AI)创造的,但要确定地说还是有些困难。 一些细节似乎表明这段视频是真实的,例如猫的动作自然流畅,光影效果也相当逼真。 然而,也有一些细节让人怀疑,比如猫的眼睛异常放大,毛皮的质感也过于完美无瑕。
确实Sora生成的视频已经到达了真假难辨的地步,而Gemini的分析也基本到位,有理有据。
测试者直呼“对它的回答感到非常惊讶”。
分析NBA扣篮视频
而The Rundown AI创始人同时也上传了2024年 NBA 扣篮大赛的整个视频,并询问哪个扣篮得分最高。
而Gemini 1.5 凭借其出色的长上下文视频理解能力,能够从14分钟的视频中找到得分最高的完美50分扣篮及其细节!
马克·麦克朗的最后一记扣篮获得了当晚的最高分——50 分满分。他跳过两人,将球轻敲篮板后板,然后用右手完成扣篮。
分析《星际穿越》剧本中的 3 句最鼓舞人心的引语。
「人类诞生于地球,但我们的命运远不止于此。」—— Cooper
这句话深刻地表达了人类探索未知、超越现状的不屈不挠的精神。它提醒我们,我们的潜力不受当前所处环境的限制,我们完全有能力克服挑战,追求更高的目标。
- 「爱是唯一能跨越时间和空间,触及我们心灵的力量。」—— Brand
这句话揭示了爱的强大能力,它能够跨越遥远的距离,甚至是时间的界限,将我们紧紧相连。它暗示,爱是宇宙中的一股根本力量,能在逆境中为我们指明方向,带给我们希望。
- 「曾经,我们仰望星空,梦想着自己在浩瀚宇宙中的位置。如今,我们却沉溺于眼前的琐事,忘记了自己的远大理想。」—— Cooper
这句话是对好奇心、追求和雄心壮志的重要性的深情提醒。它对比了过去人类满怀希望地探索星辰的时代,与如今忙于应对日常挑战、失去对未来的憧憬的现状。它激励我们重新寻找那份对未知的好奇和对更美好未来的追求。
分析《哈利波特与魔法石》
随后,Rowan Cheung又对Gemini 1.5进行了一些更加极限的测试:
他让Gemini读取了整部《哈利·波特与魔法石》(共741,028个Token)。
Prompt:「请按照时间顺序列出书中最重要的50个(或100个)思想或段落,并对它们的重要性进行1到10的评分。」
完成这个任务耗时4分钟。
从《炼金术士》中提炼男主角的肖像
同时Twitter上也对Gemini 1.5 Pro的图像生成能力进行了测试,把一本5万多Token的炼金术士整本PDF提供给Gemini 1.5,Gemini读懂后获得主角肖像的提示,然后根据提示生成主角的肖像。
总结
什么是多模态AI模型,顾名思义,是指能够处理多种类型数据(如图像、文本、声音,视频,代码等)的深度学习模型。他能将这些数据通过AI模型处理,生成图像、文本、声音、视频、代码。
而这么多类型的数据是怎么传输给AI模型的呢?就是经过Token,这些 Token 是用于处理信息的基本构建块。
最初的
- Gemini 1.0 的Token是32K
- GPT-4 增加到 128K
- Claude 2.1 是 200K
- 而Gemini 1.5 Pro则直接增加到一百万。
是gemini 1.0的32倍。也远远超过了GPT-4和Claude 2.1
这意味着 Gemini 1.5 Pro 可以一次性处理大量信息——包括:
- 1小时的视频
- 11小时的音频
- 超过 30000 行代码的代码库
- 超过 700000 个单词。
然后在极短的时间内根据需求生成用户所需的文本,图片,音频,视频,代码等。
所以不得不说,Gemini 1.5 Pro把AI卷出了一个新的高度。那么Gemini 1.5 Pro怎么使用呢?
根据官方的描述,Gemini 1.5 Pro目前开放128K Token的标准版,现在开始,一小部分开发人员和企业客户可以通过AI Studio的私人预览版使用100 万个Token的上下文窗口。
而如果要使用Gemini 1.5 Pro,点击下方的 申请候补名单 链接试用吧。
视频教程
本篇博客的视频教程首发于 Youtube:科技小飞哥,加入 电报粉丝群 获得最新视频更新和问题解答。