谷歌发布史上最强多模态AI模型，Gemini 1.5 Pro，支持一百万Token，秒杀GPT-4

推广

推荐	链接	教程
Radial VPN	注册链接	2025最强科学上网工具｜Radial VPN｜翻墙VPN｜无限流量｜免费试用｜自营节点｜限时6折
长桥证券开户	文字教程	【视频教程】-长桥证券最新开户入金教程｜可购买BTC ETF｜港美股永久免佣｜iFast入金长桥
欧易开户教程	注册链接	【视频教程】-币圈小白入门，从零开始购买加密货币，欧易如何交易加密货币？

背景

今天的视频我们来讲讲Google刚刚发布的地表最强多模态AI模型Gemini 1.5 Pro，可以支持千万级Token，秒杀GPT-4。

home

首先说一下，目前我们能用到的Gemini AI模型，是基于Gemini 1.0。

Gemini是由Google Bard AI聊天机器人改名而得的，对标的是ChatGPT 3.5。

而同时为了对抗OpenAI的GPT-4，谷歌稍后发布了Gemini Ultra 1.0。和GPT-4一样，Gemini Ultra版本更加强大，同时也一样需要付费使用。

Gemini 1.5 Pro

而在Gemini 1.0发布后的一个半月之后，Google重磅发布了Gemini 1.5 Pro，而Gemini 1.5对Gemini 1.0 虽然只是半个版本号的变化，但是在性能方面，却具有非常大的改进。

我们来看一下官方Token数据对比。

token

Gemini 1.0 Pro能处理 32K Token
GPT-4能处理128K Token
Claude 2.1 能处理 200K Token
而Gemini 1.5 Pro直接就提升到1M

一百万Token有多强大呢？

它可以一次性处理1小时视频，11小时的音频，三万行代码和大于七十万的单词，更是在测试中达到了一千万的Token。

有这么大的数量的Token到底有什么意义呢？模型的Token越大，它能处理的信息就越多，它的输出更加连贯、相关和实用。

Sora视频

我们都知道，前段时间OpenAI Sora生成的视频惊艳了很多人，我们来看下它生成的视频，的确非常惊艳。那么我们把Sora生成的视频交给Gemini来处理，看看它能不能分析出来什么。

sora

网上将一条 Sora 生成的视频发给 Gemini 1.5 Pro，让其点评一下。Gemini 1.5 Pro 犀利指出了视频中不合逻辑的地方：

首先，雪花飘落，但樱花盛开。樱花通常在天气温暖而没有雪的春天盛开。其次，雪以非常均匀的方式下落，这并不是雪在现实生活中下落的方式。第三，尽管下着大雪，视频中的人们没有穿任何冬季衣物。总的来说，这个视频在视觉上很吸引人，但不一致之处表明这不是一个真实场景。

不得不说，就分析视频AI痕迹的准确度来看，Gemini的回答非常切题，说明它的识别和理解能力确实非常出色。

Sora视频2

与此同时，The Rundown AI创始人在Twitter上测试了猫在丛林里漫步的视频。大家可以看下视频相当真实。

sora2

对此，Gemini 1.5给出的评价是：

这段视频很有可能是由人工智能（AI）创造的，但要确定地说还是有些困难。一些细节似乎表明这段视频是真实的，例如猫的动作自然流畅，光影效果也相当逼真。然而，也有一些细节让人怀疑，比如猫的眼睛异常放大，毛皮的质感也过于完美无瑕。

确实Sora生成的视频已经到达了真假难辨的地步，而Gemini的分析也基本到位，有理有据。

测试者直呼“对它的回答感到非常惊讶”。

分析NBA扣篮视频

而The Rundown AI创始人同时也上传了2024年 NBA 扣篮大赛的整个视频，并询问哪个扣篮得分最高。

而Gemini 1.5 凭借其出色的长上下文视频理解能力，能够从14分钟的视频中找到得分最高的完美50分扣篮及其细节！

马克·麦克朗的最后一记扣篮获得了当晚的最高分——50 分满分。他跳过两人，将球轻敲篮板后板，然后用右手完成扣篮。

分析《星际穿越》剧本中的 3 句最鼓舞人心的引语。

「人类诞生于地球，但我们的命运远不止于此。」—— Cooper

这句话深刻地表达了人类探索未知、超越现状的不屈不挠的精神。它提醒我们，我们的潜力不受当前所处环境的限制，我们完全有能力克服挑战，追求更高的目标。

「爱是唯一能跨越时间和空间，触及我们心灵的力量。」—— Brand

这句话揭示了爱的强大能力，它能够跨越遥远的距离，甚至是时间的界限，将我们紧紧相连。它暗示，爱是宇宙中的一股根本力量，能在逆境中为我们指明方向，带给我们希望。

「曾经，我们仰望星空，梦想着自己在浩瀚宇宙中的位置。如今，我们却沉溺于眼前的琐事，忘记了自己的远大理想。」—— Cooper

这句话是对好奇心、追求和雄心壮志的重要性的深情提醒。它对比了过去人类满怀希望地探索星辰的时代，与如今忙于应对日常挑战、失去对未来的憧憬的现状。它激励我们重新寻找那份对未知的好奇和对更美好未来的追求。

分析《哈利波特与魔法石》

随后，Rowan Cheung又对Gemini 1.5进行了一些更加极限的测试：

他让Gemini读取了整部《哈利·波特与魔法石》（共741,028个Token）。

Prompt：「请按照时间顺序列出书中最重要的50个（或100个）思想或段落，并对它们的重要性进行1到10的评分。」

完成这个任务耗时4分钟。

从《炼金术士》中提炼男主角的肖像

同时Twitter上也对Gemini 1.5 Pro的图像生成能力进行了测试，把一本5万多Token的炼金术士整本PDF提供给Gemini 1.5，Gemini读懂后获得主角肖像的提示，然后根据提示生成主角的肖像。

总结

什么是多模态AI模型，顾名思义，是指能够处理多种类型数据（如图像、文本、声音，视频，代码等）的深度学习模型。他能将这些数据通过AI模型处理，生成图像、文本、声音、视频、代码。

而这么多类型的数据是怎么传输给AI模型的呢？就是经过Token，这些 Token 是用于处理信息的基本构建块。

ai_token

最初的

Gemini 1.0 的Token是32K
GPT-4 增加到 128K
Claude 2.1 是 200K
而Gemini 1.5 Pro则直接增加到一百万。

是gemini 1.0的32倍。也远远超过了GPT-4和Claude 2.1

这意味着 Gemini 1.5 Pro 可以一次性处理大量信息——包括:

1小时的视频
11小时的音频
超过 30000 行代码的代码库
超过 700000 个单词。

然后在极短的时间内根据需求生成用户所需的文本，图片，音频，视频，代码等。

所以不得不说，Gemini 1.5 Pro把AI卷出了一个新的高度。那么Gemini 1.5 Pro怎么使用呢？

根据官方的描述，Gemini 1.5 Pro目前开放128K Token的标准版，现在开始，一小部分开发人员和企业客户可以通过AI Studio的私人预览版使用100 万个Token的上下文窗口。

而如果要使用Gemini 1.5 Pro，点击下方的申请候补名单链接试用吧。

视频教程

本篇博客的视频教程首发于 Youtube：科技小飞哥，加入 电报粉丝群 获得最新视频更新和问题解答。