Google I/O 2024 懒人包整理:AI 检测诈骗电话、Circle to Search 可答题

今天凌晨,Google 就举行了 I/O 2024 大会,而这次依旧离不开 AI 。而小编也精选了一些 Google I/O 2024 所介绍的功能。话不多说,我们马上来看看。

Ask Photos with Gemini

简单来说,Ask Photo 是 Google Photos 的新功能。这项功能能让用户透过『对话』来快速找到相册内的照片。举例,用户可询问『小孩的游泳学得如何?』,Google Photos 整理出在泳池拍下小孩的照片也会描述该照片的细节。

同时 Google 也表示将保护隐私,用户的『对话内容』将不会被保存。而 Ask Photos with Gemini 这项功能将于今年夏季推出。

Gemini 1.5 Pro

Google 升级了 Gemini 1.5 Pro,它可将上下文窗口(AI 模型可理解的信息量)从当前 100 万 tokens 增加到 200 万 token。这意味着它能同时处理 2小时视频、22小时音频、6万多行代码或 140多万字。

同时 Gemini 1.5 Pro 也增强了其编码、翻译、推理、解析音讯及图像等功能。Gemini 1.5 Pro 将面向全球开发者开放。

Gemini 1.5 Flash

Google 也推出了名为『Gemini 1.5 Flash』的新模型,也是 API 中速度最快的 Gemini 模型,针对大规模任务进行优化。Gemini 1.5 Flash  有着 100万个 token,可同时分析长达 1500页的文档或 30000行程式码。

Gemini 1.5 Flash 的诞生,是因为开发人员需要一个比 Gemini 1.5 Pro 更轻便、更便宜的模型。而这模型将面向全球开发者开放。

Project Astra

简单来说,Project Astra 能让用户以『对话』方式询问 AI 关于手机镜头的画面看到了什么,并进行辨识,如辨识代码、扬声器上的零件、找到遗忘的眼睛等。而 Project Astra 的初步功能将于今年夏天在 Gemini App 推出。

Veo 、Imagen 3 及 Music AI Sandbox

Veo 是 Google 最新的视频生成模型,它可以生成各种电影及视觉风格的 1080p 视频,影片长度可超过一分钟。同时它也能了解一些电影术语,如延时摄影、空拍,使画面移动更逼真。而 Veo 的部分功能也将在未来开放给 YouTube Shorts 使用。

Imagen 3 则是文本转图像模型,它可产生逼真、栩栩如生的图像,与之前的模型相比,分散注意力的视觉伪影要少得多。它也可以更好地理解自然语言、提示背后的意图,并融合较长提示中的小细节。

Music AI Sandbox 则是一款 AI 歌曲生成工具,它能让用户使用 AI 来改变声音、创建新乐器来进行创作。

此外,Google 也开发了 SynthID 工具,它可以以数码水印的方式嵌入由 AI 生成图像、音乐、文本、视频中

AI Overview

AI Overview 功能将会整理不同网站的资讯,并整合在搜索结果处。同时也能解决生活化的问题,如寻找一家受欢迎、交通便利且有折扣的普拉提练习室,AI 便会展示该练习室优惠的详细信息,出发时间等。

不仅如此,用户在使用 Google Search 搜索餐厅时,就会透过 AI 来分类不同类型的餐厅,如有 Live 表演的餐厅、氛围良好的餐厅等。未来这项功能将从餐饮和食谱开始,然后是电影、音乐、书籍、酒店、购物等。

除此之外,Google Search 也能透过影片来提出问题。举例,你在二手店买了黑胶唱片机,但回家打开后却不能用,金属唱针也不规则晃动。用户在这时候可拍下影片直接搜寻。AI 就能为提供解决问题的方法。这项功能不久后就会在Search Labs 中推出,初步阶段适用于美国境内的英文查询,未来预期会逐步扩大支援地区。

Circle to Search 

Circle to Search 最初登场时,多数是用来搜索景点、同款衣物等。而如今这项功能可用来帮助学生解决物理及数学问题,并分析给出步骤来进行解答更为复杂的问题。

TalkBack 功能 描述

Screenshot

Gemini Nano 模型将整合到 TalkBack 功能,它能够帮助视觉障碍者了解图像的资讯细节。举例,Talkback 功能将告诉用户这是一件黑白格子裙,带有领子、长袖,而且腰间还有打结设计。Talkback 功能将于晚些时候更新。

AI 检测诈骗电话

而另一项运行 Gemini Nano 模型的功能则为 AI 检测诈骗电话,它能在通话过程中如果侦测到与诈骗有关的对话模式,就会马上发出警报。

举例,如果『银行代表』向用户提出罕见的银行要求进行紧急转账、使用礼品卡付款、提供 PIN 码或密码的个人资讯,用户将会收到警报。而这项功能将于晚些时候分享更多资讯。

Android 系统上的 Gemini

Gemini 能透过生成式 AI 来提高创造力及各种效率。而未来 Gemini 也将出现到不同的 App 里,并解决问题。

举例,用户可把生成的图片拖放到 Gmail、Google Messages 和其他地方,或在 YouTube  影片中点击「询问有关这部影片的问题」,获取特定资讯。至于 Gemini Advanced,可透过「询问 PDF 」来快速获得答案。

Workspace 加入 Gemini 侧边栏

WorkSpace 将升级至 Gemini 1.5 Pro,在 Workspace 的 Gmail、Docs、Sheet、Slides 和 Drive 右侧推出 Gemini 侧边栏,可在不离开应用的情况下,组织、理解应用中的数据,可以总结邮件内容、摘要会议记录等等。

而在 Gmail 方面,Gemini 能够为 email 进行摘要、根据上下文进行智慧回复内容、问答等。

有趣的是,Google CEO 在大会临近结束时,以 Gemini 进行统计,在短短 2小时的演讲中,一共提到了多达 『121』次 AI。

追踪我们的 IG

最新消息

- Advertisement -

你可能也会喜欢