通过将图像和文本组合成一个查询

通过将图像和文本组合成一个查询 Dec 14, 2023 4:58:53 GMT -5

Quote

Post by account_disabled on Dec 14, 2023 4:58:53 GMT -5

您可以输入“白色花卉维多利亚袜子”，但您可能找不到您正在寻找的确切图案。我们可以更轻松地进行视觉搜索并以更自然的方式表达您的问题。” 下面的示例视频重点介绍了 MUM 如何在搜索中呈现视觉上可浏览的结果，并帮助用户找到他们的白色花卉维多利亚袜子。动画 GIF 展示了如何在查看衬衫图片时点击镜头图标，并要求 Google 为您找到相同的图案 - 但在另一件衣服上，例如袜子。谷歌还提供了一个现实世界的例子，说明 Lens 中的 MUM 如何帮助用户识别损坏的自行车零件：动画 GIF 显示了搜索的指点询问模式，可以让您更轻松地找到视频中的确切时刻，从而帮助您获得有关修理自行车的说明。 MUM 的实际应用示例 2021 年 5 月，Google 的 Pandu Nayak 介绍了 MUM，并给出了 MUM 的实际应用示例： “假设这样一个场景：你已经徒步登上了亚当斯山。

现在您想明年秋天徒步富士山，并且想知道需要做哪些不同的准备。今天，谷歌可以帮助脸书数据库你做到这一点，但这需要经过多次深思熟虑的搜索——你必须搜索每座山的海拔、秋季的平均气温、远足路线的难度、使用的正确装备，和更多。经过多次搜索，您最终可以获得所需的答案。但如果你正在和徒步旅行专家交谈；你可以问一个问题——“我应该做哪些不同的准备？” 您会得到一个深思熟虑的答案，其中考虑到您手头任务的细微差别，并指导您完成许多需要考虑的事情。 Google-MUM-创新-Visual-1 这个例子并不独特——我们中的许多人每天都要通过谷歌处理需要多个步骤的各种任务。事实上，我们发现人们平均会针对像这样的复杂任务发出八次查询。今天的搜索引擎还不够复杂，无法像专家那样回答。但借助名为多任务统一模型 (MUM) 的新技术，我们距离帮助您满足这些类型的复杂需求又近了一步。

因此，将来您将需要更少的搜索来完成工作。” 谷歌母公司 Alphabet 首席执行官桑达尔·皮查伊 (Sundar Pichai) 举了另一个例子，他解释说： “……当人们相互交流时，他们通过图像、文本、音频和视频进行交流。因此，我们需要构建多模态模型（MUM），让人们能够自然地针对不同类型的信息提出问题。有了 MUM，有一天你可以通过要求 Google 找到一条可以看到美丽山景的路线来计划一次公路旅行。” MUM 不仅能理解语言，还能生成语言。它还可以通过跨语言传递知识、从不同语言编写的资源中学习并帮助将这些信息带给您来呈现最相关的内容。 MUM 与 BERT 不同吗？两者都是基于 Transformer 架构构建的，但 MUM 比 BERT 强大得多。 BERT（来自 Transformers 的双向编码器表示）是一种自然语言模型，它被给予大量文本，并要求填充随机隐藏的单词来完成文本。