首页 > 解决方案 > 从谷歌表格中的关键字分析中排除某些文本

问题描述

我正在尝试对我收到的电子邮件的主题进行一些分析。我有以下格式的 Google 表格中的电子邮件。我试图计算提及“隐私”或“保密”的频率。我的挑战是几乎每个电子邮件签名都提到了其中一个词,所以当我使用 SEARCH 时,每个单元格都返回 TRUE。

大多数电子邮件签名都以类似的短语开头,因此我尝试使用以下公式删除这些短语之后的任何内容:

=ArrayFormula(TRIM(LEFT(B1:B,MIN(IFERROR(FIND({" This email and any","IMPORTANT NOTICE", " Important notice","The information in this email"," The contents of this message"," Information in this email including"," This electronic mail message"," this message and any attachments"," This message is intended for the addressee only"," This email is CONFIDENTIAL"},B1:B),LEN(L2))))))

B 列是包含电子邮件正文的列。

但是,这似乎是删除了不在我搜索中的单词之后的文本(例如,删除“不”之后的所有内容而不是“重要通知”)。

任何人都可以建议:

  1. 我的上述搜索有什么问题
  2. 搜索“隐私”和“机密”的另一种方法,不包括电子邮件签名中的文本。

示例表:|电子邮件标题|电子邮件正文| |-----------|----------| |你要买我的东西吗| 你好,我想知道你是否想买这个我想卖给你的东西。重要提示:此电子邮件是私人的| |一物两用| 我有一个很棒的提议给你!此电子邮件和附件是私人和机密| |最后一次买东西的机会!| 我们可以私聊你是否想买我的东西吗?|

在上面的示例中,我想计算第 3 行,而不是第 1 行和第 2 行,因为 1 和 2 中提到的“私人”和“机密”在签名中。

谢谢!

标签: google-sheetsanalysis

解决方案


我想我理解您所描述的错误发生在您的公式中。一旦公式找到您用于尝试识别电子邮件签名的值之一,例如“重要通知”,并返回该文本的位置,例如位置 96,然后它对所有单元格使用 96,例如这个:LEFT(B1:B,96)。因此,您可能无法执行您正在尝试的数组公式的复合数组公式。

但是,在 B2 中使用这样的公式并将其向下拖动应该可以工作:

=ArrayFormula(TRIM(LEFT(B2,MIN(IFERROR(
  FIND({" This email and any","IMPORTANT NOTICE", " Important notice","The information in this email"," The contents of this message"," Information in this email including"," This electronic mail message"," this message and any attachments"," This message is intended for the addressee only"," This email is CONFIDENTIAL"},B2),
  LEN(L2))))))

注意:我不确定您的 L2 中的值是什么。

但是对于整体方法,这实际上取决于您的术语识别电子邮件签名的效果如何,以便将它们从最终的全文搜索中排除。


推荐阅读