首页 > 解决方案 > 如何在 Hbase Row 和 Bigtable Row 上设置 TTL

问题描述

我正在尝试评估是否可以在 HBase 或 Bigtable 中的单个行上设置 TTL。

我知道 Cassandra 允许在插入时使用 TTL。我想知道在 HBase 和 Google Cloud Bigtable 中是否有可能。

INSERT INTO test (k,v) VALUES ('test', 1) USING TTL 10;

标签: google-cloud-platformhbasettlbigtablegoogle-cloud-bigtable

解决方案


Bigtable 中没有对细粒度 TTL 的原生支持。但是有两种常用的方法来模拟它们,但有不同的权衡:

  • 如果您正在设置一个新的空表并计划在每次写入时设置一个 TTL ,您可以将列族上的 max_age 设置为非常小的值,例如 1s,并将每个新值的写入时间戳显式设置为您希望它过期。
    • 优点:这种方法使事情变得容易理解,因为时间戳具有明显的语义含义,并且不需要修改。
    • 缺点:如果您忘记设置 TTL 而是使用默认的服务器时间戳,则该数据将立即被视为过期,并将在下一次压缩时被丢弃。
    • 缺点:如果您尝试将其应用于预先存在的表,这同样适用:任何使用真实时间戳的现有数据都将被删除。
    • 缺点:对于任何给定的单元格,不可能有多个同时过期的值。
  • 如果您想要一个可以被覆盖的默认 TTL,请在您的列族上正常设置它。然后,写入可以通过将其时间戳设置为 (real_timestamp - X + Y) 来将其 TTL 调整为 Y。
    • 优点:这种方法可以安全地应用于预先存在的表。
    • 优点:如果您忘记设置 TTL,也没有什么陷阱。
    • 缺点:根本无法解释时间戳,因为任何给定的单元格都可能有一个真实的时间戳,或者它可能有一个模拟的 TTL 覆盖时间戳。
    • 缺点:与上述相关,默认值和重写 (YX) 的 TTL 值之间可能会出现意外的时间戳冲突。

请记住,Bigtable 垃圾回收是异步的,因此值不会在 TTL 之后立即消失。如果您不想读取 TTL 值,则需要在读取请求中发送适当的时间范围。在第一种方法中,这将比现在晚。在第二个中,它会晚于(现在 - X)。

这两种方法也牺牲了将真实时间戳附加到值的所有有用属性,包括可调试性和简单的版本控制。您可以通过自己将真正的时间戳写入单独的列来重新获得其中的一些,但通常这意味着当您也只保留最新值时,这些工作效果最好。


推荐阅读