sql - 使用 EXTENSION address_standardizer 从 parse_address 输出错误
问题描述
我正在尝试清理和解析地址,但没有使用相同的扩展名“address_standardizer”获得两个查询之间的解析结果。在我的主要查询中,只解析了某些城市。状态和拉链都很好。但是,在测试为什么它缺少大多数城市时,我在测试查询中看到了城市。
我在这里使用相同的基本查询修改为:
SELECT city, (a).num, (a).street, (a).city, (a).state, (a).zip, (a).zipplus
FROM (SELECT city, parse_address(city) As a
from add_data
where city ~ ', *\D\D \d{5}$') AS p;
这导致:
city |num|street |city|state |zip |zipplus
HONOLULU, HI 96819 | | | |HI |96819|
NEW YORK, NY 10018 | | | |NY |10018|
NEWHALL, CA 91321 | | | |CA |91321|
LONG BEACH, CA 90815 | | | |CA |90815|
LYNNFIELD, MA 01940 | | | |MA |01940|
CHATTANOOGA, TN 37407 | | | |TN |37407|
所以我测试了:
select city, parse_address(city) as cty
from add_data
where city ~ ', *\D\D \d{5}$';
这给了我对城市、州和邮编的预期解析:
city |cty
BEVERLY HILLS, CA 90213 |(,,,"BEVERLY HILLS",,CA,90213,""US)
OXNARD, CA 93031 |(,,,"OXNARD",,CA|93031,""US)
STREETSBOSO, OH 44241 |(,,,"STREETSBOSO",,OH,44241,""US)
OMAHA, NE 68114 |(,,,"OMAHA",,NE,68114,""US)
CHATTANOOGA, TN 37401 |(,,,"CHATTANOOGA",,TN,37401,""US)
CUYAHOCA HEIGHTS, OH 44125 |(,,,"CUYAHOCA HEIGHTS",,OH,44125,""US)
我不确定我的查询在哪里丢失正在解析的城市,而它仍然处理状态和拉链。我将如何重写查询以获得正确的解析结果?
解决方案
parse_address
期望一个完整的输入,或一些地址部分丢失的迹象。
首先,它有助于显示输出列名:我们看到城市没有被解析,因为它在address1
列中,它是街道信息的聚合。
select (parse_address('BEVERLY HILLS, CA 90213')).*;
num | street | street2 | address1 | city | state | zip | zipplus | country
-----+--------+---------+---------------+------+-------+-------+---------+---------
| | | BEVERLY HILLS | | CA | 90213 | | US
(1 row)
如果我们添加街道信息,则可以正确识别城市。
select (parse_address('123 ab street BEVERLY HILLS, CA 90213')).*;
num | street | street2 | address1 | city | state | zip | zipplus | country
-----+-----------+---------+---------------+---------------+-------+-------+---------+---------
123 | ab street | | 123 ab street | BEVERLY HILLS | CA | 90213 | | US
(1 row)
要正确解析不包含街道的地址的城市名称,您需要通过添加前导逗号来明确告知没有街道信息。
select (parse_address(',BEVERLY HILLS, CA 90213')).*;
num | street | street2 | address1 | city | state | zip | zipplus | country
-----+--------+---------+----------+---------------+-------+-------+---------+---------
| | | | BEVERLY HILLS | CA | 90213 | | US
(1 row)
请注意,非标准街道类型或复杂情况也需要在街道和城市之间添加逗号:
select (parse_address('123 ab MystreetType BEVERLY HILLS, CA 90213')).*;
num | street | street2 | address1 | city | state | zip | zipplus | country
-----+-------------------------+---------+-----------------------------+-------+-------+-------+---------+---------
123 | ab MystreetType BEVERLY | | 123 ab MystreetType BEVERLY | HILLS | CA | 90213 | | US
(1 row)
select (parse_address('123 ab MystreetType, BEVERLY HILLS, CA 90213')).*;
num | street | street2 | address1 | city | state | zip | zipplus | country
-----+-----------------+---------+---------------------+---------------+-------+-------+---------+---------
123 | ab MystreetType | | 123 ab MystreetType | BEVERLY HILLS | CA | 90213 | | US
推荐阅读
- kubernetes - Kubernetes 状态挂在 Pending 状态
- python-2.7 - 简化这个 Python 代码片段
- ios - swift中要字符串的对象列表
- assembly - 在 NASM 中的 scanf 之前推入堆栈时发生分段错误
- image - 在 Dash DataTable 中显示缩略图
- ios - How to check if app settings exist in ios setting app
- swift - 在 DateComponentsFormatter 中等效的 unitString(fromValue:unit:) 以获取本地化(使用正确的语法数字)单位字符串?
- c - 使用 pthread 的矩阵乘法问题
- c# - 如何使用 BindingList 作为数据源从 DataGridView 中删除一行?
- excel - 文本到列 (VBA) 问题