python - 我想帮助使用 if in 语句优化三重 for 循环
问题描述
我正在一个包含近 7 万个条目的数据帧上进行三重 for 循环。我该如何优化它?
我的最终目标是创建一个包含地震事件国家的新专栏。我有一个纬度、经度和“地点”(例如:“阿拉斯加北内纳纳北 17 公里”)列。我尝试反向地理编码,但有 68,488 个条目,没有免费服务可以让我这样做。作为学生,我买不起。
所以我使用一个带有国家列表的数据框和一个带有州列表的数据框来与 USGS['place'] 的值进行比较。为此,我最终决定使用 3 个 for 循环。
正如您可以假设的那样,这需要很长时间。我希望有一种方法可以加快速度。我正在使用 python,但我也使用 r。for 循环在 python 上运行得更好。
我会采取任何更好的选择。
USGS = pd.DataFrame(data = {'latitide':[64.7385, 61.116], 'longitude':[-149.136, -138.655], 'place':['17km N of North Nenana, Alaska', '74km WNW of Haines Junction, Canada'], 'country':[NA, NA]})
states = pd.DataFrame(data = {'state':['AK', 'AL'], 'name':['Alaska', 'Alabama']})
countries = pd.DataFrame(data = {'country':['Afghanistan', 'Canada']})
for head in states:
for state in states[head]:
for p in USGS['place']:
if state in p:
USGS['country'] = USGS['country'].map({p : 'United 'States'})
# I have not finished the code for the countries dataframe
解决方案
您确实可以选择进行地理编码。Mapquest 每月提供 15,000 个免费电话。您还可以查看使用我使用的geopy 。
import pandas as pd
import geopy
from geopy.geocoders import Nominatim
USGS_df = pd.DataFrame(data = {'latitude':[64.7385, 61.116], 'longitude':[-149.136, -138.655], 'place':['17km N of North Nenana, Alaska', '74km WNW of Haines Junction, Canada'], 'country':[None, None]})
geopy.geocoders.options.default_user_agent = "locations-application"
geolocator=Nominatim(timeout=10)
for i, row in USGS_df.iterrows():
try:
lat = row['latitude']
lon = row['longitude']
location = geolocator.reverse('%s, %s' %(lat, lon))
country = location.raw['address']['country']
print ('Found: ' + location.address)
USGS_df.loc[i, 'country'] = country
except:
print ('Location not identified: %s, %s' %(lat, lon))
输入:
print (USGS_df)
latitude longitude place country
0 64.7385 -149.136 17km N of North Nenana, Alaska None
1 61.1160 -138.655 74km WNW of Haines Junction, Canada None
输出:
print (USGS_df)
latitude longitude place country
0 64.7385 -149.136 17km N of North Nenana, Alaska USA
1 61.1160 -138.655 74km WNW of Haines Junction, Canada Canada
推荐阅读
- python - 合并多个 XML 文件
- laravel - Laravel Homestead & nginx - 无法使用请求的资源作为变量
- f# - F# 4.5 中的 byref 返回
- javascript - Firebase Firestore 和云函数 - Promise.all() 不返回 QuerySnapshot
- webdriver-io - WDIO,不断收到此错误:java.net.SocketException: Connection reset by peer
- docker - Docker 容器监听 http://[::]:80
- regression - Pytorch 损失信息
- javascript - 将对象数组转换为数组对象
- javascript - 将 Actioncable 与 Rails 集成时出错
- css - 如何以 css 或任何其他方式将叠加层添加到图像中