如何使用data.table：=高效地计算坐标对之间的距离

我想find最有效（最快）的方法来计算lat长度坐标对之间的距离。

已经提出了一个不太有效的解决scheme（在这里）使用sapply和spDistsN1{sp} 。我相信如果使用:=运算符在data.table使用spDistsN1{sp}那么这可能会变得更快，但是我一直无法做到这一点。有什么build议么？

这是一个可重现的例子 ：

 # load libraries library(data.table) library(dplyr) library(sp) library(rgeos) library(UScensus2000tract) # load data and create an Origin-Destination matrix data("oregon.tract") # get centroids as a data.frame centroids <- as.data.frame(gCentroid(oregon.tract,byid=TRUE)) # Convert row names into first column setDT(centroids, keep.rownames = TRUE)[] # create Origin-destination matrix orig <- centroids[1:754, ] dest <- centroids[2:755, ] odmatrix <- bind_cols(orig,dest) colnames(odmatrix) <- c("origi_id", "long_orig", "lat_orig", "dest_id", "long_dest", "lat_dest")

我失败的尝试使用`data.table`

 odmatrix[ , dist_km := spDistsN1(as.matrix(long_orig, lat_orig), as.matrix(long_dest, lat_dest), longlat=T)]

这是一个可行的解决scheme（但可能效率较低）

 odmatrix$dist_km <- sapply(1:nrow(odmatrix),function(i) spDistsN1(as.matrix(odmatrix[i,2:3]),as.matrix(odmatrix[i,5:6]),longlat=T)) head(odmatrix) > origi_id long_orig lat_orig dest_id long_dest lat_dest dist_km > (chr) (dbl) (dbl) (chr) (dbl) (dbl) (dbl) > 1 oregon_0 -123.51 45.982 oregon_1 -123.67 46.113 19.0909 > 2 oregon_1 -123.67 46.113 oregon_2 -123.95 46.179 22.1689 > 3 oregon_2 -123.95 46.179 oregon_3 -123.79 46.187 11.9014 > 4 oregon_3 -123.79 46.187 oregon_4 -123.83 46.181 3.2123 > 5 oregon_4 -123.83 46.181 oregon_5 -123.85 46.182 1.4054 > 6 oregon_5 -123.85 46.182 oregon_6 -123.18 46.066 53.0709

我写了我自己的geosphere::distHaversine版本，以便它更自然地适合data.table :=调用，在这里它可能是有用的

 dt.haversine <- function(lat_from, lon_from, lat_to, lon_to, r = 6378137){ radians <- pi/180 lat_to <- lat_to * radians lat_from <- lat_from * radians lon_to <- lon_to * radians lon_from <- lon_from * radians dLat <- (lat_to - lat_from) dLon <- (lon_to - lon_from) a <- (sin(dLat/2)^2) + (cos(lat_from) * cos(lat_to)) * (sin(dLon/2)^2) return(2 * atan2(sqrt(a), sqrt(1 - a)) * r) }

以下是一些基准testing的结果geosphere::distHaversine和geosphere::distGeo

 dt1 <- copy(odmatrix); dt2 <- copy(odmatrix); dt3 <- copy(odmatrix) library(microbenchmark) microbenchmark( dtHaversine = { dt1[, dist := dt.haversine(lat_orig, long_orig, lat_dest, long_dest)] } , haversine = { dt2[ , dist := distHaversine(matrix(c(long_orig, lat_orig), ncol = 2), matrix(c(long_dest, lat_dest), ncol = 2))] }, geo = { dt3[ , dist := distGeo(matrix(c(long_orig, lat_orig), ncol = 2), matrix(c(long_dest, lat_dest), ncol = 2))] } ) # Unit: microseconds # expr min lq mean median uq max neval # dtHaversine 370.300 396.6210 434.5841 411.4305 463.9965 906.797 100 # haversine 651.974 681.1745 776.6127 706.2760 731.3480 1505.765 100 # geo 647.699 679.8285 743.4914 706.0465 742.1605 1272.310 100

当然，由于在两种不同的技术（地理和海峡）中计算距离的方式，结果会有所不同。

感谢@ chinsoon12的评论，我发现了一个相当快的解决scheme，结合了distGeo{geosphere} data.table distGeo{geosphere}和data.table 。在我的笔记本电脑中，快速解决scheme比替代scheme快120倍。

让我们使数据集更大，以比较速度性能。

 # Multiplicate data observations by 1000 odmatrix <- odmatrix[rep(seq_len(nrow(odmatrix)), 1000), ]

缓解

 system.time( odmatrix$dist_km <- sapply(1:nrow(odmatrix),function(i) spDistsN1(as.matrix(odmatrix[i,2:3]),as.matrix(odmatrix[i,5:6]),longlat=T)) ) > user system elapsed > 222.17 0.08 222.84

快速解决scheme

 # load library library(geosphere) # convert the data.frame to a data.table setDT(odmatrix) system.time( odmatrix[ , dist_km2 := distGeo(matrix(c(long_orig, lat_orig), ncol = 2), matrix(c(long_dest, lat_dest), ncol = 2))/1000] ) > user system elapsed > 1.76 0.03 1.79

如何使用data.table：=高效地计算坐标对之间的距离

我失败的尝试使用`data.table`

这是一个可行的解决scheme（但可能效率较低）

缓解

快速解决scheme

计算地理邻近度的公式

Java double vs BigDecimal的纬度/经度

鉴于经纬度的坐标，我们如何找出城市/国家？

有没有openstreetmap的API？

什么是在半径内查找大表的最快方法MySQL（纬度经度）

如何计算一个球体上一个点到一个线段的距离？

使用MySQL空间扩展来select圆内的点

从经度\纬度转换到笛卡尔坐标

使用空间点types在MySQL中存储Lat Lng值

用R开发地理专题地图

如何使用data.table：=高效地计算坐标对之间的距离

我失败的尝试使用data.table

这是一个可行的解决scheme（但可能效率较低）

缓解

快速解决scheme

计算地理邻近度的公式

Java double vs BigDecimal的纬度/经度

鉴于经纬度的坐标，我们如何找出城市/国家？

有没有openstreetmap的API？

什么是在半径内查找大表的最快方法MySQL（纬度经度）

如何计算一个球体上一个点到一个线段的距离？

使用MySQL空间扩展来select圆内的点

从经度\纬度转换到笛卡尔坐标

使用空间点types在MySQL中存储Lat Lng值

用R开发地理专题地图

我失败的尝试使用`data.table`