Tag: 聚合

显示所有Elasticsearch聚合结果/桶而不仅仅是10个

我试图列出一个聚合的所有桶,但它似乎只显示前10名。 我的search: curl -XPOST "http://localhost:9200/imoveis/_search?pretty=1" -d' { "size": 0, "aggregations": { "bairro_count": { "terms": { "field": "bairro.raw" } } } }' 返回: { "took" : 2, "timed_out" : false, "_shards" : { "total" : 5, "successful" : 5, "failed" : 0 }, "hits" : { "total" : 16920, "max_score" : 0.0, "hits" : [ ] […]

像kayak.com网站如何聚合内容?

问候,我一直在想着一个新项目的想法,并想知道如果有人有任何想法如何像Kayak.com服务能够如此迅速和准确地聚集来自这么多来源的数据。 更具体地说,您认为Kayak.com是否与API交互,或者他们是否抓取/刮取航空公司和酒店网站以满足用户请求? 我知道这样的事情没有一个正确的答案,但我很想知道别人认为什么是一个好方法去做这件事情。 如果有帮助,假装你明天创buildkayak.com …你的数据从哪里来?

ElasticSearch多层次的父子聚合

我有一个3级的父母/孩子结构。 我们说: 公司 – >员工 – >可用性 由于可用性(也是员工)在这里经常更新,我select使用父/子结构对嵌套。 而searchfunction正常工作(所有文件在正确的碎片)。 现在我想sorting这些结果。 通过来自公司(第一级)的元数据进行sorting非常简单。 但是我还需要按第三级(可用性)进行sorting。 我想要按以下sorting的公司列表: 距离ASC的位置 评级DESC 最快的可用性ASC 例如: A公司距离5英里,评级为4,最快的员工在20小时内可用,B公司也在5英里以外,也有4个等级,但最快的员工在5个小时内可用。 所以sorting结果需要是B,A 我想为每个数据添加特殊的权重,所以我开始编写可以在我的custom_score脚本中使用的聚合。 完整的要点,用于创build索引,导入数据和search 现在,我设法写了一个实际返回结果的查询,但可用性聚合桶是空的。 但是,我也得到的结​​果太结构化,我想扁平化他们。 目前我回来了: 公司IDS – >员工IDS – >第一个可用性 我想要聚合像: 公司IDS – >第一可用性 这样我就可以做我的custom_score脚本来计算分数并正确地sorting它们。 更简化的问题: 如何sorting/聚合多层次(盛大)的孩子,并可能使结果变平。

data.frame分组按列

我有一个dataframeDF。 说DF是: AB 1 1 2 2 1 3 3 2 3 4 3 5 5 3 6 现在我想把列A中的行组合在一起,并得到列B的总和。 例如: AB 1 1 5 2 2 3 3 3 11 我正在使用sqldf函数使用SQL查询。 但由于某种原因,它非常缓慢。 有没有更方便的方法来做到这一点? 我也可以使用for循环手动执行它,但是它又慢了。 我的SQL查询是“select一个,从DF组从A计数(B)”。 一般来说,当我不使用向量化操作时,我使用for循环,即使对于单个过程,性能也是非常慢的。

Java中Aggregation和Composition之间的实现差异

我意识到聚合与合成之间的概念差异。 有人可以告诉我他们之间的Java实现差异与例子吗?

汇总给定列上的数据框并显示另一列

我有以下forms的R中的数据框: > head(data) Group Score Info 1 1 1 a 2 1 2 b 3 1 3 c 4 2 4 d 5 2 3 e 6 2 1 f 我想要使​​用max函数在Score列之后进行聚合 > aggregate(data$Score, list(data$Group), max) Group.1 x 1 1 3 2 2 4 但是我也希望显示与每个组的Score列的最大值相关的Info列。 我不知道如何做到这一点。 我期望的输出将是: Group.1 xy 1 1 3 c 2 2 4 […]

C#Linq Group By多列

public class ConsolidatedChild { public string School { get; set; } public string Friend { get; set; } public string FavoriteColor { get; set; } public List<Child> Children { get; set; } } public class Child { public string School { get; set; } public string Name { get; set; } public string Address { […]

有条件地应用function

我有这样的数据框: experiment iter results A 1 30.0 A 2 23.0 A 3 33.3 B 1 313.0 B 2 323.0 B 3 350.0 …. 有没有办法通过应用具有条件的函数来计算结果。 在上面的例子中,这个条件是特定实验的所有迭代。 A sum of results (30 + 23, + 33.3) B sum of results (313 + 323 + 350) 我正在考虑“应用”function,但无法find工作的方法。

按组提取对应variables最小值的行

我希望(1)用一个variables( State )对数据进行分组,(2)在每个组内find另一个variables( Employees )的最小值的行,并且(3)提取整个行。 (1)和(2)是简单的一行,我觉得(3)也应该是,但我不明白。 这是一个示例数据集: > data State Company Employees 1 AK A 82 2 AK B 104 3 AK C 37 4 AK D 24 5 RI E 19 6 RI F 118 7 RI G 88 8 RI H 42 data <- structure(list(State = structure(c(1L, 1L, 1L, 1L, 2L, 2L, 2L, […]

在数据框中提取每个组内的最大值

我有一个数据框与分组variables(“基因”)和值variables(“价值”): Gene Value A 12 A 10 B 3 B 5 B 6 C 1 D 3 D 4 对于我的分组variables的每个级别,我希望提取最大值。 结果应该是一个数据框,每个级别的分组variables有一行: Gene Value A 12 B 6 C 1 D 4 aggregate做到这一点吗?