Tag: 聚合

显示所有Elasticsearch聚合结果/桶而不仅仅是10个: 我试图列出一个聚合的所有桶，但它似乎只显示前10名。我的search： curl -XPOST "http://localhost:9200/imoveis/_search?pretty=1" -d' { "size": 0, "aggregations": { "bairro_count": { "terms": { "field": "bairro.raw" } } } }' 返回： { "took" : 2, "timed_out" : false, "_shards" : { "total" : 5, "successful" : 5, "failed" : 0 }, "hits" : { "total" : 16920, "max_score" : 0.0, "hits" : [ ] […]

像kayak.com网站如何聚合内容？: 问候，我一直在想着一个新项目的想法，并想知道如果有人有任何想法如何像Kayak.com服务能够如此迅速和准确地聚集来自这么多来源的数据。更具体地说，您认为Kayak.com是否与API交互，或者他们是否抓取/刮取航空公司和酒店网站以满足用户请求？我知道这样的事情没有一个正确的答案，但我很想知道别人认为什么是一个好方法去做这件事情。如果有帮助，假装你明天创buildkayak.com …你的数据从哪里来？

ElasticSearch多层次的父子聚合: 我有一个3级的父母/孩子结构。我们说：公司 – >员工 – >可用性由于可用性（也是员工）在这里经常更新，我select使用父/子结构对嵌套。而searchfunction正常工作（所有文件在正确的碎片）。现在我想sorting这些结果。通过来自公司（第一级）的元数据进行sorting非常简单。但是我还需要按第三级（可用性）进行sorting。我想要按以下sorting的公司列表：距离ASC的位置评级DESC 最快的可用性ASC 例如： A公司距离5英里，评级为4，最快的员工在20小时内可用，B公司也在5英里以外，也有4个等级，但最快的员工在5个小时内可用。所以sorting结果需要是B，A 我想为每个数据添加特殊的权重，所以我开始编写可以在我的custom_score脚本中使用的聚合。完整的要点，用于创build索引，导入数据和search 现在，我设法写了一个实际返回结果的查询，但可用性聚合桶是空的。但是，我也得到的结果太结构化，我想扁平化他们。目前我回来了：公司IDS – >员工IDS – >第一个可用性我想要聚合像：公司IDS – >第一可用性这样我就可以做我的custom_score脚本来计算分数并正确地sorting它们。更简化的问题：如何sorting/聚合多层次（盛大）的孩子，并可能使结果变平。

data.frame分组按列: 我有一个dataframeDF。说DF是： AB 1 1 2 2 1 3 3 2 3 4 3 5 5 3 6 现在我想把列A中的行组合在一起，并得到列B的总和。例如： AB 1 1 5 2 2 3 3 3 11 我正在使用sqldf函数使用SQL查询。但由于某种原因，它非常缓慢。有没有更方便的方法来做到这一点？我也可以使用for循环手动执行它，但是它又慢了。我的SQL查询是“select一个，从DF组从A计数（B）”。一般来说，当我不使用向量化操作时，我使用for循环，即使对于单个过程，性能也是非常慢的。

Java中Aggregation和Composition之间的实现差异: 我意识到聚合与合成之间的概念差异。有人可以告诉我他们之间的Java实现差异与例子吗？

汇总给定列上的数据框并显示另一列: 我有以下forms的R中的数据框： > head(data) Group Score Info 1 1 1 a 2 1 2 b 3 1 3 c 4 2 4 d 5 2 3 e 6 2 1 f 我想要使用max函数在Score列之后进行聚合 > aggregate(data$Score, list(data$Group), max) Group.1 x 1 1 3 2 2 4 但是我也希望显示与每个组的Score列的最大值相关的Info列。我不知道如何做到这一点。我期望的输出将是： Group.1 xy 1 1 3 c 2 2 4 […]

C＃Linq Group By多列: public class ConsolidatedChild { public string School { get; set; } public string Friend { get; set; } public string FavoriteColor { get; set; } public List<Child> Children { get; set; } } public class Child { public string School { get; set; } public string Name { get; set; } public string Address { […]

有条件地应用function: 我有这样的数据框： experiment iter results A 1 30.0 A 2 23.0 A 3 33.3 B 1 313.0 B 2 323.0 B 3 350.0 …. 有没有办法通过应用具有条件的函数来计算结果。在上面的例子中，这个条件是特定实验的所有迭代。 A sum of results (30 + 23, + 33.3) B sum of results (313 + 323 + 350) 我正在考虑“应用”function，但无法find工作的方法。

按组提取对应variables最小值的行: 我希望（1）用一个variables（ State ）对数据进行分组，（2）在每个组内find另一个variables（ Employees ）的最小值的行，并且（3）提取整个行。（1）和（2）是简单的一行，我觉得（3）也应该是，但我不明白。这是一个示例数据集： > data State Company Employees 1 AK A 82 2 AK B 104 3 AK C 37 4 AK D 24 5 RI E 19 6 RI F 118 7 RI G 88 8 RI H 42 data <- structure(list(State = structure(c(1L, 1L, 1L, 1L, 2L, 2L, 2L, […]

在数据框中提取每个组内的最大值: 我有一个数据框与分组variables（“基因”）和值variables（“价值”）： Gene Value A 12 A 10 B 3 B 5 B 6 C 1 D 3 D 4 对于我的分组variables的每个级别，我希望提取最大值。结果应该是一个数据框，每个级别的分组variables有一行： Gene Value A 12 B 6 C 1 D 4 aggregate做到这一点吗？