MySQL“Group By”和“Order By”

我希望能够从电子邮件表中select一堆行，并通过发件人进行分组。我的查询如下所示：

SELECT `timestamp`, `fromEmail`, `subject` FROM `incomingEmails` GROUP BY LOWER(`fromEmail`) ORDER BY `timestamp` DESC

查询几乎按我的意愿工作 – 它select按电子邮件分组的logging。问题是主题和时间戳不对应于特定电子邮件地址的最近logging。

例如，它可能会返回：

 fromEmail: john@example.com, subject: hello fromEmail: mark@example.com, subject: welcome

当数据库中的logging是：

 fromEmail: john@example.com, subject: hello fromEmail: john@example.com, subject: programming question fromEmail: mark@example.com, subject: welcome

如果“编程问题”主题是最新的，那么在分组电子邮件时如何让MySQLselect该logging？

一个简单的解决scheme是将查询包装到子查询中，首先使用ORDER语句， 稍后再应用GROUP BY：

 SELECT * FROM ( SELECT `timestamp`, `fromEmail`, `subject` FROM `incomingEmails` ORDER BY `timestamp` DESC ) AS tmp_table GROUP BY LOWER(`fromEmail`)

这与使用连接类似，但看起来好多了。

在具有GROUP BY子句的SELECT中使用非聚合列是非标准的。 MySQL通常会返回find的第一行的值，并丢弃其余的值。任何ORDER BY子句将只适用于返回的列值，而不是放弃的列值。

重要更新select在实践中用于工作的非聚合列，但不应该被依赖。根据MySQL文档， “这非常有用，因为每个非GROUP BY列中的所有非聚集列中的值都是相同的，服务器可以自由select每个组中的任何值 ， 除非它们相同，select是不确定的“ 。

从5.6.21我已经注意到在临时表恢复ORDER BYsorting问题与GROUP BY。

从5.7.5开始，默认情况下启用ONLY_FULL_GROUP_BY，即不可能使用非聚合列。

请参阅http://www.cafewebmaster.com/mysql-order-sort-group https://dev.mysql.com/doc/refman/5.6/en/group-by-handling.html https：//dev.mysql的.com / DOC / refman / 5.7 / EN /组逐handling.html

这里有一个方法：

 SELECT cur.textID, cur.fromEmail, cur.subject, cur.timestamp, cur.read FROM incomingEmails cur LEFT JOIN incomingEmails next on cur.fromEmail = next.fromEmail and cur.timestamp < next.timestamp WHERE next.timestamp is null and cur.toUserID = '$userID' ORDER BY LOWER(cur.fromEmail)

基本上，你自己join表格，search后面的行。在where子句中，您声明不能有更晚的行。这只给你最新的一行。

如果可以有多个电子邮件具有相同的时间戳，这个查询将需要改进。如果电子邮件表中存在增量ID列，请更改JOIN，如：

 LEFT JOIN incomingEmails next on cur.fromEmail = next.fromEmail and cur.id < next.id

在ORDER BY之后通过用GROUP BY包装查询来执行GROUP BY，如下所示：

 SELECT t.* FROM (SELECT * FROM table ORDER BY time DESC) t GROUP BY t.from

根据SQL标准，您不能在select列表中使用非聚合列。 MySQL允许使用这种用法（使用了无所谓ONLY_FULL_GROUP_BY模式），但结果是不可预测的。

ONLY_FULL_GROUP_BY

你应该先selectfromEmail，MIN（read），然后用第二个查询（或子查询） – Subject。

正如已经指出的那样，现在的答案是错误的，因为GROUP BY任意从窗口中selectlogging。

如果你正在使用MySQL 5.6或者MySQL 5.7和ONLY_FULL_GROUP_BY ，那么正确的（确定的）查询是：

 SELECT incomingEmails.* FROM ( SELECT fromEmail, MAX(timestamp) `timestamp` FROM incomingEmails GROUP BY fromEmail ) filtered_incomingEmails JOIN incomingEmails USING (fromEmail, timestamp) GROUP BY fromEmail, timestamp

为了使查询有效地运行，需要正确的索引。

请注意，为了简化目的，我已经删除了LOWER() ，在大多数情况下，它不会被使用。

为了更复杂的查询，我努力使用这两种方法，因为无论我使用什么索引，子查询的方法都是非常糟糕的，因为我无法通过Hibernate获得外部自连接

最好的（也是最简单的）方法是按照一些东西构build组合，这些东西包含所需字段的连接，然后使用SELECT子句中的expression式将其拉出。如果您需要执行MAX（），请确保您要MAX（）的字段始终位于串联实体的最重要的一端。

理解这个问题的关键是，如果这些其他字段对于任何满足Max（）的实体都是不变的，那么查询只能是有意义的，因此就sorting而言，其他的连接可以被忽略。它解释了如何在这个链接的最底部做到这一点。 http://dev.mysql.com/doc/refman/5.0/en/group-by-hidden-columns.html

如果你可以得到插入/更新事件（比如触发器）来预先计算字段的连接，你可以对它进行索引，查询速度就如同组中的字段实际上是你想要的那样MAX（）。你甚至可以使用它来获得多个字段的最大值。我用它来对多维树进行查询，表示为嵌套集。