Tag: 重复删除

如何从MySQL数据库中删除重复的条目?

我有一张桌子,上面有一些ids +标题。 我想使标题栏独一无二,但是它已经有超过60万条logging,其中一些是重复的(有时候是几十倍)。 我如何删除所有重复项,除了一个,所以我可以添加一个UNIQUE键后标题列?

寻找近似重复logging的技术

我试图清理一个数据库,多年来,已经获得了许多重复logging,名称略有不同。 例如,在公司表中,有“Some Company Limited”和“Some Company LTD!”这样的名称。 我的计划是将违规表导出为R,将名称转换为小写,replace常见的同义词(如“limited” – >“ltd”), agrep非字母字符,然后使用agrep来查看相似的内容。 我的第一个问题是, agrep只接受一个匹配的模式,并且循环每个公司名称以匹配其他公司是慢的。 (有些表格需要清理,有几十个,可能有几十万个名字需要检查。) 我非常简单地看了一下tm包( JSS文章 ),它看起来非常强大,但是适用于分析大块文本,而不仅仅是名称。 我有几个相关的问题: tm包是否适合这类任务? 有更快的selectagrep ? (所述函数使用Levenshtein编辑距离,这是非常慢的)。 除了agrep和tm之外,R中还有其他合适的工具吗? 我甚至应该在R中这样做,还是应该直接在数据库中完成这种事情呢? (这是一个Access数据库,所以如果可能的话,我宁愿避免碰它。)

在data.table中过滤掉重复/非唯一的行

我有一个约250万行data.table表。 有两列。 我想要删除两列中重复的行。 以前对于data.frame,我会做这个: df -> unique(df[,c('V1', 'V2')])但是这不适用于data.table。 我试过unique(df[,c(V1,V2), with=FALSE])但它似乎仍然只对data.table的键而不是整行进行操作。 有什么build议么? 干杯,戴维 例 >dt V1 V2 [1,] AB [2,] AC [3,] AD [4,] AB [5,] BA [6,] CD [7,] CD [8,] EF [9,] GG [10,] AB 在上面的data.table中, V2是表键,只有行4,7和10将被删除。 > dput(dt) structure(list(V1 = c("B", "A", "A", "A", "A", "A", "C", "C", "E", "G"), V2 = c("A", […]

获取连接表格列的不同总和

我在这里有一个问题,我希望有一个简单的解决scheme。 我会尽可能简单地做到这一点: 一张票属于一个参加者 例: select * from tickets JOIN attendees ON attendee.id = tickets.attendee_id 与会者有一个称为“收入”的小数列 也就是说,我需要运行一个查询,返回有关门票的各种信息,包括总收入。 问题是,如果2张门票属于同一个参与者,那么它会将收入计入两次。 我如何才能将与会者的收入总计一次? 我不想使用子查询,因为我的ORM使这很难。 另外一个子查询解决scheme不能缩放,如果我想这样做多个列。 这是我有: 1位参与者,收入为100美元 两张门票都属于该参与者 Select count(tickets.*) as tickets_count , sum(attendees.revenue) as atendees_revenue from tickets LEFT OUTER JOIN attendees ON attendees.id = tickets.attendee_id; =>这告诉我, attendees_revenue是200.我希望它是100.因为在数据库中有一个参与者与existing_revenue为100.我不希望与会者被重复计数。 请让我知道这是否可能。

从NumPy 2D数组中删除重复的列和行

我正在使用2D形状arrays来存储经度+纬度对。 有一点,我必须合并这些二维数组中的两个,然后删除任何重复的条目。 我一直在寻找一个类似numpy.unique的function,但我没有运气。 我一直在想的任何实现看起来都非常“没有优化”。 例如,我试图将数组转换为元组列表,删除重复的集合,然后再次转换为数组: coordskeys = np.array(list(set([tuple(x) for x in coordskeys]))) 有没有现有的解决scheme,所以我不重新发明轮子? 为了说清楚,我正在寻找: >>> a = np.array([[1, 1], [2, 3], [1, 1], [5, 4], [2, 3]]) >>> unique_rows(a) array([[1, 1], [2, 3],[5, 4]]) 顺便说一句,我只想使用它的元组列表,但列表是如此之大,他们消耗我的4Gb RAM + 4Gb交换(numpy数组更有效率)。

如何合并2 List <T>与在C#中删除重复值

我有两个列表列表,我需要合并和删除两个列表的重复值 有点难以解释,所以让我展示一下代码的样子,以及我想要的样例,我使用inttypes而不是ResultAnalysisFileSql类。 first_list = [1,12,12,5] second_list = [12,5,7,9,1] 结合这两个列表的结果应该导致这个列表:results_list = [1,12,5,7,9] 你会注意到结果有第一个列表,包括它的两个“12”值,在second_list中有另外的12,1和5的值。 ResultAnalysisFileSql类 [Serializable] public partial class ResultAnalysisFileSql { public string FileSql { get; set; } public string PathFileSql { get; set; } public List<ErrorAnalysisSql> Errors { get; set; } public List<WarningAnalysisSql> Warnings{ get; set; } public ResultAnalysisFileSql() { } public ResultAnalysisFileSql(string fileSql) { if […]

删除没有主键的SQL表中的重复logging

我有下面的表格中的下面的logging create table employee ( EmpId number, EmpName varchar2(10), EmpSSN varchar2(11) ); insert into employee values(1, 'Jack', '555-55-5555'); insert into employee values (2, 'Joe', '555-56-5555'); insert into employee values (3, 'Fred', '555-57-5555'); insert into employee values (4, 'Mike', '555-58-5555'); insert into employee values (5, 'Cathy', '555-59-5555'); insert into employee values (6, 'Lisa', '555-70-5555'); insert into […]

如何在没有临时表的情况下删除MySQL表中的所有重复logging

我已经看到了一些变化,但没有什么完全符合我想要完成的。 我有一个表格TableA,其中包含用户给出的可configuration调查问卷的答案。 列是member_id,quiz_num,question_num,answer_num。 不知何故,有几个成员提交了两次答案。 所以我需要删除重复的logging,但要确保留下一行。 没有“主要”列,因此可能有两三行全部具有完全相同的数据。 是否有查询删除所有重复?

删除重复的行(不要删除所有重复的)

我正在使用postgres。 我想删除重复的行。 条件是,从一组重复行中的1个副本不会被删除。 即:如果有5个重复logging,则其中4个将被删除。

如何删除重复的条目?

我必须添加一个唯一的约束到现有的表。 这很好,除了表已经有数百万行了,许多行违反了我需要添加的唯一约束。 什么是删除违规行最快的方法? 我有一个SQL语句,它find重复项并删除它们,但它是永远运行。 有没有另一种方法来解决这个问题? 也许备份表,然后在添加约束后恢复?