Tag: 数据挖掘

R和数据挖掘

相反,开始在Matlab中编写代码,我最近开始学习R,主要是因为它是开源的。 我目前在数据挖掘和机器学习领域工作。 我发现在R中实现了很多机器学习algorithm,而且我仍然在探索在R中实现的不同包。 我有一个很快的问题:你如何比较R与Matlab的数据挖掘应用程序,其stream行程度,利弊,行业和学术接受度等? 你会select哪一个,为什么? 我经历了各种比较的Matlab与R对各种指标,但我特别感兴趣的是在Data Mining和ML的适用性得到答案。 既然这两种语言对我来说都很新,我只是想知道R是不是一个好的select。 我很欣赏任何types的build议。

如何提取文本中使用的关键字?

如何通过使用数据挖掘一堆文本来获取关键字? (“雅各布·史密斯”或“围栏”) 有没有一个软件可以做到这一点? 甚至是半自动的,如果能过滤出“the”,“and”,“or”这样的简单单词,那么我就可以更快地进入话题。

梯度下降与牛顿梯度下降有什么区别?

我了解渐变下降是什么。 基本上它试图通过缓慢地向下移动曲线来朝着局部最佳解决scheme迈进。 我想了解计划梯度下降和牛顿方法之间的实际区别是什么? 从维基百科,我读了这个简短的一行“牛顿的方法使用曲率信息采取更直接的路线”。 这是什么意思?

决策树与朴素贝叶斯分类器

我正在做一些关于不同的数据挖掘技术的研究,并且遇到了一些我无法想象的东西。 如果任何人有任何想法,将是伟大的。 在哪种情况下最好使用决策树和其他情况下的朴素贝叶斯分类器? 为什么在某些情况下使用其中之一? 另一个在不同的情况下? (通过查看其function,而不是algorithm) 任何人有关于此的一些解释或参考?

R随机森林variables重要性

我正在尝试在R中使用随机森林包进行分类。 列出的variables重要性措施是: 意味着等级0的variablesx的原始重要性分数 意思是等级1的variablesx的原始重要性分数 MeanDecreaseAccuracy MeanDecreaseGini 现在我知道这些“意思”是什么,因为我知道他们的定义。 我想知道的是如何使用它们。 我真正想知道的是,这些价值观的含义只在于它们的准确性如何,价值是什么,价值是什么,什么是最高和最低等等。 如果一个variables具有较高的MeanDecreaseAccuracy或MeanDecreaseGini ,那么这是否意味着它是重要的还是不重要的? 此外,关于原始分数的任何信息也可能有用。 我想知道所有关于这些数字的知识,这些数字与它们的应用有关。 使用“错误”,“求和”或“置换”这样的词语的解释将不那么有用,那么简单的解释就不会涉及随机森林如何工作的讨论。 就像我想让某人向我解释如何使用收音机一样,我也不会期望这个解释涉及到无线电如何将无线电波转化为声音。

如何处理数字猜测游戏(一个扭曲)algorithm?

我正在学习编程(python和algorithm),并试图在一个我觉得有趣的项目上工作。 我已经创build了几个基本的Python脚本,但我不知道如何解决我正在尝试构build的游戏的解决scheme。 以下是游戏的运作方式: 用户将被赋予具有价值的项目。 例如 Apple = 1 Pears = 2 Oranges = 3 他们将有机会select他们喜欢的任何组合(即100个苹果,20个梨子和1个桔子)。 计算机唯一的输出是总价值(在这个例子中,目前是143美元)。 电脑会试图猜测他们有什么。 这显然不能够正确的第一回合。 Value quantity(day1) value(day1) Apple 1 100 100 Pears 2 20 40 Orange 3 1 3 Total 121 143 接下来用户可以修改他们的数量,但不超过总数量的5%(或者我们可能select的其他百分比,例如5%)。 水果的价格可以随意改变,所以总价值也可以改变(为了简单起见,我不改变水果价格)。 使用上面的例子,在游戏的第二天,用户在第三天返回一个$ 152和$ 164的值。下面是一个例子。 quantity(day2) %change(day2) value(day2) quantity(day3) %change(day3) value(day3) 104 104 106 106 21 42 23 46 […]

期望最大化技术的直观解释是什么?

期望最大化如果一种概率的方法来分类数据。 如果不是分类,请纠正我的错误。 什么是这种EM技术的直观解释? 这里的期待是什么,什么是最大化?

线性回归和逻辑回归有什么区别?

当我们必须预测分类结果的价值时,我们使用逻辑回归。 我相信我们使用线性回归来预测给定input值的结果的价值。 那么,这两种方法有什么区别呢?

为什么一个热门编码可以提高机器学习性能?

我注意到,当一个热门编码被用在一个特定的数据集(一个matrix)上,并用作学习algorithm的训练数据时,与使用原始matrix本身作为训练数据相比,它在预测准确性方面显示了更好的结果。 这种性能如何增长?

亚马逊推荐function如何工作?

亚马逊推荐技术的屏幕背后有什么技术? 我相信亚马逊的推荐目前是市场上最好的,但是他们如何为我们提供这样的相关build议呢? 最近,我们已经参与了类似的推荐类项目,但是从技术的angular度来看,肯定会想知道亚马逊推荐技术的来龙去脉。 任何投入将不胜感激。 更新: 这个专利解释了如何完成个性化的build议,但这不是很技术性的,所以如果能够提供一些见解,这将是非常好的。 从戴夫的评论中, 亲和力分析构成了这种推荐引擎的基础。 这里还有一些关于主题的好消息 揭秘市场篮子分析 市场篮子分析 亲和性分析 推荐阅读: 数据挖掘:概念和技术