Tag: 数据挖掘

R和数据挖掘: 相反，开始在Matlab中编写代码，我最近开始学习R，主要是因为它是开源的。我目前在数据挖掘和机器学习领域工作。我发现在R中实现了很多机器学习algorithm，而且我仍然在探索在R中实现的不同包。我有一个很快的问题：你如何比较R与Matlab的数据挖掘应用程序，其stream行程度，利弊，行业和学术接受度等？你会select哪一个，为什么？我经历了各种比较的Matlab与R对各种指标，但我特别感兴趣的是在Data Mining和ML的适用性得到答案。既然这两种语言对我来说都很新，我只是想知道R是不是一个好的select。我很欣赏任何types的build议。

如何提取文本中使用的关键字？: 如何通过使用数据挖掘一堆文本来获取关键字？（“雅各布·史密斯”或“围栏”）有没有一个软件可以做到这一点？甚至是半自动的，如果能过滤出“the”，“and”，“or”这样的简单单词，那么我就可以更快地进入话题。

梯度下降与牛顿梯度下降有什么区别？: 我了解渐变下降是什么。基本上它试图通过缓慢地向下移动曲线来朝着局部最佳解决scheme迈进。我想了解计划梯度下降和牛顿方法之间的实际区别是什么？从维基百科，我读了这个简短的一行“牛顿的方法使用曲率信息采取更直接的路线”。这是什么意思？

决策树与朴素贝叶斯分类器: 我正在做一些关于不同的数据挖掘技术的研究，并且遇到了一些我无法想象的东西。如果任何人有任何想法，将是伟大的。在哪种情况下最好使用决策树和其他情况下的朴素贝叶斯分类器？为什么在某些情况下使用其中之一？另一个在不同的情况下？（通过查看其function，而不是algorithm）任何人有关于此的一些解释或参考？

R随机森林variables重要性: 我正在尝试在R中使用随机森林包进行分类。列出的variables重要性措施是：意味着等级0的variablesx的原始重要性分数意思是等级1的variablesx的原始重要性分数 MeanDecreaseAccuracy MeanDecreaseGini 现在我知道这些“意思”是什么，因为我知道他们的定义。我想知道的是如何使用它们。我真正想知道的是，这些价值观的含义只在于它们的准确性如何，价值是什么，价值是什么，什么是最高和最低等等。如果一个variables具有较高的MeanDecreaseAccuracy或MeanDecreaseGini ，那么这是否意味着它是重要的还是不重要的？此外，关于原始分数的任何信息也可能有用。我想知道所有关于这些数字的知识，这些数字与它们的应用有关。使用“错误”，“求和”或“置换”这样的词语的解释将不那么有用，那么简单的解释就不会涉及随机森林如何工作的讨论。就像我想让某人向我解释如何使用收音机一样，我也不会期望这个解释涉及到无线电如何将无线电波转化为声音。

如何处理数字猜测游戏（一个扭曲）algorithm？: 我正在学习编程（python和algorithm），并试图在一个我觉得有趣的项目上工作。我已经创build了几个基本的Python脚本，但我不知道如何解决我正在尝试构build的游戏的解决scheme。以下是游戏的运作方式：用户将被赋予具有价值的项目。例如 Apple = 1 Pears = 2 Oranges = 3 他们将有机会select他们喜欢的任何组合（即100个苹果，20个梨子和1个桔子）。计算机唯一的输出是总价值（在这个例子中，目前是143美元）。电脑会试图猜测他们有什么。这显然不能够正确的第一回合。 Value quantity(day1) value(day1) Apple 1 100 100 Pears 2 20 40 Orange 3 1 3 Total 121 143 接下来用户可以修改他们的数量，但不超过总数量的5％（或者我们可能select的其他百分比，例如5％）。水果的价格可以随意改变，所以总价值也可以改变（为了简单起见，我不改变水果价格）。使用上面的例子，在游戏的第二天，用户在第三天返回一个$ 152和$ 164的值。下面是一个例子。 quantity(day2) %change(day2) value(day2) quantity(day3) %change(day3) value(day3) 104 104 106 106 21 42 23 46 […]

期望最大化技术的直观解释是什么？: 期望最大化如果一种概率的方法来分类数据。如果不是分类，请纠正我的错误。什么是这种EM技术的直观解释？这里的期待是什么，什么是最大化？

线性回归和逻辑回归有什么区别？: 当我们必须预测分类结果的价值时，我们使用逻辑回归。我相信我们使用线性回归来预测给定input值的结果的价值。那么，这两种方法有什么区别呢？

为什么一个热门编码可以提高机器学习性能？: 我注意到，当一个热门编码被用在一个特定的数据集（一个matrix）上，并用作学习algorithm的训练数据时，与使用原始matrix本身作为训练数据相比，它在预测准确性方面显示了更好的结果。这种性能如何增长？

亚马逊推荐function如何工作？: 亚马逊推荐技术的屏幕背后有什么技术？我相信亚马逊的推荐目前是市场上最好的，但是他们如何为我们提供这样的相关build议呢？最近，我们已经参与了类似的推荐类项目，但是从技术的angular度来看，肯定会想知道亚马逊推荐技术的来龙去脉。任何投入将不胜感激。更新：这个专利解释了如何完成个性化的build议，但这不是很技术性的，所以如果能够提供一些见解，这将是非常好的。从戴夫的评论中，亲和力分析构成了这种推荐引擎的基础。这里还有一些关于主题的好消息揭秘市场篮子分析市场篮子分析亲和性分析推荐阅读：数据挖掘：概念和技术