用于neural network训练的数据集

我正在寻找一些相对简单的数据集来testing和比较不同的人工neural network训练方法。 我希望数据不会花费太多的预处理来将其转换为input和输出列表(标准化为0-1)的input格式。 任何链接赞赏。

为什么不尝试像sin函数那样简单的训练数据呢? 既然你正在比较训练方法,并不真正关心你正在训练networking,它应该可以工作,而且很容易生成训练数据。

使用sin(x)训练networking,其中x是input,输出是函数的值。 在你的情况下一个额外的好处是结果的绝对值已经在0-1的范围内。 它同样适用于其他mathfunction。

https://archive.ics.uci.edu/ml是加州大学尔湾分校的机器学习数据库。; 这是一个非常好的资源,我相信它们都是CSV文件。

有些资源是

我不认为你需要大量的预处理。 就像分类variables一样,您可以使用GUI文本编辑器快速replace二进制文件。 例如, 鲍鱼数据集有一个分类属性Gender,男性有三个“M”,女性有“F”,婴儿有“I”。 您可以在文本编辑器中按Ctrl + R,并用1,0,0replace所有出现的“M”,所有出现的“F”用0,1,0和所有出现的“I”用0,0,1 (考虑到文件是CSV格式)。 这将快速replace分类variables。

如果你在R中 ,那么你可以使用RSNNS软件包附带的normalizeData函数来扩展和规范你的数据在0和1。

如果你在其他环境如八度或matlab ,你可以花一些时间写你的代码。 我不知道在这些环境中可用的function,我使用我的代码来缩放和/或标准化数据。

当您使用function时,您的工作变得更容易,一旦您准备好数据,将修改的数据保存在文件中。

记住一件事,培训neural network的目标不仅仅是训练networking,使其在某个训练集上运行良好。 主要目标是训练networking,使其对networking没有看到的(直接或间接)新数据具有最佳的误差。

以下是一些用于培训目的的手写和其他数据库。

http://www.cs.nyu.edu/~roweis/data.html

作为一个有趣的方面说明,〜roweis在2010年与妻子战斗后自杀身亡: http ://www.huffingtonpost.com/2010/01/14/sam-roweis-nyu-professor-_n_421500.html。

通过使用它们来执行OCR(光学字符识别),我学习了人工neural network作为本科生。 我认为这是一个很好的用例。

扫描两页文本,提取字母并形成训练/testing数据集(例如,8×8像素导致64个input节点),标记数据。 训练ANN并使用testing数据集获得分数。 更改networking拓扑/参数并调整networking以获得最佳分数。