Tag: 文本处理

从文本中检测短语和关键字的algorithm

我有大约100兆字节的文本,没有任何标记,分为大约10,000条目。 我想自动生成一个“标签”列表。 问题是,有一些词组(即短语)在分组在一起时才有意义。 如果我只是把这些单词计算在内,我会得到大量真正常见的单词(是,在,在,等等)。 我已经统计了之前和之后的单词和其他单词的数量,但现在我真的不知道下一步该怎么做了。关于2和3个单词短语的信息是存在的,但是如何提取这些数据呢?

如何获取Bashvariables的第一个字母?

我有一个Bashvariables, $word ,有时是一个单词或句子,例如: word="tiger" 要么: word="This is a sentence." 我怎样才能使一个新的Bashvariables,只有在variables中find的第一个字母相等? 例如,以上将是: echo $firstletter t 要么: echo $firstletter T

通过grep删除文本文件中的空行

FILE : hello world foo bar 如何删除这个FILE中的所有空的新行? 命令输出: FILE : hello world foo bar

文字处理 – python vs perl的性能

这里是我的perl和python脚本,从约21个日志文件中进行一些简单的文本处理,每个文件大约300KB到1MB(最多)×5次重复(总共125个文件,由于日志重复5次)。 Python代码 (代码修改为使用编译的re和使​​用re.I) #!/usr/bin/python import re import fileinput exists_re = re.compile(r'^(.*?) INFO.*Such a record already exists', re.I) location_re = re.compile(r'^AwbLocation (.*?) insert into', re.I) for line in fileinput.input(): fn = fileinput.filename() currline = line.rstrip() mprev = exists_re.search(currline) if(mprev): xlogtime = mprev.group(1) mcurr = location_re.search(currline) if(mcurr): print fn, xlogtime, mcurr.group(1) Perl代码 #!/usr/bin/perl while (<>) { chomp; […]

有一个bash命令来统计文件吗?

有一个bash命令来计算匹配模式的文件数量吗? 例如,我想获得一个目录中与这种模式匹配的所有文件的计数: log*

还有什么理由要学习AWK吗?

我不断学习新的工具,甚至老式的工具,因为我喜欢用正确的解决scheme解决问题。 不过,我想知道是否还有理由去学习其中的一些。 例如awk对我来说很有趣,但是对于简单的文本处理,我可以使用grep , cut , sed等,而对于复杂的,我会去Python。 现在我不是说这不是一个强大而方便的工具。 但是,由于学习新工具需要时间和精力, 是否值得呢 ?

从bash中的文件中select随机行

在bash脚本中,我想从input文件中选取N个随机行并输出到另一个文件。 如何才能做到这一点?

如何在Vim中将所有文本转换为小写

你如何将Vim中的所有文本转换为小写? 这甚至有可能吗?

如何在文本文件中replace$ {}占位符?

我想把一个“模板”文件的输出传送到MySQL,这个文件有一些像${dbName}这样的variables。 什么是命令行实用程序来replace这些实例并将输出转储到标准输出?

如何将新的文本行添加到Java中的现有文件?

我想追加一个新的行到现有的文件,而不删除该文件的当前信息。 总之,下面是我使用当前时间的方法: import java.io.BufferedWriter; import java.io.FileWriter; import java.io.Writer; Writer output; output = new BufferedWriter(new FileWriter(my_file_name)); //clears file every time output.append("New Line!"); output.close(); 上述问题与他们正在删除我的现有文件的所有内容,然后添加新的行文本。 我想在文件内容的末尾添加一些文本,而不会擦除或replace任何内容。