Tag: 文本处理

从文本中检测短语和关键字的algorithm: 我有大约100兆字节的文本，没有任何标记，分为大约10,000条目。我想自动生成一个“标签”列表。问题是，有一些词组（即短语）在分组在一起时才有意义。如果我只是把这些单词计算在内，我会得到大量真正常见的单词（是，在，在，等等）。我已经统计了之前和之后的单词和其他单词的数量，但现在我真的不知道下一步该怎么做了。关于2和3个单词短语的信息是存在的，但是如何提取这些数据呢？

如何获取Bashvariables的第一个字母？: 我有一个Bashvariables， $word ，有时是一个单词或句子，例如： word="tiger" 要么： word="This is a sentence." 我怎样才能使一个新的Bashvariables，只有在variables中find的第一个字母相等？例如，以上将是： echo $firstletter t 要么： echo $firstletter T

通过grep删除文本文件中的空行: FILE ： hello world foo bar 如何删除这个FILE中的所有空的新行？命令输出： FILE ： hello world foo bar

文字处理 – python vs perl的性能: 这里是我的perl和python脚本，从约21个日志文件中进行一些简单的文本处理，每个文件大约300KB到1MB（最多）×5次重复（总共125个文件，由于日志重复5次）。 Python代码（代码修改为使用编译的re和使用re.I） #!/usr/bin/python import re import fileinput exists_re = re.compile(r'^(.*?) INFO.*Such a record already exists', re.I) location_re = re.compile(r'^AwbLocation (.*?) insert into', re.I) for line in fileinput.input(): fn = fileinput.filename() currline = line.rstrip() mprev = exists_re.search(currline) if(mprev): xlogtime = mprev.group(1) mcurr = location_re.search(currline) if(mcurr): print fn, xlogtime, mcurr.group(1) Perl代码 #!/usr/bin/perl while (<>) { chomp; […]

还有什么理由要学习AWK吗？: 我不断学习新的工具，甚至老式的工具，因为我喜欢用正确的解决scheme解决问题。不过，我想知道是否还有理由去学习其中的一些。例如awk对我来说很有趣，但是对于简单的文本处理，我可以使用grep ， cut ， sed等，而对于复杂的，我会去Python。现在我不是说这不是一个强大而方便的工具。但是，由于学习新工具需要时间和精力，是否值得呢？

如何在文本文件中replace$ {}占位符？: 我想把一个“模板”文件的输出传送到MySQL，这个文件有一些像${dbName}这样的variables。什么是命令行实用程序来replace这些实例并将输出转储到标准输出？

如何将新的文本行添加到Java中的现有文件？: 我想追加一个新的行到现有的文件，而不删除该文件的当前信息。总之，下面是我使用当前时间的方法： import java.io.BufferedWriter; import java.io.FileWriter; import java.io.Writer; Writer output; output = new BufferedWriter(new FileWriter(my_file_name)); //clears file every time output.append("New Line!"); output.close(); 上述问题与他们正在删除我的现有文件的所有内容，然后添加新的行文本。我想在文件内容的末尾添加一些文本，而不会擦除或replace任何内容。