Tag: tokenize

如何摆脱标点符号使用NLTK tokenizer?

我刚刚开始使用NLTK,我不太明白如何从文本中获取单词列表。 如果我使用nltk.word_tokenize() ,我会得到一个单词和标点符号列表。 我只需要这个词。 我怎样才能摆脱标点符号? 此外, word_tokenize不适用于多个句子:点被添加到最后一个单词。

如何在java中引用数据之间的数据?

我有这样的文字行数可以改变如: Here just one "comillas" But I also could have more "mas" values in "comillas" and that "is" the "trick" I was thinking in a method that return "a" list of "words" that "are" between "comillas" 我如何获得报价之间的数据结果应该是? 科米利亚斯 mas,comillas,把戏 a,单词,是,comillas

在PL / SQL中将逗号分隔的string转换为数组

如何将逗号分隔的string转换为数组? 我有input' 1,2,3' ,我需要将其转换为数组。

如何从Lucene TokenStream获取令牌?

我正在尝试使用Apache Lucene进行标记,而我对从TokenStream获取标记的过程感到困惑。 最糟糕的部分是我正在查看解决我的问题的JavaDoc中的注释。 http://lucene.apache.org/java/3_0_1/api/core/org/apache/lucene/analysis/TokenStream.html#incrementToken%28%29 不知何故,一个AttributeSource应该被使用,而不是Token 。 我完全不知所措 任何人都可以解释如何从TokenStream获取类似令牌的信息?

如何使用stringstream来分隔逗号分隔的string

我有以下代码: std::string str = "abc def,ghi"; std::stringstream ss(str); string token; while (ss >> token) { printf("%s\n", token.c_str()); } 输出是: ABC DEF,GHI 所以stringstream::>>运算符可以用空格分隔string,但不能用逗号分开。 无论如何修改上面的代码,以便我可以得到以下结果? input :“abc,def,ghi” 输出 : ABC 高清 GHI

在C中嵌套strtok函数问题

我有这样的string: a;b;c;d;e f;g;h;i;j 1;2;3;4;5 我想分析它的元素。 我使用嵌套的strtok函数,但它只是分割第一行,并使空指令指针。 我怎么能克服这个? 这里是代码: token = strtok(str, "\n"); while(token != NULL && *token != EOF) { char a[128], b[128]; strcpy(a,token); strcpy(b,a); printf("a:%s\n",a); char *token2 = strtok(a,";"); while(token2 != NULL) { printf("token2 %s\n",token2); token2 = strtok(NULL,";"); } strcpy(token,b); token = strtok(NULL, "\n"); if(token == NULL) { printf("its null"); } } 输出: token […]

如何在oracle中将csv转换为表

如何创build一个以csv值forms传递结果的包。 select * from table(schema.mypackage.myfunction('one, two, three')) 应该返回 one two three 我尝试了一些问题汤姆,但只适用于SQLtypes。 我正在使用oracle 11g。 有内置的东西吗?

如何在oracle 9i中最好地分割csvstring

我希望能够在Oracle 9i中分割csvstring 我读过以下文章http://www.oappssurd.com/2009/03/string-split-in-oracle.html 但我不明白如何使这项工作。 这里有一些与我有关的问题 这将在Oracle 9i中工作,如果没有,为什么不呢? 有没有更好的方法去分裂csvstring,然后提出上面的解决scheme? 我需要创build一个新的types? 如果是这样,我需要特定privilages呢? 我可以在函数中声明types吗?

有没有一个函数在PL / SQL中拆分string?

我需要编写一个过程来标准化一个logging,这个logging有多个由一个字符连接的令牌。 我需要获得这些令牌拆分string,并插入每个作为一个新的logging在表中。 Oracle是否有类似“分裂”function的东西?