首页 > 解决方案 > 从字符串中提取单词(单词用空格和制表符分隔,可能有多个)

问题描述

我正在尝试在 C 中创建一个从文件读取输入的程序,让它Input.inp包含带有用空格和制表符分隔的单词的字符串,可能是多个然后写入文件Output.out,每个单词都在一行。例如,输入文件包含

Hi  my name         is Yang

那么输出文件将如下所示

Hi
my
name 
is 
Yang

此外,如果程序到达文件结尾或到达“#”,程序将停止读取。

下面是我的代码。我从文件中获取字符,然后检查它是“#”还是文件结尾。如果不是,那么它将检查字符是空格、制表符还是行尾。如果不是,则该字符将被放入字符串“word”中。现在,如果我们到达空格、制表符或行尾,那么我将打印字符串“word”,设置pos回 0 并继续执行此操作。但这不起作用。有人可以解释为什么我的代码失败并为我提供如何解决这个问题的方向吗?

#include <stdio.h>
#include <string.h>
#include <stdlib.h>

#define maxn 300

int main(){
    FILE *fin, *fout;
    fin = fopen("splitwords.inp", "r");
    fout = fopen("splitwords.txt", "w");
    char buffer[maxn], word[maxn], ch, d;
    int i, pos = 0;

    while((ch = fgetc(fin)) != EOF && ch != '#'){
        while(ch != ' ' && ch != '\t' && ch != '\0'){
            word[pos] = ch;
            pos++;
            if((d = fgetc(fin)) == ' ' || d == '\t' || d == '\0'){
                word[pos] = '\0';
                fputs(word, fout);
                printf("%s", word);
                pos = 0;
            }
        }
        if(ch == ' ' || ch == '\t' || ch == '\0') continue;
    }

    fclose(fin);
    fclose(fout);
}

标签: cstringfile-io

解决方案


关于你的提案的一些评论

正如评论中所说,当您读取字符时使用int而不是char来保存它,您的编译器可能会发出警告,表明由于数据类型范围有限while((ch = fgetc(fin)) != EOF,类似比较的问题总是正确的,这是因为EOF不能保存在char中。所以在你的代码中chd必须是一个int

检查fopen的结果以确保您打开文件。

最好加上 () 以避免可能的运算符之间的优先级问题,所以替换

while((ch = fgetc(fin)) != EOF && ch != '#')

while(ch != ' ' && ch != '\t' && ch != '\0'){

if((d = fgetc(fin)) == ' ' || d == '\t' || d == '\0'){

if(ch == ' ' || ch == '\t' || ch == '\0')

by(不考虑其他可能的问题)

while(((ch = fgetc(fin)) != EOF) && (ch != '#'))

while((ch != ' ') && (ch != '\t') && (ch != '\0')){

if(((d = fgetc(fin)) == ' ') || (d == '\t') || (d == '\0')){

if((ch == ' ') || (ch == '\t') || (ch == '\0'))

正如评论中所说,如果您输入这两个时间:

while((ch = fgetc(fin)) != EOF && ch != '#'){
   while(ch != ' ' && ch != '\t' && ch != '\0'){

您将永远无法出门,因为ch内部没有变化,因此您在word中写得越来越多,最后以未定义的行为(通常是崩溃)退出它。

您不需要检查空字符的大小写,它不存在于文本文件中。

您错过了管理换行符('\n' 和 '\r')的情况

与问题无关,因为ch未更改,您永远不会检查读取的单词是否太长而无法放入word中,您不能认为它在任何情况下都会发生。

if((d = fgetc(fin)) == ' ' || d == '\t' || d == '\0'){

您错过了管理换行符的大小写,并且您不必管理空字符的大小写。

线

if(ch == ' ' || ch == '\t' || ch == '\0') continue;

没用,它在 while 块的末尾,所以即使没有它,你也会重新循环


在 C 中创建一个从文件读取输入的程序,让它成为 Input.inp,其中包含用空格和制表符分隔的单词的字符串,可能是多个,然后写入文件 Output.out,每个单词在一行。

你的程序也太复杂了,你不需要将单词保存在内存中(这还有一个好处是可以管理超过 299 个单词),你的目标是将每个单词放在输出文件中的单独行上,所以一个简单的解决方案是:

#include <stdio.h>

int main()
{
  FILE *fin, *fout;
  
  if ((fin = fopen("splitwords.inp", "r")) == NULL)
    puts("cannot open splitwords.inp");
  else {
    if ((fout = fopen("splitwords.txt", "w"))  == NULL)
      puts("cannot open splitwords.txt");
    else {
      int word = 0; /* not inside a word */
      int c; /* an int to manage EOF */
      
      while (((c = fgetc(fin)) != EOF) && (c != '#')) {
        if ((c == ' ') || (c == '\t') ||
            (c == '\n') || (c == '\r')) { /* can use isspace() */
          if (word) {
            /* the space finishes a word, add the new line */
            fputc('\n', fout);
            word = 0; /* not in a word now */
          }
        }
        else {
          fputc(c, fout); /* char of word are placed in output file */
          word = 1; /* we are in a word */
        }
      }
      
      if (word) {
        /* we was reading a word, need to add the final newline */
        fputc('\n', fout);
      }
      
      fclose(fout);
    }
    
    fclose(fin);
  }
}

编译和执行:

/tmp % gcc -pedantic -Wextra f.c
/tmp % cat splitwords.inp
Hi  my name         is Yang
/tmp % ./a.out
/tmp % cat splitwords.txt 
Hi
my
name
is
Yang

一些解释和说明:

  • 打开文件后,我检查结果以确保fopen成功
  • 当我读取 char 时,我不会将其保存在char而是int中,以管理 EOF 的情况
  • 在上面的代码中,我比较了空格和制表符等,以便您轻松查看我所做的事情,但是有一个 lib 函数可以完美地做到这一点:isspace查看它和其他有用的函数(isalpha isdigit ...)。您可以更改相应的行以添加任何其他字符作为分隔符,如“-”或标点符号 (',' ';') 等

上面的代码只是在输出文件中写入了非空格/制表符/换行符,更多的是它只需要检测一个单词的结尾来添加一个换行符,这是我的变量word值1 时之前管理的目标字符不是空格/制表符/换行符,否则为 0


推荐阅读