在 Bash 中循环文件的内容

linux bash loops unix io

如何使用 Bash 遍历文本文件的每一行？

使用此脚本：

echo "Start!"
for p in (peptides.txt)
do
    echo "${p}"
done

我在屏幕上得到这个输出：

Start!
./runPep.sh: line 3: syntax error near unexpected token `('
./runPep.sh: line 3: `for p in (peptides.txt)'

（稍后我想用 $p 做一些更复杂的事情，而不仅仅是输出到屏幕上。）

环境变量 SHELL 是（来自 env）：

SHELL=/bin/bash

/bin/bash --version 输出：

GNU bash, version 3.1.17(1)-release (x86_64-suse-linux-gnu)
Copyright (C) 2005 Free Software Foundation, Inc.

cat /proc/version 输出：

Linux version 2.6.18.2-34-default (geeko@buildhost) (gcc version 4.1.2 20061115 (prerelease) (SUSE Linux)) #1 SMP Mon Nov 27 11:46:27 UTC 2006

文件肽.txt 包含：

RKEKNVQ
IPKKLLQK
QYFHQLEKMNVK
IPKKLLQK
GDLSTALEVAIDCYEK
QYFHQLEKMNVKIPENIYR
RKEKNVQ
VLAKHGKLQDAIN
ILGFMK
LEDVALQILL

哦，我看到这里发生了很多事情：所有评论都被删除，问题被重新打开。仅供参考，Read a file line by line assigning the value to a variable 中接受的答案以规范的方式解决了问题，应该优先于此处接受的答案。

$IFS 见 What is the exact meaning of IFS=$'\n'

不要使用 bash 使用 awk gnu.org/software/gawk/manual/gawk.html

rogerdpack

一种方法是：

while read p; do
  echo "$p"
done <peptides.txt

正如评论中所指出的，这具有修剪前导空格、解释反斜杠序列以及在缺少终止换行时跳过最后一行的副作用。如果有这些问题，您可以这样做：

while IFS="" read -r p || [ -n "$p" ]
do
  printf '%s\n' "$p"
done < peptides.txt

特殊情况下，如果 loop body may read from standard input，您可以使用不同的文件描述符打开文件：

while read -u 10 p; do
  ...
done 10<peptides.txt

这里，10 只是一个任意数字（不同于 0、1、2）。

我应该如何解释最后一行？文件peptides.txt 被重定向到标准输入，并以某种方式重定向到整个while 块？

“将peptides.txt 放入这个while 循环中，所以'read' 命令可以消耗一些东西。”我的“cat”方法类似，将命令的输出发送到 while 块以供“读取”使用，只是它启动另一个程序来完成工作。

这种方法似乎跳过了文件的最后一行。

双引号行！ echo "$p" 和文件..相信我，如果你不这样做，它会咬你的！！！我知道！哈哈

如果没有以换行符终止，则两个版本都无法读取最后一行。始终使用 while read p || [[ -n $p ]]; do ...

rogerdpack

cat peptides.txt | while read line 
do
   # do something with $line here
done

和单线变体：

cat peptides.txt | while read line; do something_with_$line_here; done

如果没有尾随换行符，这些选项将跳过文件的最后一行。

您可以通过以下方式避免这种情况：

cat peptides.txt | while read line || [[ -n $line ]];
do
   # do something with $line here
done

一般来说，如果你使用“cat”只有一个参数，那么你做错了（或次优）。

是的，它只是没有布鲁诺的效率高，因为它不必要地启动了另一个程序。如果效率很重要，就按照布鲁诺的方式去做。我记得我的方式，因为您可以将它与其他命令一起使用，其中“redirect in from”语法不起作用。

这还有另一个更严重的问题：因为 while 循环是管道的一部分，它在子 shell 中运行，因此在循环内设置的任何变量在它退出时都会丢失（参见 bash-hackers.org/wiki/doku.php/mirroring/bashfaq/024）。这可能非常烦人（取决于您在循环中尝试执行的操作）。

我使用“cat file |”作为很多命令的开头，纯粹是因为我经常使用“head file |”进行原型制作

这可能效率不高，但比其他答案更具可读性。

tripleee

选项 1a：While 循环：一次一行：输入重定向

#!/bin/bash
filename='peptides.txt'
echo Start
while read p; do 
    echo "$p"
done < "$filename"

选项 1b：While 循环：一次一行：打开文件，从文件描述符（在本例中为文件描述符 #4）读取。

#!/bin/bash
filename='peptides.txt'
exec 4<"$filename"
echo Start
while read -u4 p ; do
    echo "$p"
done

对于选项 1b：是否需要再次关闭文件描述符？例如，循环可以是内循环。

文件描述符将随着进程退出而被清理。可以进行显式关闭以重用 fd 编号。要关闭 fd，请使用具有 &- 语法的另一个 exec，如下所示： exec 4<&-

谢谢你的选项 2。我遇到了选项 1 的巨大问题，因为我需要在循环内从标准输入读取；在这种情况下，选项 1 将不起作用。

您应该更清楚地指出选项 2 是 strongly discouraged。 @masgo 选项 1b 应该在这种情况下工作，并且可以通过将 done < $filename 替换为 done 4<$filename 与选项 1a 中的输入重定向语法结合使用（如果您想从命令参数中读取文件名，这很有用，其中如果您可以将 $filename 替换为 $1）。

我需要在循环内运行 ssh 命令（使用标准输入）时遍历文件内容，例如 tail -n +2 myfile.txt | grep 'somepattern' | cut -f3；选项2似乎是唯一的方法？

mightypile

这并不比其他答案更好，但这是在没有空格的文件中完成工作的另一种方法（请参阅评论）。我发现我经常需要单行程序来挖掘文本文件中的列表，而无需使用单独的脚本文件的额外步骤。

for word in $(cat peptides.txt); do echo $word; done

这种格式使我可以将它们全部放在一个命令行中。将“echo $word”部分更改为您想要的任何内容，您可以发出多个用分号分隔的命令。以下示例使用文件的内容作为您可能编写的其他两个脚本的参数。

for word in $(cat peptides.txt); do cmd_a.sh $word; cmd_b.py $word; done

或者，如果您打算像流编辑器（学习 sed）一样使用它，您可以将输出转储到另一个文件，如下所示。

for word in $(cat peptides.txt); do cmd_a.sh $word; cmd_b.py $word; done > outfile.txt

我使用了上面写的这些，因为我使用了文本文件，我在其中创建了它们，每行一个单词。（见评论）如果你有空格，你不想分割你的单词/行，它会变得有点难看，但相同的命令仍然可以如下工作：

OLDIFS=$IFS; IFS=$'\n'; for line in $(cat peptides.txt); do cmd_a.sh $line; cmd_b.py $line; done > outfile.txt; IFS=$OLDIFS

这只是告诉 shell 只在换行符上拆分，而不是空格，然后将环境返回到以前的状态。此时，您可能需要考虑将其全部放入一个 shell 脚本中，而不是将其全部压缩到一行中。

祝你好运！

bash $(

@JoaoCosta,maxpolk：我没有考虑过的好点。我已经编辑了原始帖子以反映它们。谢谢！

使用 for 会使输入标记/行受到 shell 扩展的影响，这通常是不可取的；试试这个： for l in $(echo '* b c'); do echo "[$l]"; done - 如您所见，* - 即使最初是 quoted 文字 - 也会扩展到当前目录中的文件。

@dblanchard：最后一个例子，使用 $IFS，应该忽略空格。你试过那个版本吗？

随着关键问题的修复，此命令变得更加复杂的方式很好地说明了为什么使用 for 迭代文件行是一个坏主意。另外，@mklement0 提到的扩展方面（尽管这可能可以通过引入转义引号来规避，这再次使事情变得更加复杂且可读性降低）。

codeforester

其他答案未涵盖的更多内容：

从分隔文件中读取

# ':' is the delimiter here, and there are three fields on each line in the file
# IFS set below is restricted to the context of `read`, it doesn't affect any other code
while IFS=: read -r field1 field2 field3; do
  # process the fields
  # if the line has less than three fields, the missing fields will be set to an empty string
  # if the line has more than three fields, `field3` will get all the values, including the third field plus the delimiter(s)
done < input.txt

使用进程替换从另一个命令的输出中读取

while read -r line; do
  # process the line
done < <(command ...)

这种方法比 command ... | while read -r line; do ... 更好，因为这里的 while 循环在当前 shell 中运行，而不是在后者的情况下运行在子 shell 中。请参阅相关帖子 A variable modified inside a while loop is not remembered。

从空分隔的输入中读取，例如 find ... -print0

while read -r -d '' line; do
  # logic
  # use a second 'read ... <<< "$line"' if we need to tokenize the line
done < <(find /path/to/dir -print0)

一次读取多个文件

while read -u 3 -r line1 && read -u 4 -r line2; do
  # process the lines
  # note that the loop will end when we reach EOF on either of the files, because of the `&&`
done 3< input1.txt 4< input2.txt

基于 @chepner's 答案 here：

-u 是一个 bash 扩展。对于 POSIX 兼容性，每个调用都类似于 read -r X <&3。

将整个文件读入数组（早于 4 的 Bash 版本）

while read -r line; do
    my_array+=("$line")
done < my_file

如果文件以不完整的行结尾（末尾缺少换行符），则：

while read -r line || [[ $line ]]; do
    my_array+=("$line")
done < my_file

将整个文件读入数组（Bash 版本 4x 及更高版本）

readarray -t my_array < my_file

或者

mapfile -t my_array < my_file

接着

for line in "${my_array[@]}"; do
  # process the lines
done

更多关于 shell 内置的 read 和 readarray 命令 - GNU

更多关于 IFS - 维基百科

BashFAQ/001 - 如何逐行（和/或逐字段）读取文件（数据流、变量）？

在 Bash 中从文本文件创建数组

读取只有一行的文件的方法有什么区别？

与 cat 相比，Bash while read 循环非常慢，为什么？

请注意，您始终可以使用 input_generating_command | command 或 command < <(input_generating_command) 而不是 command < input_filename.txt

感谢您将文件读入数组。正是我需要的，因为我需要每行解析两次，添加新变量，进行一些验证等。

这是迄今为止我认为最有用的版本

'read -r -d ''` 适用于与 while 结合使用的空分隔输入，而不是独立的 (read -r d '' foo bar)。请参阅here。

Jahid

使用 while 循环，如下所示：

while IFS= read -r line; do
   echo "$line"
done <file

笔记：

如果您没有正确设置 IFS，您将失去缩进。您几乎应该始终将 -r 选项与 read 一起使用。不要用 for 阅读行

@DavidC.Rankin -r 选项可防止反斜杠解释。 Note #2 是详细描述的链接...

将此与另一个答案中的“read -u”选项结合起来，那就完美了。

@FlorinAndrei：上面的示例不需要 -u 选项，您是在谈论 -u 的另一个示例吗？

浏览了您的链接，很惊讶没有答案只是简单地链接您在注释 2 中的链接。该页面提供了您需要了解的有关该主题的所有信息。还是不鼓励仅链接的答案或其他什么？

@EgorHans：通常会删除仅链接的答案。

dawg

假设你有这个文件：

$ cat /tmp/test.txt
Line 1
    Line 2 has leading space
Line 3 followed by blank line

Line 5 (follows a blank line) and has trailing space    
Line 6 has no ending CR

有四个元素会改变许多 Bash 解决方案读取的文件输出的含义：

第 4 行空白；两行前导或尾随空格；维护各行的含义（即，每一行都是一条记录）；第 6 行没有以 CR 结束。

如果您希望文本文件逐行包括空白行和没有 CR 的终止行，则必须使用 while 循环，并且必须对最后一行进行替代测试。

以下是可能更改文件的方法（与 cat 返回的方法相比）：

1）丢失最后一行以及前导和尾随空格：

$ while read -r p; do printf "%s\n" "'$p'"; done </tmp/test.txt
'Line 1'
'Line 2 has leading space'
'Line 3 followed by blank line'
''
'Line 5 (follows a blank line) and has trailing space'

（如果您改为使用 while IFS= read -r p; do printf "%s\n" "'$p'"; done </tmp/test.txt，则保留前导和尾随空格，但如果最后一行未以 CR 终止，则仍会丢失最后一行）

2) 使用带有 cat 的进程替换将一口气读取整个文件并失去各行的含义：

$ for p in "$(cat /tmp/test.txt)"; do printf "%s\n" "'$p'"; done
'Line 1
    Line 2 has leading space
Line 3 followed by blank line

Line 5 (follows a blank line) and has trailing space    
Line 6 has no ending CR'

（如果您从 $(cat /tmp/test.txt) 中删除 "，您会逐字阅读文件，而不是一饮而尽。也可能不是预期的......）

逐行读取文件并保留所有间距的最可靠和最简单的方法是：

$ while IFS= read -r line || [[ -n $line ]]; do printf "'%s'\n" "$line"; done </tmp/test.txt
'Line 1'
'    Line 2 has leading space'
'Line 3 followed by blank line'
''
'Line 5 (follows a blank line) and has trailing space    '
'Line 6 has no ending CR'

如果要去除前导和换行空格，请删除 IFS= 部分：

$ while read -r line || [[ -n $line ]]; do printf "'%s'\n" "$line"; done </tmp/test.txt
'Line 1'
'Line 2 has leading space'
'Line 3 followed by blank line'
''
'Line 5 (follows a blank line) and has trailing space'
'Line 6 has no ending CR'

（没有终止 \n 的文本文件虽然很常见，但在 POSIX 下被认为是损坏的。如果您可以依靠结尾的 \n，则在 while 循环中不需要 || [[ -n $line ]]。）

BASH FAQ 上的更多信息

Anjul Sharma

如果您不希望您的阅读被换行符破坏，请使用 -

#!/bin/bash
while IFS='' read -r line || [[ -n "$line" ]]; do
    echo "$line"
done < "$1"

然后以文件名作为参数运行脚本。

Jieiku

这可能是最简单的答案，也许并非在所有情况下都有效，但对我来说效果很好：

while read line;do echo "$line";done<peptides.txt

如果您需要用括号括起来空格：

while read line;do echo \"$line\";done<peptides.txt

啊，这与获得最多投票的答案几乎相同，但都在一条线上。

hamou92

我喜欢使用 xargs 而不是 while。 xargs 功能强大且命令行友好

cat peptides.txt | xargs -I % sh -c "echo %"

使用 xargs，您还可以使用 -t 添加详细程度并使用 -p 添加验证

这种方法存在严重的安全问题。如果您的 peptides.txt 包含无法转义到 $(rm -rf ~) 或更糟的是 $(rm -rf ~)'$(rm -rf ~)' 的内容怎么办？

0zkr PM

#!/bin/bash
#
# Change the file name from "test" to desired input file 
# (The comments in bash are prefixed with #'s)
for x in $(cat test.txt)
do
    echo $x
done

这个答案需要 mightypile's answer 中提到的注意事项，如果任何行包含 shell 元字符（由于未引用的“$x”），它可能会严重失败。

我真的很惊讶人们还没有想出通常的Don't read lines with for......

这确实不适用于任何一般方式。 Bash 在空格上分割每一行，这不太可能是理想的结果。

Whome

这是我的真实示例，如何循环另一个程序输出的行、检查子字符串、从变量中删除双引号、在循环外使用该变量。我想很多人迟早会问这些问题。

##Parse FPS from first video stream, drop quotes from fps variable
## streams.stream.0.codec_type="video"
## streams.stream.0.r_frame_rate="24000/1001"
## streams.stream.0.avg_frame_rate="24000/1001"
FPS=unknown
while read -r line; do
  if [[ $FPS == "unknown" ]] && [[ $line == *".codec_type=\"video\""* ]]; then
    echo ParseFPS $line
    FPS=parse
  fi
  if [[ $FPS == "parse" ]] && [[ $line == *".r_frame_rate="* ]]; then
    echo ParseFPS $line
    FPS=${line##*=}
    FPS="${FPS%\"}"
    FPS="${FPS#\"}"
  fi
done <<< "$(ffprobe -v quiet -print_format flat -show_format -show_streams -i "$input")"
if [ "$FPS" == "unknown" ] || [ "$FPS" == "parse" ]; then 
  echo ParseFPS Unknown frame rate
fi
echo Found $FPS

在循环外声明变量，设置值并在循环外使用它需要完成 <<< "$(...)" 语法。应用程序需要在当前控制台的上下文中运行。命令周围的引号保留输出流的换行符。

子字符串的循环匹配然后读取 name=value 对，拆分 last = 字符的右侧部分，删除第一个引号，删除最后一个引号，我们有一个干净的值可以在其他地方使用。

虽然答案是正确的，但我确实理解它是如何落在这里的。基本方法与许多其他答案提出的方法相同。另外，它完全淹没在您的 FPS 示例中。

Alan Jebakumar

@Peter：这对你有用-

echo "Start!";for p in $(cat ./pep); do
echo $p
done

这将返回输出 -

Start!
RKEKNVQ
IPKKLLQK
QYFHQLEKMNVK
IPKKLLQK
GDLSTALEVAIDCYEK
QYFHQLEKMNVKIPENIYR
RKEKNVQ
VLAKHGKLQDAIN
ILGFMK
LEDVALQILL

这真是太糟了！ Why you don't read lines with "for"。

这个答案违背了上述好答案所设定的所有原则！

请删除此答案。

现在各位，不要夸大其词。答案很糟糕，但它似乎工作，至少对于简单的用例。只要提供了这一点，作为一个糟糕的答案并不会剥夺答案的存在权。

@EgorHans，我强烈反对：答案的重点是教人们如何编写软件。教人们以您知道对他们有害的方式做事，而使用他们的软件的人（引入错误/意外行为等）故意伤害他人。一个已知有害的答案在精心策划的教学资源中没有“存在的权利”（策划它正是我们这些投票和标记的人应该在这里做的事情）。

madD7

这来得很晚，但考虑到它可能对某人有帮助，我正在添加答案。此外，这可能不是最好的方法。 head 命令可以与 -n 参数一起使用以从文件开头读取 n 行，同样可以使用 tail 命令从底部读取。现在，为了从文件中获取第 nth 行，我们开始 n 行，将数据通过管道传输到管道数据的尾部仅 1 行。

   TOTAL_LINES=`wc -l $USER_FILE | cut -d " " -f1 `
   echo $TOTAL_LINES       # To validate total lines in the file

   for (( i=1 ; i <= $TOTAL_LINES; i++ ))
   do
      LINE=`head -n$i $USER_FILE | tail -n1`
      echo $LINE
   done

不要这样做。循环遍历行号并通过 sed 或 head + tail 获取每一行是难以置信效率低下，当然提出了一个问题，为什么您不在这里简单地使用其他解决方案之一。如果您需要知道行号，请在 while read -r 循环中添加一个计数器，或使用 nl -ba 在循环之前的每一行中添加一个行号前缀。

立即查看stackoverflow.com/questions/65538947/…

@tripleee 我已经明确提到“这可能不是最好的方式”。我没有将讨论限制在“最佳或最有效的解决方案”上。

在某些情况下，使用 for 循环遍历文件的行可能很有用。例如，某些命令可以使 while 循环中断。请参阅stackoverflow.com/a/64049584/2761700

abhishek nair

另一种使用 xargs 的方法

<file_name | xargs -I {} echo {}

echo 可以用其他命令替换或进一步管道。

Chris

每埃德莫顿，Why is using a shell loop to process text considered bad practice?

答案是：不要使用 bash 处理文本，使用为此任务设计的工具 awk 在 bash 中处理文本。

https://www.gnu.org/software/gawk/manual/gawk.html

#! /usr/bin/env awk -f

BEGIN { print("do anything you want here!"); }
{
   print("processing line: ", $0);
}
END { print("and anything else here!") };

并调用：

./awk-script.awk peptides.txt

在 bash 脚本中：

#!/usr/bin/env bash

echo "foo" | awk "{print}"

该问题专门询问如何使用 bash

@Matt 我将这里的意图解释为“我如何在 bash 中做到这一点”，而不是“我如何在 bash 中做到这一点”。而且我对我的问题的过度字面解释感到非常沮丧，我很高兴等待 OP 参与进来。

这是正确答案，请参阅why-is-using-a-shell-loop-to-process-text-considered-bad-practice

不解析。最后一行缺少右花括号。

@rsaxvc 已更正。

关注公众号

不定期副业成功案例分享

想领先一步获取最新的外包任务吗？

立即订阅

相似问题

HuntsBot(狩猎机器人)，一站式外包任务、远程工作、产品创意分享与订阅平台，支持钉钉、飞书、企业微信、邮箱、Telegram机器人订阅。平台会以及时、稳定、可靠的技术把外包任务需求、远程工作机会、产品创意等推送给每一位订阅的用户。

平台

支持

友情链接

联系我们

在使用过程中有任何问题或建议，可以通过以下方式联系我们：

微信公众号: 火星来客

Email: huntsbot@xinbeitime.com