如何在 Bash 中定义哈希表？

B

Benjamin W.

重击 4

Bash 4 本机支持此功能。确保您的脚本的 hashbang 是 #!/usr/bin/env bash 或 #!/bin/bash，这样您就不会最终使用 sh。确保您是直接执行脚本，或者使用 bash script 执行 script。（实际上没有使用 Bash 执行 Bash 脚本确实会发生，并且会真的令人困惑！）

您通过执行以下操作声明关联数组：

declare -A animals

您可以使用普通的数组赋值运算符来填充它。例如，如果您想要 animal[sound(key)] = animal(value) 的地图：

animals=( ["moo"]="cow" ["woof"]="dog")

或者在一行中声明和实例化：

declare -A animals=( ["moo"]="cow" ["woof"]="dog")

然后像普通数组一样使用它们。利用

动物['key']='value' 设置值

"${animals[@]}" 扩展值

"${!animals[@]}" （注意！）展开键

不要忘记引用它们：

echo "${animals[moo]}"
for sound in "${!animals[@]}"; do echo "$sound - ${animals[$sound]}"; done

重击 3

在 bash 4 之前，您没有关联数组。 不要使用 eval 来模仿它们。避免像瘟疫一样的 eval，因为它是 shell 脚本的瘟疫。最重要的原因是 eval 将您的数据视为可执行代码（还有许多其他原因）。

首先也是最重要的：考虑升级到 bash 4。这将使整个过程对您来说更容易。

如果有无法升级的原因，declare 是一个更安全的选择。它不像 eval 那样评估数据，因此不允许任意代码注入非常容易。

让我们通过引入概念来准备答案：

首先，间接性。

$ animals_moo=cow; sound=moo; i="animals_$sound"; echo "${!i}"
cow

其次，declare：

$ sound=moo; animal=cow; declare "animals_$sound=$animal"; echo "$animals_moo"
cow

把它们放在一起：

# Set a value:
declare "array_$index=$value"

# Get a value:
arrayGet() { 
    local array=$1 index=$2
    local i="${array}_$index"
    printf '%s' "${!i}"
}

让我们使用它：

$ sound=moo
$ animal=cow
$ declare "animals_$sound=$animal"
$ arrayGet animals "$sound"
cow

注意：declare 不能放在函数中。在 bash 函数中对 declare 的任何使用都会将它创建的变量 local 转换为该函数的范围，这意味着我们无法使用它访问或修改全局数组。（在 bash 4 中，您可以使用 declare -g 声明全局变量 - 但在 bash 4 中，您可以首先使用关联数组，避免这种解决方法。）

概括：

升级到 bash 4 并将 declare -A 用于关联数组。

如果无法升级，请使用声明选项。

考虑改用 awk 并完全避免该问题。

无法升级：我在 Bash 中编写脚本的唯一原因是“在任何地方运行”的可移植性。因此，依靠 Bash 的非通用特性排除了这种方法。真可惜，否则对我来说这将是一个很好的解决方案！

遗憾的是 OSX 仍然默认使用 Bash 3，因为这代表了很多人的“默认”。我认为 ShellShock 恐慌可能是他们需要的推动力，但显然不是。

@ken 这是一个许可问题。 OSX 上的 Bash 停留在最新的非 GPLv3 许可版本。

@jww 由于对 GPLv3 的恶意，Apple 不会将 GNU bash 升级到 3 以上。但这不应该是一种威慑。 brew install bash brew.sh

...或 sudo port install bash，对于那些（明智地，恕我直言）不愿意在 PATH 中为所有用户创建可写目录而无需显式每个进程权限提升的人。

B

Bubnoff

有参数替换，尽管它也可能是非 PC ......就像间接一样。

#!/bin/bash

# Array pretending to be a Pythonic dictionary
ARRAY=( "cow:moo"
        "dinosaur:roar"
        "bird:chirp"
        "bash:rock" )

for animal in "${ARRAY[@]}" ; do
    KEY="${animal%%:*}"
    VALUE="${animal##*:}"
    printf "%s likes to %s.\n" "$KEY" "$VALUE"
done

printf "%s is an extinct animal which likes to %s\n" "${ARRAY[1]%%:*}" "${ARRAY[1]##*:}"

BASH 4 方式当然更好，但如果你需要一个 hack ......只有一个 hack 会做。您可以使用类似的技术搜索数组/哈希。

我会将其更改为 VALUE=${animal#*:} 以保护 ARRAY[$x]="caesar:come:see:conquer"

如果键或值中有空格，则在 ${ARRAY[@]} 周围加上双引号也很有用，如 for animal in "${ARRAY[@]}"; do

但是效率不是很差吗？如果您想与另一个键列表进行比较，我正在考虑 O(n*m)，而不是 O(n) 与适当的哈希图（恒定时间查找，单个键为 O(1)）。

这个想法不是关于效率，而是关于那些具有 perl、python 甚至 bash 4 背景的人的理解/阅读能力。允许您以类似的方式编写。

@CoDEmanX：这是一个 hack，一个聪明而优雅但仍然是基本的解决方法，以帮助那些在 2007 年仍然被 Bash 3.x 困住的可怜的灵魂。在这样一个简单的代码中，您不能期望“正确的哈希映射”或效率考虑。

r

rubo77

这就是我在这里寻找的：

declare -A hashmap
hashmap["key"]="value"
hashmap["key2"]="value2"
echo "${hashmap["key"]}"
for key in ${!hashmap[@]}; do echo $key; done
for value in ${hashmap[@]}; do echo $value; done
echo hashmap has ${#hashmap[@]} elements

这不适用于 bash 4.1.5：

animals=( ["moo"]="cow" )

请注意，该值可能不包含空格，否则您一次添加更多元素

赞成 hashmap["key"]="value" 语法，我也发现从其他奇妙的接受答案中丢失了。

@rubo77 键也不是，它添加了多个键。有什么办法可以解决这个问题？

l

lovasoa

只需使用文件系统

文件系统是一种树结构，可以用作哈希映射。您的哈希表将是一个临时目录，您的键将是文件名，您的值将是文件内容。优点是它可以处理巨大的哈希图，并且不需要特定的外壳。

哈希表创建

hashtable=$(mktemp -d)

添加一个元素

echo $value > "$hashtable/$key"

读取一个元素

value=$(< "$hashtable/$key")

表现

当然，它很慢，但不是那么慢。我在我的机器上使用 SSD 和 btrfs 对其进行了测试，它每秒读取/写入大约 3000 个元素。

哪个版本的 bash 支持 mkdir -d？（不是 4.3，在 Ubuntu 14 上。我会求助于 mkdir /run/shm/foo，或者如果它填满了 RAM，mkdir /tmp/foo。）

也许 mktemp -d 是用来代替的？

好奇 $value=$(< $hashtable/$key) 和 value=$(< $hashtable/$key) 有什么区别？谢谢！

“在我的机器上测试过”这听起来像是在 SSD 上烧一个洞的好方法。并非所有 Linux 发行版都默认使用 tmpfs。

这不适用于其中包含“/”斜杠的值

R

Roger Lipscombe

您可以进一步修改 hput()/hget() 接口，以便按如下方式命名散列：

hput() {
    eval "$1""$2"='$3'
}

hget() {
    eval echo '${'"$1$2"'#hash}'
}

接着

hput capitals France Paris
hput capitals Netherlands Amsterdam
hput capitals Spain Madrid
echo `hget capitals France` and `hget capitals Netherlands` and `hget capitals Spain`

这使您可以定义其他不冲突的地图（例如，按首都进行国家/地区查找的“rcapitals”）。但是，无论哪种方式，我认为您会发现这一切都非常糟糕，就性能而言。

如果你真的想要快速的哈希查找，那么有一个可怕的、可怕的 hack 实际上工作得很好。就是这样：将您的键/值写入一个临时文件，每行一个，然后使用 'grep "^$key"' 将它们取出，使用带有 cut 或 awk 或 sed 的管道或其他任何方法来检索值。

就像我说的，这听起来很糟糕，而且听起来它应该很慢并且执行各种不必要的 IO，但实际上它非常快（磁盘缓存很棒，不是吗？），即使对于非常大的哈希表。您必须自己强制执行密钥唯一性，等等。即使您只有几百个条目，输出文件/grep 组合也会快得多 - 根据我的经验，要快几倍。它还消耗更少的内存。

这是一种方法：

hinit() {
    rm -f /tmp/hashmap.$1
}

hput() {
    echo "$2 $3" >> /tmp/hashmap.$1
}

hget() {
    grep "^$2 " /tmp/hashmap.$1 | awk '{ print $2 };'
}

hinit capitals
hput capitals France Paris
hput capitals Netherlands Amsterdam
hput capitals Spain Madrid

echo `hget capitals France` and `hget capitals Netherlands` and `hget capitals Spain`

伟大的！你甚至可以迭代它： for i in $(compgen -A variable capitols);做 hget "$i" "" 完成

A

AsymLabs

考虑使用 bash 内置读取的解决方案，如以下 ufw 防火墙脚本的代码片段所示。这种方法的优点是可以根据需要使用尽可能多的分隔字段集（而不仅仅是 2 个）。我们使用了 |分隔符，因为端口范围说明符可能需要冒号，即 6001:6010。

#!/usr/bin/env bash

readonly connections=(       
                            '192.168.1.4/24|tcp|22'
                            '192.168.1.4/24|tcp|53'
                            '192.168.1.4/24|tcp|80'
                            '192.168.1.4/24|tcp|139'
                            '192.168.1.4/24|tcp|443'
                            '192.168.1.4/24|tcp|445'
                            '192.168.1.4/24|tcp|631'
                            '192.168.1.4/24|tcp|5901'
                            '192.168.1.4/24|tcp|6566'
)

function set_connections(){
    local range proto port
    for fields in ${connections[@]}
    do
            IFS=$'|' read -r range proto port <<< "$fields"
            ufw allow from "$range" proto "$proto" to any port "$port"
    done
}

set_connections

@CharlieMartin：读取是一个非常强大的功能，许多 bash 程序员没有充分利用。它允许 lisp-like 列表处理的紧凑形式。例如，在上面的示例中，我们可以通过执行以下操作仅剥离第一个元素并保留其余元素（即类似于 lisp 中的 first 和 rest 的概念）：{1 }

D

DigitalRoss

hput () {
  eval hash"$1"='$2'
}

hget () {
  eval echo '${hash'"$1"'#hash}'
}
hput France Paris
hput Netherlands Amsterdam
hput Spain Madrid
echo `hget France` and `hget Netherlands` and `hget Spain`

$ sh hash.sh
Paris and Amsterdam and Madrid

叹息，这似乎是不必要的侮辱，而且无论如何都是不准确的。人们不会将输入验证、转义或编码（请参阅，我实际上知道）放在哈希表的内部，而是放在包装器中并在输入后尽快。

@DigitalRoss 你能解释一下#hash 在 eval echo '${hash'"$1"'#hash}' 中的用途吗？对我来说，我的评论似乎不止于此。 #hash 在这里有什么特殊含义吗？

@Sanjay ${var#start} 从存储在变量 var 中的值的开头删除文本 start。

m

marco

我同意@lhunath 和其他人的观点，即关联数组是 Bash 4 的方式。如果你坚持使用 Bash 3（OSX，你无法更新的旧发行版），你也可以使用 expr，它应该无处不在，一个字符串和正则表达式。我喜欢它，尤其是当字典不太大的时候。

选择 2 个不会在键和值中使用的分隔符（例如 ',' 和 ':' ）将地图写成字符串（注意分隔符 ',' 也在开头和结尾处）animals=",moo:cow,woof :dog," 使用正则表达式提取值 get_animal { echo "$(expr "$animals" : ".*,$1:$[^,]*$,.*")" } 将字符串拆分为列表项目 get_animal_items { arr=$(echo "${animals:1:${#animals}-2}" | tr "," "\n") for i in $arr do value="${i##* :}" key="${i%%:*}" echo "${value} 喜欢 $key" 完成 }

现在你可以使用它了：

$ animal = get_animal "moo"
cow
$ get_animal_items
cow likes to moo
dog likes to woof

C

Cole Stanfield

我真的很喜欢 Al P 的答案，但希望廉价地强制执行唯一性，所以我更进一步 - 使用目录。有一些明显的限制（目录文件限制，无效文件名），但它应该适用于大多数情况。

hinit() {
    rm -rf /tmp/hashmap.$1
    mkdir -p /tmp/hashmap.$1
}

hput() {
    printf "$3" > /tmp/hashmap.$1/$2
}

hget() {
    cat /tmp/hashmap.$1/$2
}

hkeys() {
    ls -1 /tmp/hashmap.$1
}

hdestroy() {
    rm -rf /tmp/hashmap.$1
}

hinit ids

for (( i = 0; i < 10000; i++ )); do
    hput ids "key$i" "value$i"
done

for (( i = 0; i < 10000; i++ )); do
    printf '%s\n' $(hget ids "key$i") > /dev/null
done

hdestroy ids

它在我的测试中也表现得更好一些。

$ time bash hash.sh 
real    0m46.500s
user    0m16.767s
sys     0m51.473s

$ time bash dirhash.sh 
real    0m35.875s
user    0m8.002s
sys     0m24.666s

只是以为我会参与。干杯！

编辑：添加 hdestroy()

A

Adam Katz

一位同事刚刚提到了这个线程。我已经在 bash 中独立实现了哈希表，它不依赖于版本 4。来自我在 2010 年 3 月的一篇博客文章（在此处的一些答案之前......），标题为 Hash tables in bash：

我 previously 使用 cksum 进行散列，但后来将 Java's string hashCode 翻译为本机 bash/zsh。

# Here's the hashing function
ht() {
  local h=0 i
  for (( i=0; i < ${#1}; i++ )); do
    let "h=( (h<<5) - h ) + $(printf %d \'${1:$i:1})"
    let "h |= h"
  done
  printf "$h"
}

# Example:

myhash[`ht foo bar`]="a value"
myhash[`ht baz baf`]="b value"

echo ${myhash[`ht baz baf`]} # "b value"
echo ${myhash[@]} # "a value b value" though perhaps reversed
echo ${#myhash[@]} # "2" - there are two values (note, zsh doesn't count right)

它不是双向的，内置的方式要好得多，但无论如何都不应该真正使用。 Bash 用于快速一次性，此类事情很少涉及可能需要散列的复杂性，除非可能在您的 ~/.bashrc 和朋友中。

答案中的链接很吓人！如果单击它，您将陷入重定向循环。请更新。

@MohammadRakibAmin – 是的，我的网站已关闭，我怀疑我是否会恢复我的博客。我已将上述链接更新为存档版本。感谢您的关注！

看起来这不会处理哈希冲突。

@neuralmer – 是的。这被设计为哈希结构的实际哈希实现。如果你想处理哈希冲突，我推荐一个真正的哈希实现而不是像这样的 hack。调整它来管理碰撞将消除它的所有优雅。

j

jrichard

有两件事，您可以在任何内核 2.6 中使用内存而不是 /tmp，方法是使用 /dev/shm (Redhat)，其他发行版可能会有所不同。 hget 也可以使用 read 重新实现，如下所示：

function hget {

  while read key idx
  do
    if [ $key = $2 ]
    then
      echo $idx
      return
    fi
  done < /dev/shm/hashmap.$1
}

此外，通过假设所有键都是唯一的，返回会使读取循环短路并防止必须读取所有条目。如果您的实现可以有重复的键，那么只需省略返回即可。这节省了读取和分叉 grep 和 awk 的费用。对这两种实现都使用 /dev/shm 产生以下使用时间 hget 在 3 条目散列搜索最后一个条目：

grep/awk：

hget() {
    grep "^$2 " /dev/shm/hashmap.$1 | awk '{ print $2 };'
}

$ time echo $(hget FD oracle)
3

real    0m0.011s
user    0m0.002s
sys     0m0.013s

读/回声：

$ time echo $(hget FD oracle)
3

real    0m0.004s
user    0m0.000s
sys     0m0.004s

在多次调用中，我从来没有看到少于 50% 的改进。由于使用了 /dev/shm，这都可以归因于分叉。

k

kojiro

在 bash 4 之前，没有在 bash 中使用关联数组的好方法。最好的办法是使用实际上支持此类功能的解释语言，例如 awk。另一方面，bash 4 确实支持它们。

至于 less bash 3 中的好方法，这里有一个参考，可能会有所帮助：http://mywiki.wooledge.org/BashFAQ/006

M

Milan Adamovsky

重击 3 解决方案：

在阅读一些答案时，我整理了一个快速的小功能，我想回馈可能对其他人有所帮助。

# Define a hash like this
MYHASH=("firstName:Milan"
        "lastName:Adamovsky")

# Function to get value by key
getHashKey()
 {
  declare -a hash=("${!1}")
  local key
  local lookup=$2

  for key in "${hash[@]}" ; do
   KEY=${key%%:*}
   VALUE=${key#*:}
   if [[ $KEY == $lookup ]]
   then
    echo $VALUE
   fi
  done
 }

# Function to get a list of all keys
getHashKeys()
 {
  declare -a hash=("${!1}")
  local KEY
  local VALUE
  local key
  local lookup=$2

  for key in "${hash[@]}" ; do
   KEY=${key%%:*}
   VALUE=${key#*:}
   keys+="${KEY} "
  done

  echo $keys
 }

# Here we want to get the value of 'lastName'
echo $(getHashKey MYHASH[@] "lastName")


# Here we want to get all keys
echo $(getHashKeys MYHASH[@])

我认为这是一个非常简洁的片段。它可以使用一点清理（虽然不多）。在我的版本中，我将 'key' 重命名为 'pair' 并将 KEY 和 VALUE 设为小写（因为我在导出变量时使用大写）。我还将 getHashKey 重命名为 getHashValue 并将键和值都设为本地（但有时您希望它们不是本地的）。在 getHashKeys 中，我没有分配任何值。我使用分号进行分隔，因为我的值是 URL。

A

Alex

我也使用了 bash4 方式，但我发现了一个恼人的错误。

我需要动态更新关联数组内容，所以我使用了这种方式：

for instanceId in $instanceList
do
   aws cloudwatch describe-alarms --output json --alarm-name-prefix $instanceId| jq '.["MetricAlarms"][].StateValue'| xargs | grep -E 'ALARM|INSUFFICIENT_DATA'
   [ $? -eq 0 ] && statusCheck+=([$instanceId]="checkKO") || statusCheck+=([$instanceId]="allCheckOk"
done

我发现使用 bash 4.3.11 附加到 dict 中的现有键会导致附加值（如果已经存在）。因此，例如，经过一些重复后，值的内容是“checkKOcheckKOallCheckOK”，这并不好。

bash 4.3.39 没有问题，其中附加现有密钥意味着如果已经存在，则替换实际值。

我解决了这个问题，只是在 cicle 之前清理/声明 statusCheck 关联数组：

unset statusCheck; declare -A statusCheck

C

Community

我使用动态变量在 bash 3 中创建 HashMaps。我在回答以下问题时解释了它的工作原理：Associative arrays in Shell scripts

您还可以查看 shell_map，它是 bash 3 中的 HashMap 实现。

如何在 Bash 中定义哈希表？

关注公众号

想领先一步获取最新的外包任务吗？

相似问题

平台

支持

友情链接

联系我们