以下的方式速度都会卡在sort上面,数量越多越麻烦。
Shell方法:
grep -i -o -E -r -e "([0-9]{1,3}\.){3}[0-9]{1,3}" access.log | sort -n | uniq -c | sort -n
awk方法:
如果是accesslog 格式应该是固定的 会简单些。因为awk做排序也比较的郁闷,所以暂时用sort吧。
awk '{if ($1 ~ /[0-9]+\.[0-9]+\.[0-9]+\.[0-9]+/){ip[$1]++}}END{for(i in ip){print ip[i],"\t",i}}' | sort -n
如果是无序的没有规律的格查找ip,可以参考下面这段代码,可能还有需要优化的地方,像正则就不能够这样写。
/[0-9]+\.[0-9]+\.[0-9]+\.[0-9]+/{ s = $0; idx = 1; for (;;) {idx = match(s, /[0-9]+\.[0-9]+\.[0-9]+\.[0-9]+/, a); if (idx == 0) {break;} seg[a[0]]++; s = substr(s, idx + 1);} }
END {
for (i in seg) {
print i"\t"seg[i];
}
}
Notice:对于量小的log以上的方法都可以,但是涉及到真的大的log,就会需要考虑其它的方式了。