首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  程序员

正则表达式太难了 ..怎么破

  •  
  •   notgood · 214 天前 · 4907 次点击
    这是一个创建于 214 天前的主题,其中的信息可能已经有所发展或是发生改变。
    找了半天都没找出问题
    求 V 友帮忙看看指点一下 谢谢!

    log 如下 :

    Aug 15 08:59:07 <hostname> ss-server[1382]: 2018-08-15 08:59:07 ERROR: failed to handshake with <HOST>: authentication error

    正规表达式如下:
    failregex = ^\w+\s+\d+ \d+:\d+:\d+\s+%(__prefix_line)sERROR:\s+failed to handshake with <HOST>: authentication error$

    手动测试无法匹配到


    # fail2ban-regex 'Aug 15 08:59:07 <hostname> ss-server[1382]: 2018-08-15 08:59:07 ERROR: failed to handshake with <HOST>: authentication error' '^\w+\s+\d+ \d+:\d+:\d+\s+%(__prefix_line)sERROR:\s+failed to handshake with <HOST>: authentication error$'

    Running tests
    =============

    Use failregex line : ^\w+\s+\d+ \d+:\d+:\d+\s+%(__prefix_line)sERROR:\s...
    Use single line : Aug 15 08:59:07 <hostname> ss-server[1382]: 2018-0...


    Results
    =======

    Failregex: 0 total

    Ignoreregex: 0 total

    Date template hits:
    |- [# of hits] date format
    | [1] (?:DAY )?MON Day 24hour:Minute:Second(?:\.Microseconds)?(?: Year)?
    `-

    Lines: 1 lines, 0 ignored, 0 matched, 1 missed
    [processed in 0.00 sec]

    |- Missed line(s):
    | Aug 15 08:59:07 <hostname> ss-server[1382]: 2018-08-15 08:59:07 ERROR: failed to handshake with <HOST>: authentication error
    `-
    40 回复  |  直到 2019-03-26 12:04:45 +08:00
        1
    shenxgan   214 天前
    >>> re_s = '^\w+\s+\d+ \d+:\d+:\d+\s+(.*)ERROR:\s+failed to handshake with <HOST>: authentication error$'
    >>> re.findall(re_s, s)
    ['<hostname> ss-server[1382]: 2018-08-15 08:59:07 ']
    >>>

    你的正则没有问题吧,我用 python 没问题
        2
    notgood   214 天前
    @shenxgan 我刚又试了你的也不能匹配, 真奇怪, 你说 python 没问题那正则表达式应该是正确的呀???
    fail2ban-regex 'Aug 15 08:59:07 <hostname> ss-server[1382]: 2018-08-15 08:59:07 ERROR: failed to handshake with <HOST>: authentication error' '^\w+\s+\d+ \d+:\d+:\d+\s+(.*)ERROR:\s+failed to handshake with <HOST>: authentication error$'
        4
    antileech   214 天前
    排除法,先把头尾的^$摘了,看看行不行,不行再摘

    或者像这样,反过来,从简单的写起来:
    \d+:\d+:\d+\s+(.*)ERROR:
        5
    Varobjs   214 天前 via Android
    搜个正则表达式在线测试网站?
        6
    notgood   214 天前
    @7654 谢谢! 看了好久也没发现哪里异常啊, 您发现有什么不对的吗? 谢谢
        7
    notgood   214 天前
    @Varobjs 已经试了好几个测试网站 , 没有用
    @antileech 您说的我试了, 还是不行, 简化后也是没有匹配
        8
    Varobjs   214 天前 via Android
    @notgood 正则在不同的语言,不同的地方使用的模式有差异的,比如之前遇到 grep 命令正则不支持\d, 加个 -P 就支持了,建议看见你用的语言支持的是不是有区别
        9
    notgood   214 天前
    @antileech 试过了很多参数都不行 . 比如这个 fail2ban-regex 'Aug 15 08:59:07 <hostname> ss-server[1382]: 2018-08-15 08:59:07 ERROR: failed to handshake with 95.179.169.185: authentication error' '^\s+ERROR:\s+failed to handshake with <HOST>: authentication error$'

    @7654
        10
    antileech   214 天前
    @notgood 9# 这条不是从行开头开始匹配,得把^去掉,另外 ip 中的.看看有没有转义
        11
    0mza987   214 天前
    你 reg 里那个 ERROR 前面的小 s 是什么鬼,是\s 吧
        12
    0mza987   214 天前
    要匹配什么东西,在达到目的的情况下 reg 尽量精简,你那头尾一大堆根本就不需要的匹配,只是变成扰乱自己实现的无效代码而已
        13
    herozzm   214 天前 via iPhone
    我手头有份爬虫匹配兼职 专门写正则的 lz 考虑拿来练手?
        14
    araraloren   214 天前
    不同语言的正则是有比较大的差别的,或许你可以了解一下 https://www.regular-expressions.info
        15
    JerryV2   214 天前
    __prefix_line 是什么,搜了半天也没看懂
        16
    wizardoz   214 天前
    正则表达式在不同的库里面支持规范是不一样的,就像不同的数据库支持的 SQL 也略有不同。
    在 python 中测试了能匹配,只能说在 python 正则库中没问题
        17
    JerryV2   214 天前
    @JerryV2
    仔细看了一下,是 Fail2ban 里的一个参数,是要匹配 <hostname> ss-server[1382]: 2018-08-15 08:59:07 这段吧?
    没搞过,如果这块也没问题就不懂了
        18
    richieboy   214 天前
    这明显无法匹配啊,你括号不用转义吗?还是我理解的有问题?
        19
    versionzhang   214 天前 via Android
    @herozzm 功能复杂么,加个微信聊一下? base64 wx:U2VyZW5hZGVMaWZl
        20
    ghostsimon   214 天前
    ^\w+\s+\d+ \d+:\d+:\d+\s+(.+)\s+ERROR:\s+failed to handshake with <HOST>: authentication error$
    https://regex101.com/
    可以测试通过
        21
    ghostsimon   214 天前
    # coding=utf8
    # the above tag defines encoding for this document and is for Python 2.x compatibility

    import re

    regex = r"^\w+\s+\d+ \d+:\d+:\d+\s+(.+)\s+ERROR:\s+failed to handshake with <HOST>: authentication error$"

    test_str = "Aug 15 08:59:07 <hostname> ss-server[1382]: 2018-08-15 08:59:07 ERROR: failed to handshake with <HOST>: authentication error"

    matches = re.finditer(regex, test_str, re.MULTILINE)

    for matchNum, match in enumerate(matches, start=1):

    print ("Match {matchNum} was found at {start}-{end}: {match}".format(matchNum = matchNum, start = match.start(), end = match.end(), match = match.group()))

    for groupNum in range(0, len(match.groups())):
    groupNum = groupNum + 1

    print ("Group {groupNum} found at {start}-{end}: {group}".format(groupNum = groupNum, start = match.start(groupNum), end = match.end(groupNum), group = match.group(groupNum)))

    # Note: for Python 2.7 compatibility, use ur"" to prefix the regex and u"" to prefix the test string and substitution.
        22
    jinhan13789991   214 天前
    有这么复杂吗

    .*ERROR.*<HOST>.*

    还是说我理解的不对?
        23
    zhijiansha   214 天前
    @herozzm 有意练手,wx empzMzk0NQ==
        24
    Valid   214 天前
        25
    Valid   214 天前
        26
    l00t   214 天前
    不就是错在 prefix_line 后面的那个 s 上吗
        27
    notgood   214 天前
    @Valid 请问您用的调试网站是哪个? 为什么我测试同样的表达式还是不匹配 ? 在 fail2ban 也不匹配
    @ghostsimon 我测试了没通过 , 在你的那个网站,
        28
    atonku   214 天前
    正则表达式本来就不是让人看的,淡定
        29
    xuboying   214 天前
    正则表达式如果错了就简化一下再一点一点加,比如设一个最点单的 一个字符的 . 理论上百分之一百匹配上
    有些奇怪的错误是因为程序的正则引擎和你实验的不同。比如老版本的 gcc 用了一个假的 stl 正则库还像模像样的执行了一下。。。。
        30
    showHand043   213 天前
    遇见正则都是百度谷歌
        31
    marsgt   213 天前
    推荐个网站吧:
    https://regex101.com/
        32
    ghostsimon   213 天前
    @notgood
    可能你写的正则表达式不对吧,没看懂你正则里面的%(__prefix_line)s 是什么意思,分组的话,(.+)就可以了。
        33
    fox0001   213 天前 via Android
    推荐一本书《正则表达式必知必会》,简单易懂。

    当年我好奇与正则表达式,啃熟了,非常实用,尤其是各种文本查找替换的场合
        34
    napoleongp   213 天前
    fail2ban ?前面是时间的正则吗?那段删掉试试
        37
    cpdyj0   213 天前
    楼上 regex101.com +1 可以在线 DEBUG,能看执行步骤,优化性能
        38
    Kylin30   213 天前
    搞正则的必须要十万一个月
        39
    doraos   213 天前
    不需要死记硬背, 用到就查,或者看看书<楼上那本>系统的学一下
        40
    Valid   210 天前
    @notgood u.tools
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   4132 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 27ms · UTC 08:42 · PVG 16:42 · LAX 01:42 · JFK 04:42
    ♥ Do have faith in what you're doing.