正则表达式分组与引用的使用

目录
  • 0.写在前面
  • 1.分组与编号
  • 2.不保存子组
  • 3.分组引用
  • 4.查找与替换
    • 查找
    • 替换
  • 5.在文本编辑器中使用
    • 查找
    • 替换
  • 6.写在最后

0.写在前面

今天我们来讲下正则中的分组与引用,其实在第一篇文章中,我们在实战环节就已经用到分组这个功能了,回顾下 IPv4 地址的正则表达式:

复制代码 代码如下:

^([1-9][0-9]?|1[0-9][0-9]|2[0-4][0-9]|25[0-5])(\.(0|[1-9][0-9]?|1[0-9][0-9]|2[0-4][0-9]|25[0-5])){3}$

可以简写下:

复制代码 代码如下:

^(条件1)(\.(条件2)){3}$

可以看到在表达式中出现了几对括号,为什么要用括号把表达式括起来,这些括号有什么作用呢,我们一起来看下。

1.分组与编号

括号在正则中可以用于分组,被括号括起来的部分可以称为子表达式,会被保存成一个子组。

举个栗子,有一个日期时间 2021-06-01 13:14:21,我们想要提取出其中的日期和时间,就要用括号对日期和时间进行分组,如下图所示:

可以看到图中有两个分组,日期分组是第1个,时间分组是第2个,我们以左括号的位置,来表示分组的标号,从1开始,第几个左括号,就是第几个分组。

上面的栗子,我们再分的细一点,我们要分别提取其中的年、月、日,时、分、秒,如下图所示:

可以看到日期的分组编号是 1,时间分组的编号是 5,年月日的分组编号分别是 2,3,4,时分秒的分组编号分别是 6,7,8。

2.不保存子组

分组是有一定的性能消耗的,在有些情况下,我们只是单纯的想要分组,后续并不想使用它,就可以在左括号的后面加上 ?: 表示不保存子组。

比如,需要是使用正则匹配目标字符串中的15位或18位数字:

功能 正则 示例
保存子组 (正则) \d{15}(\d{3})?
不保存子组 (?:正则) \d{15}(?:\d{3})?

我们之前讲过的 IPv4 正则表示就可以优化下:

复制代码 代码如下:

^(?:[1-9][0-9]?|1[0-9][0-9]|2[0-4][0-9]|25[0-5])(?:\.(?:0|[1-9][0-9]?|1[0-9][0-9]|2[0-4][0-9]|25[0-5])){3}$

3.分组引用

上面讲完了分组,我们来看下如何来引用分组,大部分语言都是用 反斜杠 + 编号 的方式,个别的比如 JavaScript语言,使用的是 美元符号 + 编号 的方式:

编程语言 查找时引用方式 替换时引用方式
Python \number 如 \1 \number 如 \1
Go 官方包不支持 官方包不支持
Java \number 如 \1 $number 如 $1
JavaScript $number 如 $1 $number 如 $1
PHP \number 如 \1 \number 如 \1
Ruby \number 如 \1 \number 如 \1

4.查找与替换

查找

到这里我们已经学完了分组与引用的知识,一起来实践下,有这样一个需求,在一个目标字符串中,查找两个重复出现的单词。

还没有学到单词边界,我们先用 \w{2,} 来表示出现的单词,重复的单词就是 (\w{2,} \1),看下结果:

替换

上面的内容,我们讲到了日期的分组,来替换下:

对应的 Python 代码如下:

import re

test_str = "2021-06-01 13:14:21"
regex = r"((\d{4})-(\d{2})-(\d{2})) ((\d{2}):(\d{2}):(\d{2}))"
subst = r"\2年\3月\4日 \6时\7分\8秒"
result = re.sub(regex, subst, test_str)
print(result)

输出:2021年06月01日 13时14分21秒

5.在文本编辑器中使用

正则表达式不仅可以在代码中使用,在文本编辑器中也是比较常用的,以 Sublime Text 3 举例来讲下正则的查找与替换,学完之后,会让你的工作事半功倍。

点击 Find -> Find 选项,或者使用快捷键 Ctrl + F 可以唤起查找功能:

点击 Find -> Replace 选项,或者使用快捷键 Ctrl + H 可以唤起替换功能:

查找

我们来实现一个查找邮箱的功能,此处的邮件正则只是简单演示使用,当点击 Find All 按钮后,可以看到邮箱都被找到了,此时如果点击 Ctrl + C 复制,可以把找到的邮箱单独粘贴出来:

替换

演示下我们上面讲过的替换例子:

怎么样,是不是很方便,几乎所有的主流编辑器都是支持正则的,学会了正则,对我们的工作帮助还是挺大的。

6.写在最后

最后在总结下上面讲到的内容:

正则表达式在线校验工具:https://regex101.com/

到此这篇关于正则表达式分组与引用的使用的文章就介绍到这了,更多相关正则表达式 分组与引用内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

时间: 2021-07-23

详解JavaScript正则表达式之分组匹配及反向引用

语法 元字符:(pattern) 作用:用于反复匹配的分组 属性$1~$9 如果它(们)存在,用于得到对应分组中匹配到的子串 \1或$1 用于匹配第一个分组中的内容 \2或$2 用于匹配第一个分组中的内容 ... \9或$9 用于匹配第一个分组中的内容 用法示例 var reg = /(A+)((B|C|D)+)(E+)/gi;//该正则表达式有4个分组 //对应关系 //RegExp.$1 <-> (A+) //RegExp.$2 <-> ((B|C|D)+) //RegExp.

正则表达式之分组的回溯引用问题

正则表达式简介 正则表达式,又称规则表达式.(英语:Regular Expression,在代码中常简写为regex.regexp或RE),计算机科学的一个概念.正则表达式通常被用来检索.替换那些符合某个模式(规则)的文本. 许多程序设计语言都支持利用正则表达式进行字符串操作.例如,在Perl中就内建了一个功能强大的正则表达式引擎.正则表达式这个概念最初是由Unix中的工具软件(例如sed和grep)普及开的.正则表达式通常缩写成"regex",单数有regexp.regex,复数有r

浅谈正则表达式中的分组和引用实现方法

问题 在外刊君读者群中看到有人提出这样的一个需求: 把字符串切成连续相同字符的正则怎么写?比如abbcccdddd切成a,bb,ccc,dddd 之前我对正则表达式也是略有研究,想尝试一下.其实我对正则表达式的学习基本完全来源于犀牛书的第10章,真正看懂这一章,我觉得操作正则表达式应该不在话下. 我的答案 先给出我的答案吧: 'abbccddd'.match(/(\w)\1*/g) // ["a", "bb", "cc", "ddd&q

浅谈Java中的四种引用方式的区别

强引用.软引用.弱引用.虚引用的概念 强引用(StrongReference) 强引用就是指在程序代码之中普遍存在的,比如下面这段代码中的object和str都是强引用: Object object = new Object(); String str = "hello"; 只要某个对象有强引用与之关联,JVM必定不会回收这个对象,即使在内存不足的情况下,JVM宁愿抛出OutOfMemory错误也不会回收这种对象. 比如下面这段代码: public class Main { publi

浅谈PHP中关于foreach使用引用变量的坑

写PHP好多年,但仍然会犯低级错误,今天遇到个 foreach中引用变量时的坑,PHP版本为 5.6.12 代码如下: <?php $arr = ['a', 'b', 'c', 'd', 'e']; foreach ($arr as $i=>&$a) { $a = $a.'_'. $a; echo $a .'<br>'; } echo '<hr>'; foreach ($arr as $i=>$a) { echo $a .'<br>'; } e

浅谈Python中函数的定义及其调用方法

一.函数的定义及其应用 所谓函数,就是把具有独立功能的代码块组织成为一个小模块,在需要的时候调用函数的使用包含两个步骤 1.定义函数–封装独立的功能 2.调用函数–享受封装的成果 函数的作用:在开发时,使用函数可以提高编写的效率以及代码的重用'' 函数: 函数是带名字的代码块,用于完成具体的工作 需要在程序中多次执行同一项任务时,你无需反复编写完成该任务的代码,而只需调用该任务的函数,让python运行其中的代码,你将发现,通过使用函数,程序编写,阅读,测试和修复都将更容易 1.定义函数 def

浅谈Java中hashCode的正确求值方法

本文研究的主要是Java中hashCode的正确求值方法的相关内容,具体如下. 散列表有一项优化,可以将对象的散列码(hashCode)缓存起来,如果散列码不匹配,就不会检查对象的等同性而直接认为成不同的对象.如果散列码(hashCode)相等,才会检测对象是否相等(equals). 如果对象具有相同的散列码(hashCode),他们会被映射到同一个散列桶中.如果散列表中所有对象的散列码(hashCode)都一样,那么该散列表就会退化为链表(linked list),从而大大降低其查询效率. 一

浅谈Django中view对数据库的调用方法

question: Django中对数据库的调用非常的隐蔽,在各种复杂的模块互相拼接继承中很难发现获取数据库内容的部分 来,开始试图理解一下下 首先,数据库中的表对应的是model中的每一个类,类中的变量对应表的属性,通常属性名就是变量名.有一个比较特殊的东西就是ForeignKey,它代表了与其他表的关联约束键,即SQL中的约束键,通常和其他表中的主键primary key相关联. 理解了model是我们定义的数据表,接下来的事情就会越发的简单,我们都知道网页中的data信息是通过Django

浅谈.NET中加密和解密的实现方法分享

.NET将原来独立的API和SDK合并到一个框架中,这对于程序开发人员非常有利.它将CryptoAPI改编进.NET的System.Security.Cryptography名字空间,使密码服务摆脱了SDK平台的神秘性,变成了简单的.NET名字空间的使用.由于随着整个框架组件一起共享,密码服务更容易实现了,现在仅仅需要学习 System.Security.Cryptography名字空间的功能和用于解决特定方案的类. 加密和解密的算法 System.Security.Cryptography名字

浅谈C#中HttpWebRequest与HttpWebResponse的使用方法

这个类是专门为HTTP的GET和POST请求写的,解决了编码,证书,自动带Cookie等问题. C# HttpHelper,帮助类,真正的Httprequest请求时无视编码,无视证书,无视Cookie,网页抓取 1.第一招,根据URL地址获取网页信息 先来看一下代码 get方法 public static string GetUrltoHtml(string Url,string type) { try { System.Net.WebRequest wReq = System.Net.Web

浅谈Android中多线程切换的几种方法

我们知道,多线程是Android开发中必现的场景,很多原生API和开源项目都有多线程的内容,这里简单总结和探讨一下常见的多线程切换方式. 我们先回顾一下Java多线程的几个基础内容,然后再分析总结一些经典代码中对于线程切换的实现方式. 几点基础 多线程切换,大概可以切分为这样几个内容:如何开启多个线程,如何定义每个线程的任务,如何在线程之间互相通信. Thread Thread可以解决开启多个线程的问题. Thread是Java中实现多线程的线程类,每个Thread对象都可以启动一个新的线程,注

浅谈js中的引用和复制(传值和传址)

好像一般很少人讲到js中的引用和复制,不过弄清楚这个概念可以帮助理解很多东西 先讲一下很基础的东西,看看js中几种数据类型分别传的什么 引用:对象.数组.函数 复制:数字.布尔 字符串单独说明,因为它的特殊性,无法确定是传递引用还是复制数值(因为字符串的值是没法改变的,所以纠结这个问题也是没意义的)但是用于比较的时候显然是属于传值比较(稍后具体说比较的事) 下面讲一下在使用中的具体体现 最普通的使用就是赋值了 var a = 1; var b = a; //赋的是a的复制值 b ++; aler