1. 检查电子邮件地址格式
在数据处理中,验证电子邮件地址的格式是非常常见的需求。Python正则表达式可以轻松实现这一功能。
import re
def validate_email(email):
pattern = r'^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$'
return re.match(pattern, email) is not None
# 示例
print(validate_email("example@example.com")) # 输出:True
print(validate_email("example.com")) # 输出:False
2. 提取网页中的电话号码
网页中的电话号码格式通常不统一,但我们可以使用正则表达式提取它们。
import re
def extract_phone_numbers(text):
pattern = r'\b\d{3}[-.]?\d{3}[-.]?\d{4}\b'
return re.findall(pattern, text)
# 示例
text = "请拨打123-456-70或(987)654-3210联系我们。"
print(extract_phone_numbers(text)) # 输出:['123-456-70', '(987)654-3210']
3. 替换文本中的特定内容
正则表达式可以用来替换文本中的特定内容,例如将所有大写字母转换为小写字母。
import re
def replace_text(text, old, new):
pattern = re.compile(old)
return pattern.sub(new, text)
# 示例
text = "Hello, World!"
print(replace_text(text, r'\b[Hh]ello\b', 'Hi')) # 输出:Hi, World!
4. 分割文本
正则表达式可以用来分割文本,例如按照空格、标点符号等。
import re
def split_text(text, pattern=r'\s+'):
return re.split(pattern, text)
# 示例
text = "Hello, World! This is a test."
print(split_text(text)) # 输出:['Hello', ',', 'World', '!', 'This', 'is', 'a', 'test', '.']
5. 验证身份证号码格式
在中国,身份证号码是13或18位数字。我们可以使用正则表达式来验证其格式。
import re
def validate_id_card(id_card):
pattern = r'^\d{15}|\d{18}$'
return re.match(pattern, id_card) is not None
# 示例
print(validate_id_card("1234567012345")) # 输出:True
print(validate_id_card("12345670123456")) # 输出:False
通过以上5个实用技巧,您可以使用Python正则表达式轻松提升数据处理效率。希望这些技巧能对您有所帮助!