字符串算法
2022/7/29 14:24:20
本文主要是介绍字符串算法,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
哈希
hash:将某个数字变成另一个数字(通常用取模运算变化)。可以理解为将明文加密成密文
如果哈希后得到的值相同,可以用链表存储,将相同的值放在一起。
字符串hash
可以将字符串视为一个k进制,然后像转十进制一样“按权展开”
将a看为1,b看为2,c看为3(不要有0,因为0乘任何数都得0)
如:(只有小写字母的字符串看为27进制)abca:1*27^3+2*27^2+3*27+1,由于数字可能超过long long,所以要对一个大质数(注意:与k互质,不然可能会成为0)取模。
哈希冲突
hash不是100%正确的,可能会存在数值相同的情况,可以使用双哈希解决,用两个大质数分别做一次哈希。判断两个数是否相同时,只有两次数值都相等,那么这两个数才相等。
子串hash
判断n次两个子串s1和s2是否相同,可以先求出每个子串串的哈希值的前缀和
左端点为l,右端点为r,的子串的哈希值就是sum[r]-sum[l-1]*b[r-l+1]
KMP算法
求字符串S在字符串T中出现几次以及出现的位置
1.Border
border:一个字符串最长的前缀也是后缀(也就是字符串最长的边界)
模板:
P3375 【模板】KMP字符串匹配
题目描述
给出两个字符串 s_1s1 和 s_2s2,若 s_1s1 的区间 [l, r][l,r] 子串与 s_2s2 完全相同,则称 s_2s2 在 s_1s1 中出现了,其出现位置为 ll。
现在请你求出 s_2s2 在 s_1s1 中所有出现的位置。
定义一个字符串 ss 的 border 为 ss 的一个非 ss 本身的子串 tt,满足 tt 既是 ss 的前缀,又是 ss 的后缀。
对于 s_2s2,你还需要求出对于其每个前缀 s's′ 的最长 border t't′ 的长度。
输入格式
第一行为一个字符串,即为 s_1s1。
第二行为一个字符串,即为 s_2s2。
输出格式
首先输出若干行,每行一个整数,按从小到大的顺序输出 s_2s2 在 s_1s1 中出现的位置。
最后一行输出 |s_2|∣s2∣ 个整数,第 ii 个整数表示 s_2s2 的长度为 ii 的前缀的最长 border 长度。
输入输出样例
输入 #1ABABABC ABA输出 #1
1 3 0 0 1
说明/提示
样例 1 解释
。
对于 s_2s2 长度为 33 的前缀 ABA
,字符串 A
既是其后缀也是其前缀,且是最长的,因此最长 border 长度为 11。
数据规模与约定
本题采用多测试点捆绑测试,共有 3 个子任务。
- Subtask 1(30 points):|s_1| \leq 15∣s1∣≤15,|s_2| \leq 5∣s2∣≤5。
- Subtask 2(40 points):|s_1| \leq 10^4∣s1∣≤104,|s_2| \leq 10^2∣s2∣≤102。
- Subtask 3(30 points):无特殊约定。
对于全部的测试点,保证 1 \leq |s_1|,|s_2| \leq 10^61≤∣s1∣,∣s2∣≤106,s_1, s_2s1,s2 中均只含大写英文字母。
【代码】
Z算法
Z box
Z box 就是 [i...i+Z[i]-1] 这个区间(类似于一个盒子)
Z 的过程:Z[2] 暴力计算: S[1...n] 和 S[2...n] 的最长公共前缀
这篇关于字符串算法的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-05-01为什么公共事业机构会偏爱 TiDB :TiDB 数据库在某省妇幼健康管理系统的应用
- 2024-04-26敏捷开发:想要快速交付就必须舍弃产品质量?
- 2024-04-26静态代码分析的这些好处,我竟然都不知道?
- 2024-04-26你在测试金字塔的哪一层?(下)
- 2024-04-26快刀斩乱麻,DevOps让代码评审也自动起来
- 2024-04-262024年最好用的10款ER图神器!
- 2024-04-2203-为啥大模型LLM还没能完全替代你?
- 2024-04-2101-大语言模型发展
- 2024-04-17基于SpringWeb MultipartFile文件上传、下载功能
- 2024-04-14个人开发者,Spring Boot 项目如何部署