目录
1.引言
2.C++模拟实现
2.1模拟实现构造函数
1)直接构造
2)拷贝构造
2.2模拟实现析构函数
2.3模拟实现其他常规函数
1)c_str函数
2)size函数
3)begin/end函数
4)reserve函数
5)resize函数
6)push_back函数
7)append函数
8)insert函数
9)erase函数
10)find函数
11)substr函数
2.4模拟实现操作符重载函数
1)赋值操作符重载(深拷贝)
2)[]访问操作符重载(读写/只读)
3)+=追加操作符重载
4)关系操作符重载
5)流提取,流插入操作符重载
3.完整string
1.引言
先来说说为什么要模拟实现库里的string?
我认为,模拟实现string有以下几个意义和好处:
-
深入理解string的内部实现:通过模拟实现string,可以更深入地了解string的内部工作原理,包括字符串的存储方式、常用操作的实现方法等。这有助于提升对string的理解和掌握。
-
增强编程能力:通过模拟实现string,可以锻炼编程能力,提升自己的算法和数据结构水平。对于一些常见的操作,如字符串拼接、查找、替换等,可以通过模拟实现来加深对相应算法的理解和实现。
-
解决特定需求:有时候,标准库提供的string类可能无法满足特定需求,或者为了提高性能,我们需要自定义一个字符串类。通过模拟实现string,可以根据具体需求对其进行优化和扩展,满足特定的使用场景。
-
提高代码可读性和可维护性:自己实现string类的代码可以更加贴近业务需求和代码风格,使代码更易读、更易维护。另外,通过自己实现的string类,可以更好地理解和使用标准库提供的string类,提高自己的代码质量。
2.C++模拟实现
提前声明,由于string对象中不同类型的函数重载太多太杂,且内存池等内容太过超前,本篇仅仅模拟实现简单的构造,析构,操作符重载,深浅拷贝,大小比较,增删查改等部分函数以及拓展写时拷贝的介绍,感谢读者的支持!
建议先创建一个头文件,单独创建一个命名空间,防止已经展开了std的命名空间,实现的string与库中string发生冲突。
我们就定义命名空间为drw,将string类的私有成员变量分别定义为:
char* _str size_t size size_t capacity
并且这里还需要定义一个类外可以访问到的变量npos:
const static size_t npos
2.1模拟实现构造函数
1)直接构造
思路:
- 在接受的参数类型中必须给出一个缺省string,以便于在使用时能完成普通初始化
- 随后在初始化列表中进行初始化,给新string的_str开辟出参数字符串的长度+1个空间,请注意这里要使用strlen函数,str系列函数在遇到\0就会自动结束,因为在string中构造对象只会取字符串\0之前的内容,所以在这里用strlen实现,还请注意
- 将_capacity用字符串的长度赋值(这代表字符串能容纳有效字符的个数,不包括\0)
- 将_size用字符串的长度赋值(这代表有效字符个数,同样不包括\0)
- 最后将字符串的内容用memcpy拷贝到string中(选用memcpy的原因后面介绍)
实现:
string(const char* str = ""):_str(new char[strlen(str) + 1]), _capacity(strlen(str)), _size(strlen(str))
{//strcpy(_str, str);处理不了\0,改为memcpymemcpy(_str, str, sizeof(char) * (_size + 1));//多开一个留给\0
}
2)拷贝构造
思路:
- 拷贝构造,即用string构造新的string,思路和直接构造相差不大
- 先开辟参数string中_capacity+1的空间给新的string中的_str
- 用memcpy将参数string的内容拷贝到新string中,注意要拷贝_size+1个字节,包括\0 (注意:这里解释使用memcpy的原因:因为如果字符串中间有\0,strcpy就不会拷贝,这样实现不了拷贝构造,使用memcpy就不会有这个问题)
- 将参数string中的_size,_capacity分别赋值给新string的_size,_capacity
实现:
string(const string& str)
{_str = new char[str._capacity + 1];memcpy(_str, str._str, sizeof(char) * (str._size+ 1));_size = str._size;_capacity = str._capacity;
}
补充:
能否用直接构造函数去实现拷贝构造函数?比如:
string(const string& s)
{string tmp(s._str);swap(*this, tmp);
}
答案:很抱歉不行,因为如果string的_str字符串中间存在\0的话,就会构造出一个只有字符串\0之前内容的string,但实际的拷贝构造函数可以拷贝string中的所有内容,这样实现存在缺陷!
2.2模拟实现析构函数
思路:
- 析构函数较简单,首先delete[] 释放掉开辟的空间,将_str赋值nullptr
- 再把_capacity和_size置为0就完成了
实现:
~string()
{delete[] _str;_capacity = 0;_size = 0;_str = nullptr;
}
2.3模拟实现其他常规函数
1)c_str函数
思路:
- 该函数会将string的字符串以C语言的形式返回(本质就是返回一个字符指针指向字符串存储在堆上的空间)
- 直接返回_str
实现:
const char* c_str()const
{return _str;
}
2)size函数
思路:
- size函数是返回字符串中有效字符个数的函数,实现起来也比较简单
- 直接返回_size即可
实现:
size_t size()const
{return _size;
}
3)begin/end函数
思路:
- begin函数用来返回迭代器位置,在string中返回字符串第一个位置的迭代器
- 直接返回_str即代表指向第一个位置的指针
- end函数返回迭代器位置,在string中返回字符串最后一个字符下一个位置的迭代器
- 直接返回_str+_size即代表指向最后一个字符下一个位置的指针
- begin/end代表左闭右开的区间
- 分别有两个版本,分别是可读可写版本和可读不可写版本
- 不要忘记在string中提前重定义char*/const char*为iterator/const_iterator
实现:
iterator begin()
{return _str;
}iterator end()
{return _str + _size;
}const_iterator begin()const
{return _str;
}const_iterator end()const
{return _str + _size;
}
4)reserve函数
思路:
- reserve函数用来提前为string对象开辟一块空间,可以减少拷贝的次数,提高代码的运行效率
- 如果参数大于capacity时就扩容,如果小于在windows环境下不会缩容
- 扩容时重新开辟参数+1的空间,memcpy全部内容,_size,_capacity重新赋值给tmp临时string对象中,释放掉string原来的空间,再将tmp给_str
实现:
void reserve(size_t n)
{if (n > _capacity){char* tmp = new char[n + 1];memcpy(tmp, _str, sizeof(char) * (_size + 1));_capacity = n;delete[] _str;_str = tmp;}
}
5)resize函数
思路:
- 与reserve有异曲同工之处,在第一个参数大于原string的_capacity之后再扩容,如果小于是不需要扩容的,这时候代表删除字符
- 第一种不需要扩容的情况:删除数据,直接将_str[_size]置为\0就可以代表删除数据了,不用进行重新赋值,同时_size=n
- 第二种需要扩容的情况:直接用reserve函数扩容,再初始化新开辟的空间,这里有默认缺省值为\0,也可以传字符用来初始化新空间
- 将最后一个位置置为\0
实现:
void resize(size_t n, char ch='\0')
{if (n < _size){_str[n] = '\0';_size = n;}else{reserve(n);while (_size < n){_str[_size++] = ch;}_str[_size] = '\0';}
}
6)push_back函数
思路:
- 首先需要检查扩容,如果_size==_capacity需要扩容,这里采用简单的扩容方式:二倍扩容,如果提前string没有任何内容,_capacity为0,那么就扩容4
- 在_str[_size]赋值尾插的字符,将_size++,最后一个位置赋值\0
实现:
void push_back(char ch)
{if (_size == _capacity)//二倍扩容{reserve(_capacity == 0 ? 4 : 2 * _capacity);}_str[_size] = ch;_size++;_str[_size] = '\0';
}
7)append函数
思路:
- append可以尾插一段字符串
- 尾插字符串:必须计算要插入字符串的长度,加上_size是否大于容量_capacity,如果大于就要先reserve扩容,再把待插入字符串全部拷贝到_size的位置即可
实现:
void append(const char* str)
{size_t len = strlen(str);if (_size + len > _capacity){reserve(_size + len);//至少扩size+len}memcpy(_str + _size, str,sizeof(char)*(len+1));_size += len;
}
8)insert函数
思路:
- insert函数有很多重载类型,这里只实现pos位置的两个函数,插入字符和插入字符串
- 插入字符:先检查是否需要扩容,将pos位置的字符直到最后一个字符向后移动n个单位,将插入的字符从pos位置开始插入
- 插入字符串:先检查是否需要扩容,将pos位置的字符直到最后一个字符向后移动插入字符串的长度个单位,将字符串每个字符从pos位置依次插入
实现:
void insert(size_t pos, size_t n, char ch)
{if (_size + n > _capacity){reserve(_size + n);}size_t end = _size;while ((int)end >= (int)pos)//强制转换为了防止整型提升 陷入死循环{_str[end + n] = _str[end];end--;}for (size_t i = 0; i < n; i++){_str[pos + i] = ch;}_size += n;
}void insert(size_t pos, const char* str)
{size_t len = strlen(str);if (len + _size > _capacity){reserve(len + _size);}size_t end = _size;while ((int)end >= (int)pos)//强制转换为了防止整型提升 陷入死循环{_str[end + len] = _str[end];end--;}for (size_t i = 0; i < len; i++){_str[pos + i] = str[i];}_size += len;
}
补充:
强制类型转换的理由:如果pos=0,从0开始插入,那么最后end会减为-1,但end属于size_t类型,在比较大小时会发生强制类型转换,-1在size_t中等于非常大的数,会陷入死循环
9)erase函数
思路:
- 从一个pos位置开始删除len个长度的字符串,给len缺省参数npos,npos在前面提到过,是public中的不可修改的静态变量,这里我们现在类外定义npos为-1
- 确认要删除字符串的长度,如果len==npos或者pos+len>=_size就代表全删,只需在_str[_size]置为\0,_size置为pos就行
- 如果不全删,那么就将后面的字符移到前面来,最后_size减去len
实现:
void erase(size_t pos, size_t len = npos)
{assert(pos < _size);if (len == npos || pos + len >= _size){_str[pos] = '\0';_size = pos;}else{size_t begin = pos + len;while (begin <= _size){_str[pos++] = _str[begin++];}_size -= len;}
}
10)find函数
思路:
- find函数可以默认从开始寻找单个字符或者字符串,如果找到就返回第一个字符位置,否则返回npos
- 查找字符我们一个一个比对,查找字符串就使用strstr实现
实现:
size_t find(char ch, size_t pos = 0)
{assert(pos < _size);for (size_t i = pos; i < _size; i++){if (_str[i] == ch){return i;}}return npos;
}size_t find(const char* str, size_t pos = 0)
{assert(pos < _size);const char* ret = strstr(_str + pos, str);if (ret){return ret - _str;}else{return npos;}
}
11)substr函数
思路:
- 从一个位置开始剪切一个字符串,字符串长度len有默认缺省值npos
- 先确定len的具体长度,如果len==npos或者pos+len>=_size代表从pos开始全部剪切
- 把返回的字符一个一个临时string tmp最后返回
实现:
string substr(size_t pos = 0, size_t len = npos)
{assert(pos < _size);string tmp;size_t n = len;if (len == npos || pos + len >= _size){n = _size - pos;}tmp.reserve(n);for (size_t i = pos; i < n + pos; i++){tmp += _str[i];}return tmp;
}
2.4模拟实现操作符重载函数
1)赋值操作符重载(深拷贝)
思路:
=操作符如果不主动写编译器自动使用浅拷贝,浅拷贝和深拷贝的区别是什么?
- 浅拷贝是一个一个字节直接拷贝,地址和其他变量全部一致,这样就会导致两个对象用同一块内存,如果销毁两个对象就会发生两次析构
- 如果s1=s2,s1对象如果已经储存了字符串,那么就没有指针去管理了,这块空间被浪费,造成内存泄露
- 先用传参的string对象调用拷贝构造去构造tmp临时对象
- 将*this和tmp的三个成员变量分别交换
- tmp发生析构,销毁原属于*this的空间
实现:
string& operator=(const string& s)
{string tmp(s);swap(_str, tmp._str);swap(_capacity, tmp._capacity);swap(_size, tmp._size);//拷贝构造临时对象tmp,交换所有成员 出函数tmp析构销毁 因为交换了成员 连带着原字符串空间释放掉了return *this;
}
2)[]访问操作符重载(读写/只读)
思路:
- 读写就不需要修饰,只读需要修饰const返回const char
- 返回_str[pos]即可
实现:
char& operator[](size_t pos)
{assert(pos < _size);return _str[pos];
}const char& operator[](size_t pos)const
{assert(pos < _size);return _str[pos];
}
3)+=追加操作符重载
思路:
- 分为两种类型:单个字符和字符串,+=功能强大可以直接代替append,push_back等函数
- 单个字符:调用写好的push_back函数就行
- 字符串:调用写好的append函数就行
实现:
string& operator+=(const char ch)
{push_back(ch);return *this;
}
string& operator+=(const char* str)
{append(str);return *this;
}
4)关系操作符重载
关于>,<,==,<=,>=几种关系操作符的重载:
思路:
- 只需完成<,==两个函数,剩余的可以复用
- <:先选择最短的字符串的长度为比较长度,memcmp比较该段长度两个string的大小,如果相等再比较长度
- ==:相等必须满足长度相等以及memcmp==0
实现:
bool operator>(const string& s)const
{int ret = memcmp(_str, s._str, sizeof(char) * (_size > s._size ? s._size : _size));return ret == 0 ? _size > s._size:ret > 0;
}bool operator==(const string& s)const
{return _size == s._size && memcmp(_str, s._str, sizeof(char) * (_size)) == 0;
}bool operator>=(const string& s)const
{return *this > s || *this == s;
}bool operator<(const string& s)const
{return !(*this >= s);
}bool operator<=(const string& s)const
{return *this < s || *this == s;
}
5)流提取,流插入操作符重载
思路:
- 返回类型:必须是引用返回,ostream以及istream库做了反拷贝操作,不允许拷贝返回,在使用这两个库前先包含一下头文件,展开std的命名空间
- 参数类型:>>istream& in, drw::string& s,<<ostream& out, const drw::string& s,参数中的string前要加上drw命名空间,这点很容易忽视!>>要想s中写入数据,所以不带有const
- 关于这两个函数为什么不放在类中:成员函数默认第一个参数是this,如果放入使用时cout要放在操作符后面,不符合操作习惯
- <<:直接将每个字符输出
- >>:先将s中的内容清除,防止缓冲区中的残留数据影响提取,再定义char tmp用来接收读取的字符,用库中函数get读取字符(get类似于fget,读取完毕会指向下一个位置),(>>是不会读取空格或\n的,那么如果字符串带有空格不会读取,还存在死循环的可能,因此不能用>>读取)
- 不读取第一个字符之前的所有空格或是\n
- 用容量为128的数组收集数据多次传值给string,避免多次扩容
实现:
//流提取流插入不放入类中是因为类中成员函数第一个参数是this指针,
//s1<<cout不符合使用习惯,所以在类外定义
istream& operator>>(istream& in, drw::string& s)//这里不能加const
{s.clear();char tmp;//in >> tmp;//这样是不行的,>>不会读取空格或者是\n,默认这些为分隔符tmp = in.get();//这里get相当于fget,会读取空格和\n,读完自动指向下一个位置//str系列函数遇到\0都会结束 包括strcpywhile (tmp == ' ' || tmp == '\n'){tmp = in.get();}char arr[128] = { 0 };//提前开一个小空间,避免多次扩容int i = 0;while (tmp != ' ' || tmp != '\n'){if (i == 127){arr[i] = '\0';s += arr;i = 0;}arr[i++] = tmp;tmp = in.get();}if (i != 0){arr[i] = '\0';s += arr;}return in;
}
3.完整string
这里给出完整的实现代码:
#define _CRT_SECURE_NO_WARNINGS 1
#include<string.h>
#include<assert.h>
using namespace std;
namespace drw
{class string{public:typedef char* iterator;typedef const char* const_iterator;string(const char* str = ""):_str(new char[strlen(str) + 1]), _capacity(strlen(str)), _size(strlen(str)){//strcpy(_str, str);处理不了\0,改为memcpymemcpy(_str, str, sizeof(char) * (_size + 1));//多开一个留给\0}string(const string& str){_str = new char[str._capacity + 1];memcpy(_str, str._str, sizeof(char) * (str._size+ 1));_size = str._size;_capacity = str._capacity;}//拷贝构造现代写法//string(const string& s)//{// string tmp(s._str);//但这样像hello\0world就不行 存在缺陷// swap(*this, tmp);//}//写时拷贝/延时拷贝//先默认发生浅拷贝,让两个指向同一块空间,如果不对新的string进行改动,就不深拷贝//同时每个字符串有引用计数,代表多少个对象共用一块空间,只有当计数为1,发生析构//这样避免发生多次析构//windows下没有延时拷贝 Linux环境下延时拷贝//补充://windows环境下存在buffer数组,大小16,如果字符串大小<16就直接存在数组里//如果大于16就存在字符串中,buffer数组空间浪费掉,空间换取时间//深拷贝 神写法//浅拷贝有两种危害 1两次析构 2原string空间没有释放掉 造成内存泄露/*string& operator=(const string& s){if (this != &s){char* tmp = new char[s._capacity + 1];memcpy(tmp, s._str, s._size+1);delete[] _str;_str = tmp;_size = s._size;_capacity = s._capacity;}return *this;}*/string& operator=(const string& s){string tmp(s);swap(_str, tmp._str);swap(_capacity, tmp._capacity);swap(_size, tmp._size);//拷贝构造临时对象tmp,交换所有成员 出函数tmp析构销毁 因为交换了成员 连带着原字符串空间释放掉了return *this;}//现代://string& operator=(string tmp)//直接在传值时拷贝构造,形参的生成需要另外开辟空间,属于深拷贝//{// swap(*this, tmp);// return *this;//}const char* c_str()const{return _str;}size_t size()const{return _size;}char& operator[](size_t pos){assert(pos < _size);return _str[pos];}const char& operator[](size_t pos)const{assert(pos < _size);return _str[pos];}iterator begin(){return _str;}iterator end(){return _str + _size;}const_iterator begin()const{return _str;}const_iterator end()const{return _str + _size;}void reserve(size_t n){if (n > _capacity){char* tmp = new char[n + 1];memcpy(tmp, _str, sizeof(char) * (_size + 1));_capacity = n;delete[] _str;_str = tmp;}}void resize(size_t n, char ch='\0'){if (n < _size){_str[n] = '\0';_size = n;}else{reserve(n);while (_size < n){_str[_size++] = ch;}_str[_size] = '\0';}}void push_back(char ch){if (_size == _capacity)//二倍扩容{reserve(_capacity == 0 ? 4 : 2 * _capacity);}_str[_size] = ch;_size++;_str[_size] = '\0';}void append(const char* str){size_t len = strlen(str);if (_size + len > _capacity){reserve(_size + len);//至少扩size+len}memcpy(_str + _size, str,sizeof(char)*(len+1));_size += len;}string& operator+=(const char ch){push_back(ch);return *this;}string& operator+=(const char* str){append(str);return *this;}void insert(size_t pos, size_t n, char ch){if (_size + n > _capacity){reserve(_size + n);}size_t end = _size;while ((int)end >= (int)pos)//强制转换为了防止整型提升 陷入死循环{_str[end + n] = _str[end];end--;}for (size_t i = 0; i < n; i++){_str[pos + i] = ch;}_size += n;}void insert(size_t pos, const char* str){size_t len = strlen(str);if (len + _size > _capacity){reserve(len + _size);}size_t end = _size;while ((int)end >= (int)pos)//强制转换为了防止整型提升 陷入死循环{_str[end + len] = _str[end];end--;}for (size_t i = 0; i < len; i++){_str[pos + i] = str[i];}_size += len;}void erase(size_t pos, size_t len = npos){assert(pos < _size);if (len == npos || pos + len >= _size){_str[pos] = '\0';_size = pos;}else{size_t begin = pos + len;while (begin <= _size){_str[pos++] = _str[begin++];}_size -= len;}}size_t find(char ch, size_t pos = 0){assert(pos < _size);for (size_t i = pos; i < _size; i++){if (_str[i] == ch){return i;}}return npos;}size_t find(const char* str, size_t pos = 0){assert(pos < _size);const char* ret = strstr(_str + pos, str);if (ret){return ret - _str;}else{return npos;}}string substr(size_t pos = 0, size_t len = npos){assert(pos < _size);string tmp;size_t n = len;if (len == npos || pos + len >= _size){n = _size - pos;}tmp.reserve(n);for (size_t i = pos; i < n + pos; i++){tmp += _str[i];}return tmp;}bool operator>(const string& s)const{int ret = memcmp(_str, s._str, sizeof(char) * (_size > s._size ? s._size : _size));return ret == 0 ? _size > s._size:ret > 0;}bool operator==(const string& s)const{return _size == s._size && memcmp(_str, s._str, sizeof(char) * (_size)) == 0;}bool operator>=(const string& s)const{return *this > s || *this == s;}bool operator<(const string& s)const{return !(*this >= s);}bool operator<=(const string& s)const{return *this < s || *this == s;}void clear(){_str[0] = '\0';_size = 0;}~string(){delete[] _str;_capacity = 0;_size = 0;_str = nullptr;}private:char* _str;size_t _capacity;size_t _size;public:static size_t npos;};size_t string::npos = -1;
}
//这里必须要引用返回 不仅仅是为了提高效率 是因为io库反拷贝 后面的参数类型string
//不带上bit会和库中的string冲突!注意!
ostream& operator<<(ostream& out, const drw::string& s)
{/*for (size_t i = 0; i < s.size(); i++){out << s[i];}*/for (auto ch : s){out << ch;}return out;
}
//流提取流插入不放入类中是因为类中成员函数第一个参数是this指针,
//s1<<cout不符合使用习惯,所以在类外定义
istream& operator>>(istream& in, drw::string& s)//这里不能加const
{s.clear();char tmp;//in >> tmp;//这样是不行的,>>不会读取空格或者是\n,默认这些为分隔符tmp = in.get();//这里get相当于fget,会读取空格和\n,读完自动指向下一个位置//str系列函数遇到\0都会结束 包括strcpywhile (tmp == ' ' || tmp == '\n'){tmp = in.get();}char arr[128] = { 0 };//提前开一个小空间,避免多次扩容int i = 0;while (tmp != ' ' || tmp != '\n'){if (i == 127){arr[i] = '\0';s += arr;i = 0;}arr[i++] = tmp;tmp = in.get();}if (i != 0){arr[i] = '\0';s += arr;}return in;
}
- - - - - —————————本文结束————————— - - - - -