C++开发的Redis数据导入工具优化

所属分类: 软件编程 / C 语言 阅读数: 98
收藏 0 赞 0 分享

背景

使用C++开发了一个Redis数据导入工具
从oracle中将所有表数据导入到redis中;
不是单纯的数据导入,每条oracle中的原有记录,需要经过业务逻辑处理,
并添加索引(redis集合);
工具完成后,性能是个瓶颈;

优化效果

使用了2个样本数据测试:
样本数据a表8763 条记录;
b表940279 条记录;

优化前,a表耗时11.417s;
优化后,a表耗时1.883s;

用到的工具

gprof, pstrace,time

使用time工具查看每次执行的耗时,分别包含用户时间和系统时间;
使用pstrace打印实时运行,查询进程主要的系统调用,发现耗时点;
使用gprof统计程序的耗时汇总,集中精力优化最耗时的地方;

使用简介:

1.对g++的所有编辑和连接选项都必须要加上-pg(第一天由于没有在连接处加上-pg选项,导致无法出统计报告);
2.执行完程序后,本目录会产生gmon.out文件;
3.gprof redistool gmou.out > report,生成可读文件report,打开report集中优化最耗时的函数;

优化过程

优化前11.417s:

复制代码 代码如下:

time ./redistool im a a.csv
real    0m11.417s
user    0m6.035s
sys     0m4.782s (发现系统调用时间过长)

文件内存映射

系统调用时间过长,主要是文件读写,初步考虑是读取文件时,调用api次数过于频繁;
读取样本采用的是文件fgets一行行的读取,采用文件内存映射mmap后,可直接使用指针操作整个文件内存快;

日志开关提前

改进了文件读写后,发现优化效果比较有限(提高了2s左右);fgets是C的文件读取库函数,相比系统read(),是带了缓冲区了,应该不会太慢(网上有人测试,文件内存映射相比fgets()能快上一个数量级,感觉场景应该比较特殊);

之后通过pstrace工具发现log.dat打开次数过多;原来是调试日志的开关写到了后面,导致 调试日志都是会打开日志文件open("log.dat");
将日志开关提前;改进后,3.53s

复制代码 代码如下:

time ./redistool im a a.csv
real    0m3.530s
user    0m2.890s
sys     0m0.212s

vector空间预先分配

后续通过gprof分析,某个函数的vector内存分配次数多,并有不少复制次数:
改进以下这行代码:

vector <string> vSegment;
使用静态vector变量,并预先分配内存:

复制代码 代码如下:

static vector <string> vSegment;
vSegment.clear();
static int nCount = 0;
if( 0 == nCount)
{
    vSegment.reserve(64);
}
++nCount;

优化后,提升至2.286s

复制代码 代码如下:

real    0m2.286s
user    0m1.601s
sys     0m0.222s

同样,另外一个类中的成员vector也使用预先分配空间(在构造函数中):

m_vtPipecmd.reserve(256);
优化后,提升至2.166s;

复制代码 代码如下:

real    0m2.166s
user    0m1.396s
sys     0m0.204s

函数改写 && 内联

继续执行程序,发现SqToolStrSplitByCh()函数消耗过大,改写整个函数逻辑,并将改写后的函数内联:
优化后,提升至1.937s

复制代码 代码如下:

real    0m1.937s
user    0m1.301s
sys     0m0.186s

去除调试符和优化监测符号

最后,去掉debug和pg调试符号后,最终效果为1.883s;

复制代码 代码如下:

real    0m1.883s
user    0m1.239s
sys     0m0.191s

满足生产要求

以上最后几步看似毫秒级的提升,扩大到全表数据后,效果就很明显了;
优化后,生产上a表为152w,导入耗时大约326s(~6分钟);
b表数据420w,导入耗时大约1103s(~18分钟)

以上所述就是本文的全部内容了,希望大家能够喜欢。

更多精彩内容其他人还在看

用标准c++实现string与各种类型之间的转换

这个类在头文件中定义, < sstream>库定义了三种类:istringstream、ostringstream和stringstream,分别用来进行流的输入、输出和输入输出操作。另外,每个类都有一个对应的宽字符集版本
收藏 0 赞 0 分享

C++如何通过ostringstream实现任意类型转string

再使用整型转string的时候感觉有点棘手,因为itoa不是标准C里面的,而且即便是有itoa,其他类型转string不是很方便。后来去网上找了一下,发现有一个好方法
收藏 0 赞 0 分享

C/C++指针小结

要搞清一个指针需要搞清指针的四方面的内容:指针的类型,指针所指向的类型,指针的值或者叫指针所指向的内存区,还有指针本身所占据的内存区
收藏 0 赞 0 分享

C++ 类的静态成员深入解析

在C++中类的静态成员变量和静态成员函数是个容易出错的地方,本文先通过几个例子来总结静态成员变量和成员函数使用规则,再给出一个实例来加深印象
收藏 0 赞 0 分享

C++类的静态成员初始化详细讲解

通常静态数据成员在类声明中声明,在包含类方法的文件中初始化.初始化时使用作用域操作符来指出静态成员所属的类.但如果静态成员是整型或是枚举型const,则可以在类声明中初始化
收藏 0 赞 0 分享

C++类静态成员与类静态成员函数详解

静态成员不可在类体内进行赋值,因为它是被所有该类的对象所共享的。你在一个对象里给它赋值,其他对象里的该成员也会发生变化。为了避免混乱,所以不可在类体内进行赋值
收藏 0 赞 0 分享

C++中的friend友元函数详细解析

友元可以是一个函数,该函数被称为友元函数;友元也可以是一个类,该类被称为友元类。友元函数的特点是能够访问类中的私有成员的非成员函数。友元函数从语法上看,它与普通函数一样,即在定义上和调用上与普通函数一样
收藏 0 赞 0 分享

static全局变量与普通的全局变量的区别详细解析

以下是对static全局变量与普通的全局变量的区别进行了详细的分析介绍,需要的朋友可以过来参考下,希望对大家有所帮助
收藏 0 赞 0 分享

C++ explicit关键字的应用方法详细讲解

C++ explicit关键字用来修饰类的构造函数,表明该构造函数是显式的,既然有"显式"那么必然就有"隐式",那么什么是显示而什么又是隐式的呢?下面就让我们一起来看看这方面的知识吧
收藏 0 赞 0 分享

教你5分钟轻松搞定内存字节对齐

随便google一下,人家就可以跟你解释的,一大堆的道理,我们没怎么多时间,讨论为何要对齐.直入主题,怎么判断内存对齐规则,sizeof的结果怎么来的,请牢记以下3条原则
收藏 0 赞 0 分享
查看更多