博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【Pandas】Pandas求某列字符串的长度,总结经验教训
阅读量:4966 次
发布时间:2019-06-12

本文共 638 字,大约阅读时间需要 2 分钟。

测试集大小:

test.shape

(898, 11) 

 

对某列的字符串做统计长度

1、for遍历法:
start = time.time()
for i in test.index.values:
test.loc[i,'contentLen1'] = len(test.loc[i,'content'])
time.time() - start
 47.16238021850586

 

2、使用pandas的内置方法.str

%time test['contentLen2'] = test['content'].str.len()
Wall time: 61 ms 
 

 

结论

上面例子可以得出,使用pandas时千万不要盲目的使用for遍历,要学会使用pandas提供的内置方法。

for和.str方法之间的性能差距过大,不在一个数量级。使用for会造成频繁的赋值操作,造成不必要内存消耗和计算时长。

以上测试用例才898行,for的赋值耗时高达47秒,生产上的都是几百万行的数据,使用for那不就直接凉凉了?

且行且珍惜啊!

---------------------
作者:ChenVast
来源:CSDN
原文:https://blog.csdn.net/chenvast/article/details/82758281
版权声明:本文为博主原创文章,转载请附上博文链接!

转载于:https://www.cnblogs.com/jfdwd/p/11090128.html

你可能感兴趣的文章
第二部分 : 简单句的核心变化(时态)
查看>>
Daily Scrum 10.30
查看>>
POJ 2503 单词映射(map)
查看>>
关于Mysql数据库查询数据大小写的问题汇总
查看>>
!HDU 2602 Bone Collector--DP--(裸01背包)
查看>>
Android测试(四)——内容供应器泄露
查看>>
HTML5学习路线资料,HTML5前端面试的技术栈
查看>>
letecode [532] - K-diff Pairs in an Array 解法优-时间复杂度O(nlogn),空间O(1)
查看>>
sqlce wp
查看>>
数据结构线性表的经典笔试面试题
查看>>
前端自动化构建工具 Webpack——3 webpack配置文件的使用
查看>>
t4模板的认识
查看>>
XShell命令行使用
查看>>
jQuery设置和获取HTML、文本和值
查看>>
国内著名黑客信息
查看>>
Celery 分布式任务队列快速入门
查看>>
head标签
查看>>
08.存储Cinder→5.场景学习→03.Attach Volume→2.实际操作
查看>>
R语言学习 - 线图绘制
查看>>
eos超时 锁表问题 网友办法
查看>>