【Pandas】Pandas求某列字符串的长度，总结经验教训-白红宇

【Pandas】Pandas求某列字符串的长度，总结经验教训

阅读量：4966 次

发布时间：2019-06-12

本文共 638 字，大约阅读时间需要 2 分钟。

测试集大小：

test.shape

(898, 11)

对某列的字符串做统计长度

1、for遍历法：

start = time.time()

for i in test.index.values:

test.loc[i,'contentLen1'] = len(test.loc[i,'content'])

time.time() - start

47.16238021850586

2、使用pandas的内置方法.str

%time test['contentLen2'] = test['content'].str.len()

Wall time: 61 ms

结论

上面例子可以得出，使用pandas时千万不要盲目的使用for遍历，要学会使用pandas提供的内置方法。

for和.str方法之间的性能差距过大，不在一个数量级。使用for会造成频繁的赋值操作，造成不必要内存消耗和计算时长。

以上测试用例才898行，for的赋值耗时高达47秒，生产上的都是几百万行的数据，使用for那不就直接凉凉了？

且行且珍惜啊！

---------------------

作者：ChenVast

来源：CSDN

原文：https://blog.csdn.net/chenvast/article/details/82758281

转载于:https://www.cnblogs.com/jfdwd/p/11090128.html

你可能感兴趣的文章

关于Mysql数据库查询数据大小写的问题汇总

查看>>

！HDU 2602 Bone Collector--DP--（裸01背包）

查看>>

Android测试（四）——内容供应器泄露

查看>>

HTML5学习路线资料，HTML5前端面试的技术栈

查看>>

letecode [532] - K-diff Pairs in an Array 解法优-时间复杂度O(nlogn)，空间O(1)

前端自动化构建工具 Webpack——3 webpack配置文件的使用

08.存储Cinder→5.场景学习→03.Attach Volume→2.实际操作