命运透出了霞光
2023-10-31 来源:百合文库
最近比较焦虑。
自从上次反向工程了某交易软件的底层颗粒数据之后,很久没有碰数据了。
无意中拿到某大厂给的实际数据,真是又惊又喜,数据到手的时候直接失眠了!类似的东西自己几年前就想做了,只是被各种琐事搞得准备工作走走停停,一直鼓不起勇气开工。一下子直接到手,实在太意外,太惊喜,庆幸自己的会计背景能给之完全不同的解析视角。就像突然被人塞了一个金矿富矿,顿觉自己拥有了一整个新世界。
接下来就是怎么冶炼了。就这样卷入了一场竞赛中,紧迫感啊,紧迫感。
可是,单个txt文件就有差不多20G,虽然免去了之前反向工程的时候读二进制码流的痛苦,但常用的笔记本打开就差不多20多分钟,至于操作和计算就别想了。贪图Python方便的modules,硬着头皮用Python,但加载数据的过程太痛苦,读一个文件入内存就要快30分钟,代码Debug的过程中更是苦不堪言。首先想到的是改用SAS,确实可以轻松操作数据集了,但那么多函数,全部自己动手造轮子,太难了。又想着可不可以搞分布计算,但这基本就是要从零开始。