我们使用pyspark 读取Hive里的表格,存储到HDFS,再get到跳板机,再rsync到本地,再用dask读取为Dataframe。
Mac 通过 socks5 代理 连接 ssh 的方法🏆
经过一番痛苦的折腾,我才发现**socks,http代理等使用的是TCP或UDP协议, 而ping命令则是ICMP协议, 所以proxychains4对ping命令无效.**,最终又折腾过tsocks等和proxychains一样德行的以后,最终在万能的Stack Overflow找到答案:即通过NetCat (nc)连接
1 | vim ~/.ssh/config |
之后直接使用ssh
命令连接即可😎😂
moving averge 滑动平均
moving averge 即滑动平均,时间序列处理中常见的方法,简单来说,就是对于一个给定数列,设定一个窗口值N,依次取第1项第N项,第2项第N+1项,第3项~第N+2项的平均值,以此类推。
keras 中模型的保存及重用
深度学习中如何保存最佳模型,如何重用已经保存的模型?本文主要介绍Keras 保存及重用模型的方法
处理大数据集的建议
最近的一些比赛如TalkingData AdTracking Fraud Detection Challenge | Kaggle提供了很大的数据集,一般来说,只有16G的内存的“小”电脑都无法直接处理这种数据集了,本文收集了一些关于处理这种数据的建议,供大家参考。
VPS搭建私人BT离线服务器
使用闲置的VPS搭建私人BT离线服务器的方法,亦或者推广至树莓派或者家用路由器亦可。
numpy 中增加channel的方法
numpy 数组中一维怎么转二维和多维?简述 numpy 中增加channel的方法。
python 正则实用例子
本文主要关于python的正则表达式的符号与方法。