1.ONNX一本通:综述&使用&源码分析(持续更新)
2.PyTorch 源码分析(一):torch.nn.Module
3.Python数据分析系列多个dataframe写入同一个excel文件(案例源码)
4.Python modbus_tk 库源码分析
5.Python特征工程系列基于相关性分析的源码特征重要性分析(案例+源码)
6.Python数据分析系列读取Excel文件中的多个sheet表(案例+源码)
ONNX一本通:综述&使用&源码分析(持续更新)
ONNX详解:功能概述、Python API应用与源码解析
ONNX的分析核心功能集中在模型定义、算子操作、源码序列化与反序列化,分析以及模型验证上。源码它主要通过onnx-runtime实现运行时支持,分析原生tv盒子源码包括图优化和平台特定的源码算子库。模型转换工具如tf、分析pytorch和mindspore的源码FMK工具包负责各自框架模型至ONNX的转换。ONNX Python API实战
场景一:构建线性回归模型,分析基础操作演示了API的源码使用。
场景二至四:包括为op添加常量参数、分析属性以及控制流(尽管控制流在正式模型中应尽量避免)。源码
场景五和后续:涉及for循环和自定义算子的分析添加,如Cos算子,源码涉及算子定义、添加到算子集、Python实现等步骤。
源码分析
onnx.checker:负责模型和元素的检查,cpp代码中实现具体检查逻辑。
onnx.compose、onnx.defs、onnx.helper等:提供模型构建、算子定义和辅助函数。
onnx.numpy_helper:处理numpy数组与onnx tensor的转换。
onnx.reference:提供Python实现的op推理功能。
onnx.shape_inference:进行模型的形状推断。
onnx.version_converter:处理不同op_set_version的转换。
转换实践
ONNX支持将tf、pytorch和mindspore的模型转换为ONNX格式,同时也有ONNX到TensorRT、MNN和MS-Lite等其他格式的转换选项。总结
ONNX提供了一个统一的shareaza源码IR(中间表示)框架,通过Python API构建模型,支持算子定义的检查和模型的序列化。同时,它利用numpy实现基础算子,便于模型的正确性验证,并支持不同框架模型之间的转换。PyTorch 源码分析(一):torch.nn.Module
nn.Module是PyTorch中最核心和基础的结构,它是操作符/损失函数的基类,同时也是组成各种网络结构的基类(实际上是由多个module组合而成的一个module)。
在Python侧,2.1回调函数注册,2.2 module类定义中,有以下几个重点函数:
重点函数一:将模型的参数移动到CUDA上,内部会遍历其子module。
重点函数二:将模型的参数移动到CPU上,内部会遍历其子module。
重点函数三:将模型的参数转化为fp或者fp等,内部会遍历其子module。
重点函数四:forward函数调用。
重点函数五:返回该net的所有layer。
在类图中,PyTorch的算子都是module的子类,包括自定义算子和整网定义。
在C++侧,3.1 module.to("cuda")详细分析中,本质是将module的parameter&buffer等tensor移动到CUDA上,最终调用的是tensor.to(cuda)。
3.2 module.load/save逻辑中,PyTorch模型保存分为两种,一种是纯参数,一种是带模型结构(PyTorch中的模型结构,本质上是vbnet 源码由module、sub-module构造的一个计算图)。
parameter、buffer是通过key-value的形式来存储和检索的,key为module的.name,value为存储具体数据的tensor。
InputArchive/OutputArchive的write和read逻辑。
通过Module,PyTorch将op/loss/opt等串联起来,类似于一个计算图。基于PyTorch构建的ResNet等模型,是逐个算子进行计算的,tensor在CPU和GPU之间来回流动,而不是整个计算都在GPU上完成(即中间计算结果不出GPU)。实际上,在进行推理时,可以构建一个计算图,让整个计算图的计算都在GPU上完成,不知道是否可行(如果GPU上有一个CPU就可以完成这个操作,不知道tensorrt是否是这样的操作)。
Python数据分析系列多个dataframe写入同一个excel文件(案例源码)
本文演示如何使用Python的pandas库将多个DataFrame写入同一个Excel文件中,每个DataFrame作为独立的sheet。通过以下步骤实现:
首先,创建两个DataFrame df1 和 df2。然后指定Excel文件路径为"dataframes.xlsx"。使用pd.ExcelWriter()创建ExcelWriter对象,通过to_excel()方法将df1和df2写入Excel文件的不同sheet中,分别命名为Sheet1和Sheet2。最后,运行代码后,会在指定路径下生成包含两个sheet的"dataframes.xlsx"文件。
运行示例代码,你将看到在指定路径下生成的exlipseapi源码"dataframes.xlsx"文件,该文件包含df1和df2的数据。
本文由一位在读研期间发表6篇SCI数据算法相关论文的作者撰写,目前在某研究院从事数据算法研究工作。作者致力于只做原创,以简单易懂的方式分享Python、数据分析、特征工程、机器学习、深度学习和人工智能等基础知识与案例。关注公众号"数据杂坛",获取更多内容。
原文链接:Python数据分析系列多个dataframe写入同一个excel文件(案例源码)
Python modbus_tk 库源码分析
modbus_tcp 协议是工业项目中常用的设备数据交互协议,基于 TCP/IP 协议。协议涉及两个角色:client 和 server,或更准确地称为 master 和 slave。modbus_tk 库作为 Python 中著名且强大的 modbus 协议封装模块,其源码值得深入分析,尤其是在关注并发量等方面的需求时。深入研究 modbus_tk 库的源代码和实现逻辑,对在库的基础上进行更进一步的开发尤其重要。因此,本文旨在提供对 modbus_tk 库源码的深入解析,以供参考。
实例化 TcpMaster 对象时,首先导入 TcpMaster 类,该类继承自 Master,但在实例化时并未执行任何操作。Master 的 `__init__()` 方法同样没有执行任何具体任务,这使得 TCP 链接在创建 TcpMaster 实例时并未立即建立。TCP 链接的建立在 `open()` 方法中实现,该方法由 TcpMaster 类执行。在 `open()` 方法中,comtains源码自定义了超时时间,进一步保证了 TCP 连接的建立。
在 TcpMaster 类的 `execute()` 方法中,核心逻辑在于建立 TCP 协议的解包和组包。在读写线圈或寄存器等操作时,都会调用 `execute()` 方法。详细分析了 `execute()` 方法的具体实现,包括通过注释掉的组包等过程代码,以及 `TcpMaster._make_query()` 方法的实现。`_make_query()` 方法封装了请求构建过程,包括生成事务号、构建请求包和发送请求。
在请求构建完成后,`_send()` 方法负责通过 `select` 模块进行连接状态检测,确保发送数据前连接无异常。通过分析 `execute()` 方法的后续逻辑,我们能够看到一个完整的组包、发送数据及响应解析的源码流程。响应解析涉及 `TcpMaster.execute()` 方法中对 MBAP 和 PDU 的分离、解包及数据校验。
在解析响应信息时,`TcpQuery().parse_response()` 方法解包并验证 MBAP 和 PDU,确保数据一致性。通过此过程,获取了整个数据体,完成了响应信息的解析。在 `execute()` 方法的后续部分,没有执行新的 I/O 操作,进一步简化了流程。
为了保障线程安全,`threadsafe` 装饰器被添加在 `Master.execute()` 方法及 `TcpQuery._get_transaction_id()` 方法上。这一装饰器确保了跨线程间的同步,但可能引起资源竞争问题。在实际应用中,为了避免同一设备不能同时读写的情况,可以显式传递 `threadsafe=False` 关键字参数,并实现自定义锁机制。
modbus_tk 模块提供了丰富的钩子函数,如 `call_hooks`,在数据传递生命周期中自动运行,实现特定功能的扩展。常见的钩子函数包括初始化、结束、请求处理等,这些功能的实现可以根据具体需求进行定制化。
Python特征工程系列基于相关性分析的特征重要性分析(案例+源码)
本文探讨基于相关性分析的特征重要性评估方法,通过计算特征与目标变量之间的相关系数,初步筛选特征。常用的相关系数包括皮尔逊相关系数和斯皮尔曼等级相关系数。
皮尔逊相关系数衡量连续变量间的线性关系强度,斯皮尔曼相关系数适用于评估变量间的等级单调关系,尤其非线性数据。在统计学中,这为快速评估特征重要性提供了有效手段。
实现过程中,首先准备数据,明确目标变量和特征变量。接着,通过划分训练集与测试集,对训练集进行数据重构。热力图通过可视化展示特征间相关系数,直观显示特征与标签间关系。
通过代码实现相关性分析,计算属性间相关系数,并生成热力图结果。此方法能帮助快速识别与目标变量关联度高的特征,为后续模型构建奠定基础。
作者为读研期间发表6篇SCI数据算法论文的研究人员,现专注于数据算法研究工作。致力于分享Python、数据分析、特征工程等基础知识与案例,关注原创内容,以简便方式讲解复杂概念,促进共同学习与成长。
Python数据分析系列读取Excel文件中的多个sheet表(案例+源码)
在Python中使用pandas库,读取Excel文件中的多个sheet表变得极其便捷。假设有一个名为“光谱响应函数.xlsx”的Excel文件,其中包含多个sheet表。
Excel文件,如同数据库,存储着一张或多张数据表。本文将展示如何依次读取Excel文件中的每一个sheet表。
首先,定义excel文件路径,通过pd.ExcelFile()创建一个Excel文件对象xls。利用该对象的sheet_names方法获取所有sheet表名称。然后,借助pd.read_excel函数,逐一读取每一个sheet表,并进行后续的统一处理。
以sheet_name为“ch”的读取结果为例,展示读取后的数据内容。
作者拥有丰富的科研经历,期间在学术期刊发表六篇SCI论文,专注于数据算法研究。目前在某研究院从事数据算法相关工作,致力于分享Python、数据分析、特征工程、机器学习、深度学习、人工智能等基础知识与实际案例。撰写内容时坚持原创,以简洁的方式解释复杂概念,欢迎关注公众号“数据杂坛”,获取更多数据和源码学习资源。
欲了解更多详情,请参考原文链接。
Python数据分析实战-实现T检验(附源码和实现效果)
T检验是一种用于比较两个样本均值是否存在显著差异的统计方法。广泛应用于各种场景,例如判断两组数据是否具有显著差异。使用T检验前,需确保数据符合正态分布,并且样本方差具有相似性。T检验有多种变体,包括独立样本T检验、配对样本T检验和单样本T检验,针对不同实验设计和数据类型选择适当方法至关重要。
实现T检验的Python代码如下:
python
import numpy as np
import scipy.stats as stats
# 示例数据
data1 = np.array([1, 2, 3, 4, 5])
data2 = np.array([2, 3, 4, 5, 6])
# 独立样本T检验
t_statistic, p_value = stats.ttest_ind(data1, data2)
print(f"T统计量:{ t_statistic}")
print(f"显著性水平:{ p_value}")
# 根据p值判断差异显著性
if p_value < 0.:
print("两个样本的均值存在显著差异")
else:
print("两个样本的均值无显著差异")
运行上述代码,将输出T统计量和显著性水平。根据p值判断,若p值小于0.,则可认为两个样本的均值存在显著差异;否则,认为两者均值无显著差异。
实现效果
根据上述代码,执行T检验后,得到的输出信息如下:
python
T统计量:-0.
显著性水平:0.
根据输出结果,T统计量为-0.,显著性水平为0.。由于p值大于0.,我们无法得出两个样本均值存在显著差异的结论。因此,可以判断在置信水平为0.时,两个样本的均值无显著差异。
带你一步步调试CPython源码(二、词法分析)
本文是《深入理解CPython源码调试:词法分析篇》系列的第二部分,阐述CPython解释器如何进行Python代码的词法解析。首先,让我们回顾编译原理的基本步骤,编译过程包括词法分析、语法分析、中间代码生成和优化,以及最终代码执行。在CPython中,词法分析是第一步,它会逐字符读取源码并将其转换为内部字节流,便于后续处理。
CPython的词法分析和语法分析并非截然分开,许多词法分析逻辑在语法分析器中合并执行,这使得parser函数中可能包含词法处理的部分。尽管本文示例基于Python3.a2,但tokenizer的更新频繁,与文章内容可能存在差异。
词法分析的核心任务是将用户输入的字符转换为token,如数字、符号等,以简化语法分析的复杂性。CPython中的词法分析逻辑存储在Grammar/Tokens文件中,其中列出了各种token及其对应的符号。这个文件虽不直接参与编译,但用于生成词法分析器,如在项目中添加相关代码并执行build.bat命令来更新。
在Python/pythonrun.c中,我们会在行设置断点,跟踪CPython调用_PyParser_ASTFromFile将字符串转换为抽象语法树的过程。接着,程序会进入_PyPegen_run_parser_from_file_pointer,进行词法和语法分析。这个阶段从_PyTokenizer_FromFile开始,创建tok_state,初始化语法分析器,然后调用_PyPegen_run_parser执行核心逻辑。
在Parser/tokenizer.c的行,程序通过tok_nextc函数逐字符读取用户输入,直到遇到换行等终止符号,期间还会调用tok_backup以处理多字符符号。随后,程序会根据Grammar/Token文件判断字符类别并生成相应的token,存储在tok_state中供语法分析使用。
最后,CPython从键盘获取用户输入是通过PyOS_Readline系统调用实现的。词法分析器的生成逻辑则依赖于Grammar/Tokens文件,通过Tools/build/generate_token.py脚本解析并生成Parser/token.c中的相关代码。
词法分析部分的解析至此完成,下篇文章将转向语法分析,探讨Pegen在其中的作用。