dotTHz项目:太赫兹时域数据的标准数据格式

生活作者 / 花爷 / 2025-02-15 23:44
"
      从研究分子振动到观测星系,太赫兹技术在过去三十年的研究和开发中得到了广泛的应用。太赫兹时域光谱学和成像经历了

  

  

  从研究分子振动到观测星系,太赫兹技术在过去三十年的研究和开发中得到了广泛的应用。太赫兹时域光谱学和成像经历了显著的增长,现在在0.1到10太赫兹的光谱观测中占主导地位。然而,缺乏数据处理、传播和存档的标准化协议给研究小组之间的合作和共享太赫兹数据带来了挑战。为了应对这些挑战,我们提出了dotTHz项目,该项目引入了标准化的太赫兹数据格式和用于处理dotTHz文件的相关开源工具。dotTHz计划旨在通过提供一个通用框架来促进无缝数据处理和分析。所有软件组件都在MIT许可下通过GitHub存储库发布,以鼓励广泛采用,修改和协作。我们邀请太赫兹社区积极为dotTHz项目做出贡献,促进开发包含更广泛和更深入功能的其他工具。通过共同努力,我们可以建立一套全面的资源,使整个太赫兹社区受益。

  尽管太赫兹辐射具有独特的特性和潜在的应用,但直到20世纪80年代末,随着Smith等人开创性地开发出亚皮秒光导天线,太赫兹辐射的实际开发才开始[1]。这些天线在克服与产生和准确探测太赫兹辐射相关的挑战方面发挥了关键作用,这是其实际应用的主要障碍。在这些进步的基础上,Hu和Nuss[2]进一步强调了太赫兹时域成像提供的特殊机会,将其范围扩展到光谱学之外。这种能力加速了太赫兹技术在无损检测应用中的扩展,包括艺术品保护、工业产品质量检测和隐藏爆炸物检测。如今,太赫兹时域光谱学(THz-TDS)广泛应用于从基础科学到工业工程应用的各个领域[3,4,5]。太赫兹时域光谱作为一种高度专业化的工具被一小群研究实验室引入后,已经发展成为一个庞大的研究领域,其用户群从具有数十年时域技术经验的专家科学家到在商用交钥匙太赫兹- tds仪器上运行样品的一般实验室技术人员。

  太赫兹- tds的一个明显优势是它能够同时测量电场的振幅和相位信息。这使它与大多数红外光谱技术区别开来,因为它允许直接提取复折射率和复介电常数,而不依赖于Kramers-Kronig关系。太赫兹- tds的工作原理是获取时域波形,然后进行数据处理,将时域数据转换为频域频谱。这种光谱信息受数据采集和处理过程中参数设置的影响很大。因此,深入了解信号处理程序和使用的参数对于实现可重复和可再现的频谱分析至关重要。虽然商业上可用的太赫兹- tds系统通常提供一个捆绑的软件包来分析测量数据,但精确执行哪些步骤、做出哪些假设以及使用哪些参数并不总是透明的。这种透明度的缺乏可能导致数据分析方法的意外变化,以及不同供应商的仪器对同一样品的测量所得光谱数据,但使用不同的软件进行测量或处理[6]。

  因此,许多太赫兹时域领域的研究小组开发了自己的分析工具。然而,大量不兼容数据结构的使用使这些工具的交换和应用变得复杂。在定制光谱仪的情况下,简单的ASCII文本文件通常用于存储单个测量的数据。这种方法需要手动区分每次测量的样本数据和参考数据。此外,基本的元数据,如样品厚度、温度或浓度,通常是手工记录在实验室笔记本中,而不是在数字文件中捕获,这使得重新分析旧数据或与来自不同小组的同事共享数据具有挑战性。越来越多的资助者要求提供与出版物相关的所有数据,这也是一个障碍。开放获取要求通常规定以机器可读、可访问、可描述和可重用的格式提供此类数据,理想情况下包含未修改的完整数据[7]。对于商业系统,一些工具使用具有不同复杂程度的二进制文件结构。尽管如此,这些文件格式通常具有专有性质,再加上未记录的文件架构在不同的软件包版本之间可能会发生变化,这使得交换信息变得困难,而且一旦软件包更新,就不可能重新分析存档的数据。需要一种标准化的数据格式来促进协作、可重复性和对太赫兹光谱数据的长期可访问性。

  我们的研究小组使用了一套内部开发的MATLAB脚本工具,这些工具已经逐渐发展了几十年。虽然这些工具在数据分析方面为我们提供了极好的灵活性,但它们也导致了冗余的代码,并在正确记录代码和维护对算法的全面理解方面提出了挑战。此外,随着小组的发展和更多工具的可用性,我们面临着管理大量数据的日益增加的负担。

  为了解决这些问题,我们最近决定使用图形用户界面(GUI)来增强工具的可用性,以实现更直观、交互和高效的分析。然而,当我们与合作者分享这些新开发的工具时,由于不同的商业和家用光谱仪使用不同的数据格式,兼容性问题出现了。同样,太赫兹社区中个人和团体之间的合作通常仅限于特定TDS系统的用户,或者需要费力的手动数据转换以利用现有的信号处理程序。这些障碍阻碍了科学界的进步。

  为了克服这些限制,我们提出了一种解决方案,通过为太赫兹时域数据引入标准化的dotTHz格式,剑桥太赫兹转换器(CaTx,见B节)来促进这种数据格式的采用,以及剑桥太赫兹频谱分析仪(CaTSper,见C节)作为一个简单的基于gui的处理平台,用于太赫兹- tds数据分析。这两个软件工具都在MIT许可下作为开源发布[8,9]。我们还在积极开发其他工具,并将在适当时候与大家分享。此外,还可以通过在线文档获得包括处理方法、分步用户指南和内联代码注释在内的全面信息[10]。

  太赫兹时域波形由一系列数值组成,这些数值表示电场的振幅作为时间的函数。为了从这些数据中提取特定样品的光学常数,有必要记录样品的时域波形和参考波形,以及有关测量设置和样品的基本信息。这意味着需要为每个测量管理和存储至少一对数据文件。为了简单高效地管理数据,dotTHz项目采用分层数据格式第5版(HDF5)[11]。HDF5格式最初是由美国国家超级计算应用中心(NCSA)和美国能源部高级模拟和计算计划(ASC)合作开发的,用于处理广泛和复杂的数据。通过采用相同的原则,dotTHz数据格式为用户提供以下主要优势:

  1.

  简单的数据结构,便于处理。

  2.

  逻辑数据组织,有效的数据检索和引用。

  3.

  直接附加基本元数据,方便自动化处理和分析。

  4.

  能够处理来自大文件的特定数据子集。

  5.

  能够在单个数据集中存储不同类型的数据(例如时域波形,空间坐标,元数据)。

  6.

  具有连续和未压缩数据集的高速性能。

  7.

  作为开源格式的广泛平台支持。

  8.

  方便的数据共享与所有信息存储在一个单一的文件。

  dotTHz文件遵循特定的结构:对于每个测量,对应于样本和参考测量的一组数据集与包含元数据的属性一起存储,如图1所示。属性可以具有各种形式,例如数值、数字向量和字符串(表1),从而能够在后续分析和数据处理期间有效地提取和引用信息。

  图1

  figure 1

  dotTHz数据格式的层次结构:具有相关元数据的多个测量值可以存储在单个dotTHz文件中

  必须强调的是,单个dotTHz文件具有容纳多种测量的能力。这使得数据属于一个时间序列的测量或同一样品的可变温度测量的合并在一个单一的文件。此外,该方法方便和简化了实验数据的归档和共享。

  表1 dotTHz文件数据集和属性以及本标准定义的数据集的最低要求

  在下文中,我们将概述一些有代表性的用例场景,以说明我们如何设想在太赫兹社区中使用dotTHz文件格式。

  2.2.1 球团在传输过程中的THz-TDS测量

  对于单个样品的典型太赫兹- tds实验,文件将包含样品的时域波形和一个参考。所需的最小元数据将包括样品厚度。预计元数据还包含一个合适的标识符,如“TX”,以表示在传输中进行的测量。

  可选地,单个dotTHz文件可以包含多个样品和参考文献的测量值,也可以包含在不同条件下(如时间或温度的函数)对同一样品和参考文献的多次测量值,并且这些条件可以方便地存储为附加元数据,以方便后续分析。

  2.2.2 薄膜或层状结构的THz-TDS测量

  对于薄膜或多层材料的测量,元数据将包含关于每层厚度的信息,或者作为多个槽内的单个值,或者作为一个槽内的单个数字向量,以方便与后续分析工具的兼容性。

  2.2.3 太赫兹泵-探头测量

  由于太赫兹泵浦探测测量需要两个参考,因此每个测量可以使用三个数据集,分别作为数据集1、数据集2和数据集3作为样本、参考和泵浦参考。

  2.2.4 太赫兹时域成像

  太赫兹时域成像(THz-TDI)数据集包括太赫兹测量数据,特别是样本、参考和基线测量数据,以及分别用于位置相关和时间相关扫描的相关坐标和时间戳。坐标和时间戳可以存储在表1中的“Date and Time”和“coordinates”属性中。通常,由于其光栅扫描特性,THz-TDI数据集具有相当大的尺寸,并且可以通过消除冗余数据有效地减小此尺寸。CaTx提供了一个选项,只存储每次扫描的微分坐标或时间属性。

  2.2.5 非时域数据的潜在用例

  dotTHz数据集空间可用于任何矩阵形式的数据集,提供对非时域数据的兼容性。但是,有必要为每个应用程序域设置数据集分配的最小大纲,以保持其与后续分析工具的一致性和兼容性。下面是两种频域情况的示例,可以随着分析工具的开发对其进行更新,以获得更好的应用程序。

  四组s参数数据集可以存储在数据集1到4中,每个数据集将包含三行频率,幅度和相位矢量。

  调频连续波(FMCW)应用与VNA测量数据集类似,频率、同相和正交信号可以分组为一个数据集。虽然数据集目前最多可以存储四组,但这一限制是由于当前转换器工具的显示空间,并且可以通过对工具的轻微修改轻松扩展。

  摘要。

  1 介绍

  2 dotz数据格式

  3 结论

  数据和材料的可用性

  代码的可用性

  参考文献。

  致谢。

  作者信息

  道德声明

  附录

  # # # # #

  dotTHz项目的启动是为了减少太赫兹数据分析工作,同时促进太赫兹社区的合作。我们已经主动设计和引入了CaTx和CaTSper,旨在标准化处理和分析从不同太赫兹仪器获得的太赫兹数据。这些工具被成功地部署为小组数据分析常规的一部分。我们希望dotTHz格式可以促进我们社区内许多其他先进数据分析工具的发展,以许多同事的出色工作为基础[12,13,14],并促进建立数据库,参考数据集和支持未来新设备和技术的标准化测试方法[15]。

  dotTHz项目是一项正在进行的努力,未来将为不同的应用程序和数据操作方法开发更多的开源标准化太赫兹分析工具。我们邀请来自太赫兹社区的研究人员加入并为这一发展做出贡献。我们还强烈鼓励科学家、工程师和开发人员从在线存储库下载这些工具,对它们进行彻底的测试,进行必要的修改,并为丰富dotTHz项目做出贡献。通过dotTHz项目,我们的目标是使太赫兹社区更紧密地联系在一起,促进合作,并促进太赫兹领域的进一步发展。我们坚信,通过标准化和简化数据分析和处理,我们可以吸引和鼓励更多的人来探索太赫兹技术及其众多应用的巨大潜力。

  ccDownload: /内容/ pdf / 10.1007 / s10762 - 023 - 00947 - w.pdf

分享到
声明:本文为用户投稿或编译自英文资料,不代表本站观点和立场,转载时请务必注明文章作者和来源,不尊重原创的行为将受到本站的追责;转载稿件或作者投稿可能会经编辑修改或者补充,有异议可投诉至本站。

热文导读