在Python中导入类似Excel的文本:自动parsing固定宽度的列

在Excel中,如果导入空白描述的文本,其中的列不完全排列,数据可能会丢失,如

pH pKa/Em n(slope) 1000*chi2 vdw0 CYS-I0014_ >14.0 0.00 LYS+I0013_ 11.827 0.781 0.440 0.18 

您可以select将其视为固定宽度的列,Excel可自动计算列宽,通常具有相当好的结果。 Python中是否有一个能够以类似自动方式分割格式不正确的固定宽度文本的库?

编辑:这是什么固定宽度的文本导入在Excel中看起来像。 在第一步中,您只需选中“固定宽度”单选button,然后在第二步Excel中自动添加列分隔符。 唯一不能正确执行的时间是每行中每个列中断至less没有一个空白字符重叠。

在excel中导入固定宽度的文本

首先,Excel(2003,在家)并不那么聪明。 如果你的列1000 * chi2包含空格,例如1000 * chi2,excel会猜错。

微不足道的情况:如果你的数据最初是由制表符分隔的(而不是空格),并且多个制表符被用来表示空列,那么至less在TCL中,很容易按标签内容分割每一行,而且我猜在Python中也是微不足道的。

但我猜你的问题是,他们只使用空格字符。 我看到解决这个问题的最大线索是将你的文本粘贴到记事本中,然后select一个固定大小的字体。 一切排列整齐,可以使用每行中的字符数作为“长度”的度量。

所以,如果你可以依靠你input的这个特性,那么你可以使用“筛选”方法来自动识别列中断的位置。 当您第一遍通过线路时,请注意线路中由非空白占据的“位置”,如果它被非空白占据,则从列表中消除位置。 当你走的时候,你会很快到达一组从未被非空白空间占据的位置。 这些就是你的分栏。 在你的例子中,你的“筛子”将会以10-16,23-24,32,42-47的位置结束,这些位置从来不被非空白占据(假设我可以计数)。 因此,这一套的补充是你的数据必须在的列位置。 因此,在每条线上,每个非空白区块将完全适合上面确定的位置集(即补集)中的一列。 我从来没有用Python编码过,所以附加的是一个TCL脚本,它将使用筛选方法来识别列中断在文本中的位置,并发出一个新的文本文件,并将这些空格字符replace为单个标签。 。 10-16被一个标签取代,23-24被另一个标签取代,等等。结果文件是制表符分隔的,即平凡的情况。 我承认我只是在你的小案例数据上试过,拷贝到一个名为ex.txt的文本文件中; 输出到ex_.txt。 如果标题包含空格,我怀疑它也可能有问题。

希望这可以帮助!

 set fh [open ex.txt] set contents [read $fh];#ok for small-to-medium files. close $fh #first pass set occupied {} set lines [split $contents \n];#split contents at line breaks. foreach line $lines { set chrs [split $line {}];#split each line into chars. set pos 0 foreach chr $chrs { if {$chr ne " "} { lappend occupied $pos } incr pos } } #drop out with long list of occupied "positions": sort to create #our sieve. set datacols [lsort -unique -integer $occupied] puts "occupied: $datacols" #identify column boundaries. set colset {} set start [lindex $datacols 0];#first occupied pos might be > 0?? foreach index $datacols { if {$start < $index} { set end $index;incr end -1 lappend colset [list $start $end] puts "col break starts at $start, ends at $end";#some instro! set start $index } incr start } #Now convert input file to trivial case output file, replacing #sieved space chars with tab characters. set tesloc [lreverse $colset];#reverse the column list! set fh [open ex_.txt w] foreach line $lines { foreach ele $tesloc { set line [string replace $line [lindex $ele 0] [lindex $ele 1] "\t" ] } puts "newline is $line" puts $fh $line } close $fh