title

一、更新数据日志获取

我们可以通过--log-file=/root/log.txt添加日志文件输出路径,获取更新的文件信息,如果你拥有之前的文件清单,可以采用--exclude from 参数绕过旧列表获取新文件,使用--dry-run测试一遍,无误后再执行操作,示例如下:

rclone copy 11:   My11:  --transfers 10 --bwlimit 100M   --drive-server-side-across-configs   --ignore-existing --retries 1   -v --stats 30s --log-file=/root/log.txt  --exclude-from
"/root/.config/rclone/total.txt" --dry-run

得到日志文件如下:
server side copy

如果你使用本地拷贝,去掉--drive-server-side-across-configs 那么可以得到如下类似日志:
local copy

二、使用Excel导入日志数据

通过Excel 菜单 数据>>从文本/csv导入,选择我们的log文件,编码修改为Unicode (UTF8),获得正确显示的编码,此处分隔符选择冒号,方便数据分列:

Inport

确认无误后点击右下角加载,导入数据如下:
Raw_data

三、原始数据筛选加工

这里,我们先对Column4 ,第四栏进行标签排序,普通的升序排列即可,目的是将空白信息和无关信息列出,删除对应行:
Proccess
演示情况,我们选择D2:D6707行,右键,选择 >>删除>>表行:
Proccess1
接下来Column4第四栏就是我们的文件信息了,此时查看第三栏Column3,发现三类数据:ERROR,INFO,NOTICE
我们只需要INFO类对应的第四栏文件列表数据,这是所有的新增已拷贝文件信息,我们继续处理下数据:
对第三栏进行筛选处理,文本筛选输入info,自动筛选出所有info数据,点击普通的升序排列,确认即可:
Proccess2
此时我们注意到左侧边栏所有行标数字变成了蓝色,表示显示的是筛选后的结果,同时Column3第三栏列标签右侧图标有个小小的升序图标和一个漏斗筛选图标,这样我们就获得需要的第四栏文件列表数据了,右键复制,粘贴到txt文件,保存为new_file.txt即可
Proccess3
如果你想要第四栏文件列表按升序排列,则对Column4进行升序处理即可

四、文件列表数据对比新增分析

如果你之前有file_list数据,此时获得新的file_list,想对比新增哪些文件,演示如下:
旧的文件清单我们放在第四列D,新的文件清单放在第一列A:
选择开始菜单>>条件格式>>突出显示单元格规则>>重复值,选择默认的红底颜色标记即可:
Compare
然后可以看到无色的字段就是新增的文件列表信息了,我们对A栏进行再次排序,选择条件如下图:
Compare1
获得新增文件列表有重复的信息,我们删除重复值:
Compare2

五、文件列表数据转换提取加工

通过以上步骤,我们获得了纯净详细的新增文件列表信息如下:

剧集/动漫剧/来自风平浪静的明天 (2013)/Season 01/来自风平浪静的明天.Nagi.no.Asukara.S01E01.1080p.ass
剧集/动漫剧/来自风平浪静的明天 (2013)/Season 01/来自风平浪静的明天.Nagi.no.Asukara.S01E01.1080p.mkv
剧集/动漫剧/来自风平浪静的明天 (2013)/Season 01/来自风平浪静的明天.Nagi.no.Asukara.S01E02.1080p.mkv
剧集/动漫剧/来自风平浪静的明天 (2013)/Season 01/来自风平浪静的明天.Nagi.no.Asukara.S01E03.1080p.ass
剧集/动漫剧/来自风平浪静的明天 (2013)/Season 01/来自风平浪静的明天.Nagi.no.Asukara.S01E03.1080p.mkv
剧集/动漫剧/来自风平浪静的明天 (2013)/Season 01/来自风平浪静的明天.Nagi.no.Asukara.S01E12.1080p.ass
剧集/动漫剧/来自风平浪静的明天 (2013)/Season 01/来自风平浪静的明天.Nagi.no.Asukara.S01E23.1080p.mkv
剧集/动漫剧/来自风平浪静的明天 (2013)/Season 01/来自风平浪静的明天.Nagi.no.Asukara.S01E25.1080p.mkv

而我们的分块拷贝任务列表形如:

剧集/动漫剧/埃罗芒阿老师 (2017 )/**
剧集/动漫剧/埃斯米和罗伊 (2018 )/**
剧集/动漫剧/艾斯卡与罗吉的工作室~黄昏之空的炼金术士 (2014 )/**
剧集/动漫剧/爱.死亡和机器人 (2019 )/**
剧集/动漫剧/爱吃拉面的小泉同学 (2018 )/**

那么,开始我们的数据格式转换提取吧:
首先进行数据分列:
Separate
分列依据为斜杠
然后进行组合:
选择新的M栏,输入=A1&"/"&B1&"/"&C1&"/"&D1,回车,然后下拉填充完毕
Combine
然后菜单选择插入>>数据透视表(Pivot Table),选择源数据M栏,输出到当前工作表的N栏:
Pivot table
我们对N栏的数据列表栏标签进行补齐格式,在O栏第二行输入=N2&"/**"
获得最终数据:
Final data
如需对旧拷贝分块列表数据进行对比查重,参看第四步,添加对重复值标红的条件格式即可:
选择开始菜单>>条件格式>>突出显示单元格规则>>重复值,选择默认的红底颜色标记

最后使用你的rclone或者gclone等工具,将Googledrive文件备份到OneDrive吧!推荐参数如下:

gclone copy GdriveSA:{0AP9FI_z4bj-meYNzbA}movies/   OD_20_api_data1:movies/  -v --stats 15s --transfers 8  --cache-chunk-size 20M --bwlimit 120M --max-size 100G --include-from "/root/.config/rclone/final_data.txt" --ignore-checksum --ignore-size --drive-acknowledge-abuse  --retries 1

如果仅需要记录错误记录,可以将日志等级-v改成-q,输出日志文件方便再次拷贝针对性补齐:

-q --stats 15s --log-file=/root/error_log.txt

如果不想产生历史文件版本bug导致不必要的空间占用,可以考虑关闭OneDrive 历史记录版本,
或者使用--onedrive-no-versions 参数,相关分析参看:

好了,基本上就是一个简单的数据处理excel基本使用,记录一下,方便参考,大佬有更高效的方法欢迎回复。

Last modification:October 25, 2021
If you think my article is useful to you, please feel free to appreciate