我用Slack搜集PowerBI的资讯,今天突然发现Slack可以导出数据,于是全部导出。
不足19M的导出文件,下载了好久。不知是否没翻墙的缘故。
导出的文件是按channel来分的,每个channel下都包含一个“年-月-日.json”的文件,所以,凡是某天获取到了消息,就会有一个json文件,该天的所有消息都包含在这个json文件中。
既然有几百个json文件需要处理,我第一反应是建立一个从文件夹获取的源,就像处理csv那样,期待power bi desktop能够自动创建函数,自动合并这些json文件。可惜这次power bi desktop出错了。
所以此路不通。
最近刚好对自定义函数感兴趣,那么尝试用自定义函数来解决此问题。
首先按照创建自定义函数的步骤,引入一个单独的json文件,对其进行处理。
let
源 = Json.Document(File.Contents(para)),
转换为表 = Table.FromList(源, Splitter.SplitByNothing(), null, null, ExtraValues.Error),
#"展开的“Column1”" = Table.ExpandRecordColumn(转换为表, "Column1", {"text", "bot_id", "attachments", "type", "subtype", "ts"}, {"text", "bot_id", "attachments", "type", "subtype", "ts"}),
删除的其他列 = Table.SelectColumns(#"展开的“Column1”",{"attachments"}),
#"展开的“attachments”" = Table.ExpandListColumn(删除的其他列, "attachments"),
#"展开的“attachments”1" = Table.ExpandRecordColumn(#"展开的“attachments”", "attachments", {"author_name", "fallback", "text", "id", "author_link", "author_icon", "color", "fields", "mrkdwn_in"}, {"author_name", "fallback", "text", "id", "author_link", "author_icon", "color", "fields", "mrkdwn_in"}),
删除的副本 = Table.Distinct(#"展开的“attachments”1", {"text"})
in
删除的副本
注意第一句中的“jsonpath”是实际的单独json文件所在的全路径,要加引号。
处理完毕后,把“源”这一步中的FileContents括号中的内容全部换成一个参数,比如就用jsonpath。然后在PowerBI desktop中新建一个同名参数,把刚才的文件路径作为其值。
接下来,在PowerBI desktop中窗口左侧,选中刚才这个查询,右键选择,创建为函数。下面为创建好的函数代码。注意我用的参数是para
let
源 = (para as text) => let
源 = Json.Document(File.Contents(para)),
转换为表 = Table.FromList(源, Splitter.SplitByNothing(), null, null, ExtraValues.Error),
#"展开的“Column1”" = Table.ExpandRecordColumn(转换为表, "Column1", {"text", "bot_id", "attachments", "type", "subtype", "ts"}, {"text", "bot_id", "attachments", "type", "subtype", "ts"}),
删除的其他列 = Table.SelectColumns(#"展开的“Column1”",{"attachments"}),
#"展开的“attachments”" = Table.ExpandListColumn(删除的其他列, "attachments"),
#"展开的“attachments”1" = Table.ExpandRecordColumn(#"展开的“attachments”", "attachments", {"author_name", "fallback", "text", "id", "author_link", "author_icon", "color", "fields", "mrkdwn_in"}, {"author_name", "fallback", "text", "id", "author_link", "author_icon", "color", "fields", "mrkdwn_in"}),
删除的副本 = Table.Distinct(#"展开的“attachments”1", {"text"})
in
删除的副本
in
源
函数创建好之后,可以对其命名以免自己弄混掉,也可以保持原名称。我将其命名为“json”。
接下来的步骤是我们要将json这个自定义函数应用到文件夹下每一个文件上。而应用的办法就是构造这个自定义函数的参数值,这个参数值是一个全路径。因此,按照处理文件夹下所有文件的步骤,建立一个引入文件夹的源,将该文件夹下所有的文件引入进来。
let
源 = Folder.Files("C:\Users\wanght\Desktop\general"),
删除的其他列 = Table.SelectColumns(源,{"Name", "Folder Path"}),
已添加自定义 = Table.AddColumn(删除的其他列, "自定义", each json([Folder Path]&[Name])),
#"展开的“自定义”" = Table.ExpandTableColumn(已添加自定义, "自定义", {"user", "type", "subtype", "text", "ts"}, {"user", "type", "subtype", "text", "ts"}),
筛选的行 = Table.SelectRows(#"展开的“自定义”", each ([text] <> "")),
删除的副本 = Table.Distinct(筛选的行, {"text"}),
删除的其他列1 = Table.SelectColumns(删除的副本,{"Name", "text"}),
替换的值 = Table.ReplaceValue(删除的其他列1,".json","",Replacer.ReplaceText,{"Name"}),
更改的类型 = Table.TransformColumnTypes(替换的值,{{"Name", type date}}),
重命名的列 = Table.RenameColumns(更改的类型,{{"Name", "日期"}})
in
重命名的列
第一步源是引入文件夹作为源。
第二步我选择了仅保留“Name”和“Folder Path”两列。保留“Name”的原因是因为其中包含了文件名,而“Folder Path”则包含了路径。在下一步我们将利用这两列每一行的值构造前面自定义函数json的参数(那是一个全路径)。
第三步是关键操作,新增一列,引入自定义函数json,并用上一步保留的两列来构造函数json的参数。
之后的步骤是对数据本身进行处理了,超出本文范围,不再赘述。