关于数据记录的哲学

  • 毫无疑问: 降低耦合, 减少软件和框架的依赖
  • 提高可迁移性, 降低迁移成本
  • 跨平台, 跨设备

行业反例

  1. 为知笔记
  2. 有道云笔记
  3. 印象笔记

Background Story

大概 4 年前, 我将 Tech 笔记的内容迁移 到了自己的一个子站点, 然后使用 Hexo Serve 起来公开访问.

后期也尝试过 Docusaurus, 但是这类静态网站生成器都有一定的局限性, 我没法完全自由操作笔记渲染器和生成器.

今天我需要个 Mermaid, 明天我需要个 Exclidraw, 后天我需要个 Image Lightbox, 就算是插件也很麻烦, 这些我现在都不愿意再去折腾.

AI 时代开始的那一年我就已经将公开的笔记站点下线了, 因为我觉得没有必要喂给 AI.

最终我全部将笔记单纯扔到 NAS, 用一个简单的文件夹结构来管理, 使用 Obsidian 来查看和编辑.

有一些工作相关的笔记因为不便公开因此没有迁移, 但是我也没有在意, 就一直放到了现在.

直到前两天突然发现为知笔记的账号竟然用的是统一的密码, 于是我上去准备修改一下密码, 结果发现里面竟然还存了两百多篇笔记.

方案研究

当年我是用了一个 python 工具将为知笔记的笔记导出成 markdown 文件, 但是今天无论如何都找不到这个工具了.

我在网上找了一圈, 也没有找到合适的工具, 于是我决定自己写一个.

研究了一下相关:

  • 为知笔记是将笔记保存在本地, 未加密且内容包含:
    • 使用 HTML 方式保存的 markdown 的原文
      • 很奇葩, 类似是用 Rich Editor 导出的内容: 合法 markdown 段落被包裹在多个 <div> 里面
    • 图片等附件
  • SQLite 数据库保存了笔记的元数据

为知笔记的数据结构

.
├── index.db                ========> [ WizNote database ]
├── notes                   ========> [ Actual notes folder ]
│   ├── {06bdffb9-d9af-4e4e-8d45-3d8a488aca7b}   ========> [ Zipped notes(HTML+Images) ]
│   ├── {123e4567-e89b-12d3-a456-426614174000}
│   ├── (...)
└── wizthumb.db 

详细流程

  1. 读取 index.db 获取笔记的元数据, 内容很详细了, 包含了笔记的 GUID , 标题 , 目录 等.
     {
       // GUID
       DOCUMENT_GUID: '2e05ddd4-870e-4b3a-b38b-2a5300363f28', 
       // Title
       DOCUMENT_TITLE: 'Log: PCC - Performance Improvement.md', 
       // Location
       DOCUMENT_LOCATION: '/#Work-Archived/Archived/', 
    
    
       (…… Unnecessary fields ……)
     }
    
  2. 根据每一篇笔记 GUID, 读取 notes 文件夹下的对应文件夹, 解压缩
  3. 获取解压缩出来的 index.html 文件是笔记的内容
    • 这里是一段保存在 index.html 里面的 raw 文本:
        <body>
        [TOC]<br />
        # PCC-pcc_selectScope update<br />
        ## Requirement<br />
        根据不同的用户,在 Business Selector 中显示此用户已经拥有权限所对应的 Business<br />
        <br />
        ## Procedure<br />
        这个 CT 从 confMineral3_ebtn_PB.cfm 调用,在弹窗中出现,原来的 CT-pcc_selectScope 中只有一个<br />
        ```HTML<br />
        &lt;cfparam name="Attributes.businessDisabled" default = "false"&gt;<br />
        ```<br />
        来判断用户是否有选择 Business 的权限,现在要根据数据库中的用户权限来限定选项并允许选择<br />
        <br />
        ## Dev<br />
        ……
      
    • 很显然, 是正常合法的 markdown, 但是保存在了 html 里面
  4. 解压缩出来的 /index_files 文件夹是笔记的附件, 由于保存的是合法 markdown, 正文里面已经包含了图片的引用, 直接复制到笔记文件夹下
  5. 最终导出结果:
    final
      ├── Tech
      │   ├── Logs: Archived Logs
      │   │   ├── index.md
      │   │   └── index_files
      │   │       ├── 219ed06c-a080-41f6-a03c-915bbce626c2.png
      │   │       ├── 56026f34-073c-4601-b09d-c436b7a78ba8.png
      │   │       ├── 74beeaa8-14d3-423f-93cf-9edd220202e3.png
      │   │       ├── 94e7e3af-6bec-4faf-83c6-9b1481350601.png
      │   │       ├── a1aec740-94e0-4d50-9f78-3114fd666de6.jpg
      │   │       ├── a213075f-eda7-4172-a42f-2e73daf3ff3e.png
      │   │       ├── a59350a6-48d1-41e4-9dd0-7458dc5fce1f.png
      │   │       ├── a76ae0c2-5e54-4aa7-bfa0-1f81122bcbb2.png
      │   │       ├── de4db3b0-9e9c-4d08-9c56-e39113fa7fc2.png
      │   │       └── fefc4cc6-ba3a-48e6-814b-9e9da5b4dae7.jpg
      │   ├── Logs: CF11
      │   │   └── SQL2012 Switch
      │   │       ├── index.md
      │   │       └── index_files
      │   │           └── clip_image002.png
      └── Tmp: SQL Database Academy
          ├── index.md
          └── index_files
              ├── 185eea5e-fff9-4f86-bd7b-8e29df73a0dc.png
              ├── 5108ae70-c9c7-4c69-b55f-889cd464ac3a.jpg
              └── a3f6a93c-eff8-4410-8f20-26ef003d7517.jpg
    

代码实现

研究一小时, 码代码十分钟

https://github.com/szhshp/Wiznote2Markdown

多花 3 分钟顺手发布到 NPM

未来就可以一行命令解决所有问题

npx wiznote2markdown