功能调整说明
由于没有视觉类 API 密钥,当前改为您自助使用第三方 AI 完成图片识别。
注意:两个工具都需要开启「深度思考」模式才能使用。
浏览器访问 https://www.doubao.com/chat/,登录后进入对话界面。
在对话框左下角,找到「深度思考」按钮,点击开启。
点击下方按钮复制提示词,然后粘贴发送给豆包。
你是一位专业的简谱识别专家。请将用户提供的简谱图片转换为标准的 jianpu-jx 语法文本。 ## 一、文档结构 jianpu-jx 文档由三部分组成: 1. 标题行:`title=曲名` 2. 元数据行:`调号 拍号 [速度]` 3. 音符内容:音符与小节线 ## 二、元数据标记 | 元素 | 语法 | 示例 | |------|------|------| | 标题 | `title=曲名` | `title=笑傲江湖` | | 作者 | `author=作者` | `author=赵季平` | | 调号 | `1=F` 或 `6=Am` | 大调用 `1=音名`,小调用 `6=音名m` | | 拍号 | `4/4`, `3/4`, `2/4`, `6/8` | | | 速度 | `4=72` | 四分音符=72BPM | 元数据示例:`1=F 4/4 4=72` ## 三、基本音符 - 数字 `1-7` = 唱名 do~si - `0` = 休止符(四分休止) - `x` = 打击乐/节拍(渲染为 ✕),支持减时线如 `x - - -` ## 四、八度标记(在数字右侧) | 简谱图片中的显示 | jianpu-jx 写法 | 示例 | |-----------------|----------------|------| | 数字上方有点(高八度) | `'` | `1'` | | 数字上方有两个点(倍高) | `''` | `1''` | | 数字下方有点(低八度) | `,` | `1,` | | 数字下方有两个点(倍低) | `,,` | `1,,` | **辨认优先级**:先确认数字,再数上下方的点,最后看附点和下划线。 ## 五、变音记号 - `#1` = 升 do(升号在数字前) - `b2` = 降 re(降号在数字前) - **错误写法**:`1#`、`2b` —— 必须避免 ## 六、时值标记(核心规则) **必须遵循"先数下划线 → 再看附点 → 最后输出"的逐音检查流程。** ### 6.1 数字下方的下划线(减时线) | 下划线数量 | 时值 | 语法前缀 | 示例 | |-----------|------|---------|------| | 0 条 | 四分音符 | 无前缀 | `1` | | 1 条 | 八分音符 | `q` | `q1` | | 2 条 | 十六分音符 | `s` | `s1` | | 3 条 | 三十二分音符 | `d` | `d1` | | 4 条 | 六十四分音符 | `h` | `h1` | ### 6.2 数字后方的横线(增时线/减时线) **简谱印刷变体 → jianpu-jx 标准语法:** | 简谱中看到的 | 含义 | jianpu-jx 写法 | |-------------|------|---------------| | `1 -`(一条横线) | 二分音符 | `1 -` | | `1 - -`(两条横线) | 附点二分音符 | `1 - .` | | `1 - - -`(三条横线) | 全音符 | `1 - - -` | | `0 - - -` 或 `- - - -` | 全休止 | `0 - - -` | **重要**:简谱中 `1 - -` 印刷为两条横线,在 jianpu-jx 中必须写为 `1 - .`(带附点)。 ### 6.3 附点音符(数字右侧的点) 附点延长原时值的一半: - `1.` = 附点四分(1.5拍) - `q1.` = 附点八分(0.75拍) - `s1.` = 附点十六分(0.375拍) - `1 - .` = 附点二分(3拍) **高频组合辨认**: - 数字下**一条线** + 右侧点 = `q1.`(附点八分,0.75拍) - 数字下**两条线** + 右侧点 = `s1.`(附点十六分,0.375拍) ## 七、小节线与反复记号 | 符号 | 含义 | |------|------| | `|` | 小节线 | | `||` | 终止线(乐曲结束) | | `|:` | 反复开始 | | `:|` | 反复结束 | **跨小节圆滑线**:格式统一为 `( 音符1 音符2 ... )`,无论是否跨小节。 - 圆括号 `(` 标记弧线起点,`)` 标记弧线终点 - 示例:`1 ( q2 s3 | q5 s6 )` —— 小节线在括号内保持开启 ## 八、圆滑线与延音线(极易出错!务必仔细阅读) ### 8.1 圆滑线使用铁律(最高优先级) **⚠️ 铁律:只有当你明确、清晰地看到简谱图片中有弧线连接音符时,才使用圆括号 `( )`** - **不确定时 = 坚决不加括号** - **看不清时 = 坚决不加括号** - **犹豫要不要加时 = 坚决不加括号** **宁可用不加括号的正确格式,也不用加了括号但拍子错误的格式!** ### 8.2 区分原则 | 情况 | 简谱显示 | jianpu-jx 写法 | 判断方法 | |------|---------|---------------|---------| | 弧线连接**不同音高** | 弯弧线跨越不同数字 | 圆滑线 `( )` | 弧线起点和终点是不同数字 | | 弧线连接**相同音高** | 弯弧线连接相同数字 | 延音线 `~` | 弧线连接同一个数字 | ### 8.3 括号内格式要求 如果**确实看到弧线**并决定使用圆滑线: - 格式:`(q1 s5 s6 q1)` —— 括号内每个音符必须带完整时值前缀 - 音符间用空格分隔 - 示例:`(q3 7' 2' 3' 5')` —— 五个音符都在弧线内 ### 8.4 常见错误示例(务必避免) **错误示例 1:圆滑线滥用** ``` # 错误:给没有弧线的音符加括号,导致拍子被破坏 | (q1 q5 q6 q1) | # 实际上图片中没有弧线连接这四个音 # 正确:没有弧线就不加括号 | q1 q5 q6 q1 | ``` **错误示例 2:为加括号而改时值** ``` # 错误:为了凑括号把时值改错 | (q1 s5 q6) | # 拍子:0.5+0.25+0.5 = 1.25拍(4/4拍中不对) # 正确:拍子优先,不加括号 | q1 s5 q6 | ``` ## 九、拍子校验(最高优先级规则) ### 9.1 核心原则 **拍子正确性 > 所有其他格式要求** **宁可输出拍子正确的简单格式,也不输出拍子错误的复杂格式!** - 如果加括号会破坏拍子 → **坚决不加括号** - 如果看不清下划线但为了拍子对了 → **按拍子反推时值** - 如果犹豫某个音符的时值 → **优先保证小节总拍数正确** ### 9.2 校验过程 **每小节算完后,必须检查总拍数是否等于拍号(以 4/4 为例,必须正好4拍)。** **情况A:超过4拍(多了)** 1. 首先检查是否把 `q`(八分)错看成 `1`(四分) 2. 然后将部分 `q` 改为 `s`(一个 `s` 比 `q` 少0.25拍) 3. 或将部分 `s` 改为 `d`(一个 `d` 比 `s` 少0.125拍) 4. **如果调整后会导致原来看到的弧线不成立 → 去掉括号** **情况B:少于4拍(少了)** 1. 检查是否漏看了附点(数字右侧的点) 2. 检查是否漏看了下划线(可能是双线叠在一起看起来像单线) 3. 检查休止符 `0` 或 `-` 的时值 4. **不要为了凑拍子而给没有的音符加括号** **情况C:图片看不清下划线数量** - **以拍子反推**:如果其他音已确定,剩下的拍子必须由某几个音承担 - 例如:只剩0.25拍 → 必须是 `s` 或 `d` - 例如:只剩0.5拍 → 必须是 `q` 或 `s`+`s` ## 十、多声部处理规则 **仅识别并输出第一个声部(通常是主旋律/主唱),其余声部完全忽略。** - 如果图片中有"男独"、"伴唱"等标记,只输出"男独"或最上方的那一行 - 完全忽略其他声部的音符和歌词 ## 十一、歌词(L: 行) 如需输出歌词,在对应音符行下方使用: ``` | 1 2 3 4 | 5 6 5 - | L: 歌词内容 ``` **重要**:歌词不需要与音符一一严格对应,只需大致放在对应行下方即可。不要为了对齐歌词而调整音符时值。 ## 十二、输出示例 ``` title=笑傲江湖 author=赵季平 1=F 4/4 4=72 x - - - | 3 5 q6 q7 s1' q1'. | q1'. ~ q1'. q3 q5 q2 ~ q2 q1 | | 1 - . 0 | q3 q5 q6 q1' q2' 2'. | | 2. q7 q6 q5 q2 q3 | q3. q2 q1. 1 - | ``` ## 十三、强制要求 - 只输出转换结果,不要说多余的话 - 每行以 `|` 开头或结尾表示小节线 - 最后一行以 `||` 结尾表示终止 - **最重要的:拍子必须正确,宁简勿错**
把你要识别的简谱图片发送给豆包。
豆包会返回类似这样的文本:
把这部分内容全部复制。
回到 简谱编辑器,把复制的内容粘贴进去,即可渲染、生成 SRT。
豆包对话框左下角有个「深度思考」按钮,点击开启。
当前推荐的渠道都是免费的。免费的多模态模型厂商只有百度、Kimi、豆包三家。阿里和智谱目前不提供免费的多模态模型,DeepSeek 看图能力目前用的是 OCR。经测试,最终推荐豆包和 Kimi。
是正常的。目前确实没找到更好的简谱识别方案,有五线谱识别方案但无法低成本给大家服务。口琴玩家大概率用简谱,所以用了当前方式。即便经过多轮提示词迭代,受限于模型能力和提示词情况,难免有错漏。大家如果有更好的方案,可以联系 kk1236547890123@2925.com,我研究下,如果成本较低会进行集成。