大模型时代应该如何网上冲浪
JINA AI 的 ReaderLM v2 是一个小语言模型,只做一件事就是: HTML -> Markdown or JSON
有了大模型,我们可能会逐步缺乏耐心,还像从前一样,逐字逐句地阅读网页了。虽然有很多浏览器插件可以辅助你阅读(以及在侧边栏提供一个 Chat 窗口,供你对网站提问),但我使用下来,似乎没有几个能真正理解当前网页内容的。很容易出现幻觉。且此类插件,我发现多以总结网页内容为主,写的像模像样,但写给谁看呢?你看了之后可能还是一头雾水。
有了 DeepSeek 的免费 API,我们就可以利用 Cherry Studio 的 知识库 功能,将网页内容转换为知识库,然后 DeepSeek 就可以更高效的帮我们阅读网页的内容了。
而网页最初设计,都是给人看的,夹杂着各种各样的 CSS 样式,以及 HTML 标签。如果一股脑都喂给 LLM,首先 token 成本就很高,其次,LLM 也很难理解这些样式和标签。
此时,JINA AI 的 ReaderLM v2 就派上用场了。
你只需要先把网页喂给它即可:
然后 Ctrl + S 保存网页内容,并选择保存为 Markdown 或 JSON。塞入 Cherry Studio 的知识库即可。
此时你可以主动询问关于网页的问题点,然后选择相应的知识库即可。
这个冲浪的效率会高很多。
延伸
JINA AI 这个毕竟只是一个轻量级的模型,我们也可以更暴力的直接使用全能的大模型来做这件事。
这个工具或许可以帮忙,有空可以基于这个写一个 app,做类似的事情。