我看人工智能 | EuDs's Blog

缘起

从2022年12月ChatGPT发布后，人工智能这个本已经十分火热的话题，变得更加万众瞩目。

人工智能。将要或者说已经改变了生活。

我将在这里记录下我的一些想法，以留给未来的自己。

2022年12月8日

(这天是个特别的一天，因为这天我第一次用上ChatGPT，所以特地摘抄了日记中的一部分如下)

8号凌晨的时候突然想注册，其实前几天就有看到有人在讨论。但觉得不太用得着。后来发现其戳到了我的痛点——语义性搜索。我感觉这将很大程度上帮助我节省时间。

所以就折腾了下。注册倒是很顺利，但好巧不巧，刚好撞上网站出问题，登录不上去。到一点多吧，才放弃。

8号早上试了下，成了，很激动。去上课了。

下午马原课翘掉，回来问了几个之前记录的问题，回答有点超出我的预料，确实顶。

2022年12月15日

了解了GPT相关的原理，想到之前看过的“如果你有无穷多的时间，你可以用来学习，但你将世界上所有的知识都学了一遍并掌握后，你就拥有了全世界”。GPT只是学了一部分，就已经有如此的能力。太强了。

2023年2月17日

虽然Github学生包中包含了Copilot的使用，但我还是没用上。因为依旧认为自己仍处于一个初学者阶段，编程还是尽量自己动手写比较好。（5月17日，为了赶小组项目开始使用，因为有了GPT等的使用，没有觉得那么惊艳了，但还是很大程度上提高了我的效率）

2023年3月20日

软件工程导论课，偏文，偏水课，大部分人都在做自己的事情，一抬头，发现至少有三个人在用ChatGPT，然后又想到这墙，哈哈!

2023年3月23日

折磨了我一天的容器代理问题，搜索了好多，打开了好多个标签页，也没有解决的，被ChatGPT一句话解决了。

那时候最大的感觉是什么？无力感？也许吧。

2023年3月30日

今天上课突然想到一点，主要是因为瞟到一个同学用ChatGPT很频繁。然后就想到，在课上使用ChatGPT，可以很方便地让自己的疑惑点得到解答，这就相当于给每个人都配备了一名助教。

2023年4月13日

逛博客看到这样一段话

I’m still incredibly ambivalent about the ethics of Copilot specifically and the modern crop of AIs (GPT-3, DALL-E, Midjourney, StableDiffusion, Whisper, …) more generally. These systems are as great as they are because they’ve ingested a massive amount of training data without any sort of consent from creators. The fact that nobody working on creating these AIs seems to give a shit about consent gives me hives. I may still become an “AI vegan”. But I’ll likely keep using Copilot for a bit while I grapple with the ethics.

训练用的数据集，我印象中StableDiffusion等图像生成的模型比较受诟病，但对ChatGPT我看到的比较少。想了想，觉得这样的差异也能理解。这篇博文提到的“AI vegan”这个词挺有意思的。

2023年4月16日

睡觉的时候突然很兴奋，挺多想法的，但现在都不太记得起来了。

2023年4月17日

想起来了一部分。

我对人工智能的发展很感兴趣也很挺有信心的。如果因其发展而导致我的就业受到影响，我认为我不应该对ai有怨言。因为这说明我无法创造出ai所创造不了的。

但我不能接受的一点是，那么好的技术，我却没机会去使用。那就太可惜了。

2023年4月18日

涌现这个概念，我觉得这是技术积累到一定程度上必然出现的一种情况。利用ChatGPT的api，不用很高的技术力就可以做出一款还算实用的应用。这个例子不是很恰当，但我认为确实是个现象。

2023年4月19日

看Generative Agents: Interactive Simulacra of Human Behavior,他们尝试实现对人类行为的可信代理。而我最近在学os，os里有很多思想、策略都可以在平时生活中找到依据。反过来，有些用到的思想也可以帮助我们在生活中更好地决策（此处应该有例子）。我觉得对人类行为的可信代理的研究也能有这种效果。然后进一步，我想到；对ai的研究，相关技术的发展，也会去改变一些习惯和思维模式。我尝试去类比几次科技革命对人类生活方式的影响，但一时也没能想出比较好的例子，权记录于此。

2023年4月30日

今天读到Elden Ring PvP and Theory of Mind。作者科普了ToM的概念，也谈到 AI 语言模型。

这篇文章让我想到之前看过的LLM继续发展下去，可能会有类似读心术的效果，能预测你下一步要做什么，甚至是在想什么。我觉得这在一定程度是可行的。因为现代所谓的一些读心术，很多都是基于微表情的观察和分析其过去的行为模式和经历上。

2023年5月5日

看了The End of Front-End Development，文章的主要结构是列举一个常见的观点，然后作者谈自己的看法。

作者尝试从以下几点去说ai并不能完全取代程序员。
- 从css诞生没多久，就一直有’no code’的工具
- GPT擅长生成小型代码，而因为缺乏大型代码的训练和限制，所以大型代码就无能为力了。（我的想法是肯定会有解决的方法，因为GPT本身就是用海量数据中训练出来的）
- 精准度。非相关人士很难能很快地找到GPT所给代码的问题所在。是可以直接把报错直接提交给ai，但“not all hallucinations will lead to exceptions”。
- security vulnerabilities。代码安全事故需要有背锅的。
整篇文章写得很不错，但有几句我觉得值得我摘抄下来。
- 作者认为“AI isn’t magic. It’s only as good as its training data.” 我现在也是这么想，但我还是期待着ai进一步突破的那天。但不知道会是先有鸡还是先有蛋——是人类先想明白思考的本质，再去赋予ai思考的能力；还是堆量到一定程度后，ai自己涌现出思考的能力。然后人类从中学习到为什么。
- “We’re very quickly reaching the point where non-developers can sit down with a chatbot and crank out a small self-contained project”。这点我已经体验到了，在ai的帮助下，我能减少学习成本，去实现之前所想的功能。
- “if it turns out that LLMs can totally replace software developers? If that’s the case, I suspect LLMs will replace a huge majority of knowledge workers.” 作者安慰人有一手的。
- “ Keep in mind that LLMs are 100% confident, but not 100% accurate.” 深有体会。

2023年5月10日

晚上的时候看了下ai翻唱的教程。本来相关的模型都下好了，但看到显存要求在6g以上就被劝退了。之前的ai绘图也是如此。

不过还是觉得今年这场ai技术的进步很有魅力。太棒了！

2023年5月16日

刷推时突然连着好几条都是差不多相同的内容:prompt的推荐。我认为好的prompt有着不可否认的作用。但对于那些雷同的文章，我怀着恶意认为是因为技术不够没办法谈及更深的层次，但为了蹭流量所以就改为prompt。

过了几天后，我觉得我这个想法不好。人家只是在分享，我恶意那么大干嘛，不喜欢的话快点滑过去就行。

2023年5月19日

苹果商店上架了openai的软件。意味着之前困扰中国用户的充值问题现在有了相对很成熟且快捷的解决方式。

虽然有些马后炮，但我觉得这算是一种趋势。现在openAI的优势相比于22年12月已经没有那么大了。各路公司都推出自己的模型。当然这和openAI对自己的部分研究成果开源的成果有关。

能看到这样的局面，而非某一家独步天下真的很棒。

但还是为自己没能用上GPT-4觉得可惜，特别想试试GPT-4宣传片中的多模态模型。

2023年10月13日

最近在打ctf的比赛，因为其中出现的敏感词。“漏洞”，“攻击”等。ai会默认你在干坏事，然后不予回答。

这时候就需要写一些prompt，比如跟它保证自己不是在干坏事，只是为了学习之类的。

写多了自己都觉得逗。似乎是在哄人一样。

ps:发现ChatGPT会比Claude要严格些。

pps:没过几天发现我的Claude账号被封了，理由大意是不正当使用。我拜托ChatGPT写了封申诉信，没多久又恢复了。在此感谢AI大人的不杀之恩！

2023年10月15日

这几天自己搭了个qqBot。用的最多的是图片生成。给了我和群友一定的乐子。它给手残的我一种感觉，诶，自己也能“画”出些有趣的图嘛。相比于stable difussion之类的，我只需要输入prompt，等一会，就能得到一张还算不错的图。这种感觉很棒。

但可惜的是：bing这几天大大收紧了对内容的限制。

2023年11月9日

重看了一遍Writing With Copilot - Jacob Kaplan-Moss

虽然其他方面我倒是很经常用ai，但我还是不太愿意借由ai进行写作，尤其是在这里。

算是自己的一种坚持吧，具体是为什么，一下子也想不清楚。

2023年11月30日

今天是ChatGPT发布一周年。logo上还带了顶小帽子。

过去一年发生了许多。多得甚至让人难以置信。

2024年1月5日

写xx原神大学是如何实现的 | EuDs’s Blog的时候,我尝试让Copilot做自动补全，是能有些帮助，但还是不习惯，会有种自己的思路被带着走的感觉。我不喜欢这种感觉，于是关掉了。

2024年1月15日

赛博测谎器

玩了下赛博测谎器，蛮有趣的。

尝试找它的作者，Github上没搜到，最后竟然是在微博上找到的。@阿尼亚是安妮亞的个人主页 - 微博。

作者说截至1月17号，已经服务超1,530,000次。而API成本除了赞助，其余全靠作者爱心发电。而根据网站统计数据可以看出，赛博测谎器和其他llm催生出的不少有意思的玩具一样，在短时间内有大量的流量。但因为高额的token费用和较难变现，可能过不了多久就被遗忘。最终也只是玩具。

ps:1月20日作者发了条仅粉丝可见的微博，内容是：

赞助的钱花光积分耗完赛博测谎仪也被勒令下线 zfb被禁言一场闹剧一段回忆

最佳平替 - 用更低价的搜索词购物

类似的还有前几天的最佳平替 - 用更低价的搜索词购物。

相比来说，这位作者要成功许多，甚至还接到了赞助。他还特地写了篇博客。消费折叠 | TL;DR，来记录相关的思考。

他的另一篇博文也很精彩：一个失败的AI女友产品 | TL;DR。里面有几个惊讶到的我的地方，记录如下；

作为一个开发者，我并没有从这个产品中赚到多少钱。…30%的苹果税和 API 成本也占了很大一部分。所以，在仔细计算成本后，我在 6 月份只赚了 50 美元左右。”

现阶段的许多AI产品，不少都是在调用OpenAI等的api的基础上完成的。诚然，这使得作者可以用相对低的时间、精力，做出相当不错的效果。但这似乎又带来了一个困境，辛辛苦苦开发出来的产品，一算token成本，到头来似乎反而成了给人打工的了。

但很快，我陷入一种强烈的失落感：如果大部分 Dolores 用户只是想在这里寻求跟 Dolores 进行成人角色扮演，这件事真的对我产生了意义吗？我陷入了深深的自我怀疑。到了 7 月，我和一个朋友聊到了这个困惑，我说，必须要有一个什么硬件，让 Dolores 拥有外部视觉：眼镜也好、耳塞甚至帽子都行。现在的她，你只要打开 App 才能访问，你们之间的关系并不对等，于是她只能成为囚禁在地下室、满足猎奇和特殊癖好的玩具。

目前的我，还不太能理解为什么作者认为加入硬件，就能让Dolores与用户之间的关系对等。

2024年1月17日

看【官方双语】9款"AI"产品大盘点@CES 2024 #linus谈科技。其中几款还蛮有意思的，甚至有点想要。好吧，重看了一遍，只有一款：

来自Plaud AI的Plaud Note，一款“AI + 录音笔”。可能是因为我看都2024了，你还没随身带录音笔吗？被安利了。不过我不太愿意让ai给我的一天作总结。有出于隐私考虑，也有因为还是自己想出来的，可能才是自己的。

视频的最后一段很犀利。摘录如下：

Realistically, there was definitely some innovation there, but also some stuff that pretty much already existed and in previous years would have been called IoT or 5G.

2024年1月22日

Soulogic 的推文

刷推刷到Soulogic 的推文，觉得评价犀利而有趣，摘录如下：

可从去年开始的 chatgpt，感觉就是所有人在用各种方式（花钱或者薅到的）将价值 5000$ 的 token 转化成 50$ 的价值，且干得很有成就感现在感觉是原始部落尝试拿着流到地表的石油去点火照明和当偏方敷伤口的阶段

我觉得现在ai的使用还停留在比较初级的阶段。一想到自己有极大可能能活到22世纪，就十分开心。因为这意味着我将见证这一科技不断发展而走向成熟的过程。

哄哄模拟器

看到哄哄模拟器的作者的总结博文：哄哄模拟器的完整复盘，火了，但一度让我很发愁 - 王登科-DK博客。里面有一段写得很精彩,摘录如下：

我听到了一种声音，可能带了一点情绪，我不确定，这种声音是：做这样不赚钱还亏钱的东西完全是浪费时间。首先我承认并且赞同人应该想办法赚钱过上更好的生活，同时我也认为我们应该保有更多的一些能力，例如感受趣味，它和赚钱不矛盾，但独立于赚钱这件事情。
用最前沿的技术，巧妙的做一个让几十万人用上的产品是很有趣的事情，当他们也因为这个产品而获得了乐趣的时候，我会感觉到我在和世界发生某种奇妙的连接，在某个可承受的范围内，我不计较成本，正是因为这个。
另一方面，我也有某个模糊的感觉，那就是在许多小需求得到满足的时候，就不应该去计较短期的，在承受范围内的成本，尤其是在现在，能够用大模型去实现功能和解决问题，因为这里面可能蕴含着更大的需求，或者能转化成更大的事情，当我们太过谨慎的时候，可能就错失了这种可能性。
话说回来，就算那种可能性最后没有验证，那又有什么关系呢，说到底，人赚钱也好，生活也好，最终不过还是希望能够开心，做哄哄模拟器的这个过程，我就很开心，足矣。

锤子文档

看老罗现场演示“革命性系统”时出现故障，老罗：这个玩砸了怎么吹？。内容是罗永浩发布会上演示锤子文档的语音输入功能。

下面有个18年的评论：

语音办公的前提是，系统和程序能够自动解决问题的程度足够高，也就是自动化水平的足够高。就拿这个ecxel来说，语音输入一个个单独数据？excuse me?我举个例子吧，很简单的场景:现在一个班主任处理期中考试的学生成绩统计，对应的语音办公场景应该是这样，老师说:「统计班级学生的平均分，不及格率，优秀率，并对照上次考试的成绩出一份数据对照表」然后程序自动对单个学生的成绩数据进行总和处理，然后按照老师的要求，全自动的把数据直接出出来。甚至在配合摄像头的情况下，自动扫描纸质试卷上的评分，进行数据处理。至少嘚达到这种程度的自动化，我才能接受。并且这只是最简单的老师对学生成绩数据的处理，还不提更复杂的数据处理。

当年回ta的人都觉得距离这需求的实现还很遥远。但5年多后的今天，已然不再遥远了。感慨科技的进步，正想回复ta，发现23年就有人回复了，哈哈。

2024年3月24日

尝试了下Suno。昨天就有看到别人在提，但没想到如此惊喜。

效果好到什么程度呢？如果不告诉我这是ai创作，而是直接出现在我的日推中，我甚至会主动点进去看看作者是谁，还有没有其他歌。

发现比较有趣的是宮保雞丁 | Suno，将菜谱唱得很有气势，哈哈。

还有水调歌头（明月几时有） | Suno让我受到启发，将古诗直接作为歌词，让ai进行创作，会很有意思。

我试了下拟挽歌辞 | Suno,有点味道。

2024年5月16日

机器视觉课上,老师介绍说未来机器视觉的研究主要分为三种：大模型多模态+aigc+机器人应用。说本学期所介绍的图像分类、检测、segmentation，未来将被大模型所取代。我想到gpt4o的能力，确实是如此啊。老师说前十几年深度学习的兴起取代了原有的手工特征提取，现在又是新一轮替代了。

人工智能的发展势如破竹，浩浩荡荡，长江后浪退前浪。

2024年6月7日

今年高考新课标I卷的作文题是

随着互联网的普及、人工智能的应用，越来越多的问题能很快得到答案。那么，我们的问题是否会越来越少？
以上材料引发了你怎样的联想和思考？请写一篇文章。

第一眼看到这题目觉得很烂。并且能肯定：不管是高中的我还是现在的我，都会觉得很烂。

高中的我每周能接触互联网的时间实在有限。要让我对一些最新科技的应用进行议论，那真有些强人所难，我只能空谈。

而现在的我,我会觉得这问题很没有必要，因为它答案肯定是否定的。

2024年6月17日

给爸爸介绍生成式人工智能。我举了三个例子：

请ChatGpt扮演英语老师，指出我的语法错误
让它帮我读论文，并写成汇报稿；
我遇到了问题，请它帮忙解决。

爸爸听了很惊喜，觉得这玩意真棒。

后来我觉得挺内疚的。我自己从22年底就用上了，然后却到24年中了，才跟我爸爸介绍。然后我发现之前自己嗤之以鼻的那些套皮ChatGPT网站的意义，它们降低了使用门槛（很可悲的一个事实：这个高高的使用门槛，是人为制造的）。

以后我还想给爸爸介绍Stable Diffusion，Suno，Luma Dream Machine。我觉得这股AI潮流，我爸妈就算不能赶上，那至少也得有个体验，这么好的技术，不玩玩太可惜了。

还想部署个ChatGPTNextWeb/ChatGPT-Next-Web: A cross-platform ChatGPT/Gemini UI (Web / PWA / Linux / Win / MacOS). 一键拥有你自己的跨平台 ChatGPT/Gemini 应用。，让家里人能更方便地用得上。

我还跟爸爸讲，现在有不少言论说AI将取代程序员。但我在实习中发现，AI目前还取代不了我，等它真能把我给取代的那天，那大部分职业都将被取代。不过到那时，世界会有很大的变化。

2024年7月3日

刷Steam探索队列发现AI公寓：虚拟证言，宣传是“是全球首款由GPT AI驱动的剧本杀游戏”。6月17号发现的游戏，目前是褒贬不一 (14)。由此可以看出销量和评价都不算好。

开发者提到

在大家购买游戏之后，我们会赠送给玩家约20w字左右的对话额度，其实这个成本就几乎和游戏定价是持平的了…后续如果想要更多对话，需要玩家主动购买咖啡，10rmb约10w字的额度，这部分费用游戏是直接支付给AI工具平台的，我们不产生盈利，但是因此给玩家造成了不好的游戏体验我们十分抱歉。

有条评测写得正中要害

加入LLM没有带来新的游戏体验，反而打破了传统探案游戏cascade般的逻辑链，生硬的AI回复感觉别说fine tuning了，怀疑根本没有tune过（？）既然有一个还不错的台本，去掉LLM全部用固定文案回复可能反而会更好玩一点。
至于你们的LLM免费额度问题，太多地方不需要LLM处理的回复也在浪费算力，用固定回复不好么，策划没有做好设计的代价就是浪费算力，然后玩家买单。

AI驱动npc这个概念，去年有款Inworld Origins就有去尝试，但只是个demo，而且据他们今天所发的公告，“they will be taking the “Origins” demo offline as of 7/8/24.”

我期待公告中所说的"groundbreaking experiences at the intersection of AI and gaming.“到来的那一天。

ps: 今天(9月1日)再去看，评测数上涨到了16。

2024年8月28日

GameNGen

谷歌发布的基于Diffusion Models的实时游戏引擎，展示出来的效果似乎不错，但都不长。之前看的ai接入游戏都是用llm来做npc，而这个是去实时渲染游戏画面。

可能一个游戏全部都由ai制作还不太可能，但要是某个关卡是由ai做的，每个玩家，每次游玩时都有不一样的画面与情节，那我倒是很想试试。

2024年9月1日

Using ChatGPT to reverse engineer minified JavaScript - ChatGPT for teams | Glama讲的是作者看到个页面效果觉得很棒，好奇怎么做的，但只找到被压缩过的代码，靠ChatGPT很轻松地就复现出来了。

而我今天在重构项目之前遗留下来的代码，也是靠的ChatGPT，一长段代码丢进去，出来的就是舒服许多的分拆后的函数了。

2024年11月23日

看Ch3nyang’s blog | 大模型越狱攻击初探，介绍了通过prompt来做大模型越狱攻击。

更好奇背后的原理，也就是为什么这些方法有效。

2024年12月2日

最近听了不少AI生成的带有角色音色特征的翻唱歌曲。

比如【AI千早爱音】美国讽刺歌曲：What did you learn today - 你今天在学校学到了什么？,ykn：一生有爱何惧风飞沙【天下】。

留学爱音适合唱些国外小曲，ykn则适合唱广场舞歌曲。

【AI千早爱音】美国讽刺歌曲：What did you learn today - 你今天在学校学到了什么？视频底下有评论问

up，up我想让ai爱音唱一些歌是把原曲扔到ai里就会输出爱音版本吗？还是要调音啥的

up回复说

基本上是，但是大部分情况下都要额外再去修ai过程里效果不好的音，干声不清楚要修的就更多。

再次感叹AI发展是真快:唱歌,画画，续写，润色。

缘起¶

2022年12月8日¶

2022年12月15日¶

2023年2月17日¶

2023年3月20日¶

2023年3月23日¶

2023年3月30日¶

2023年4月13日¶

2023年4月16日¶

2023年4月17日¶

2023年4月18日¶

2023年4月19日¶

2023年4月30日¶

2023年5月5日¶

2023年5月10日¶

2023年5月16日¶

2023年5月19日¶

2023年10月13日¶

2023年10月15日¶

2023年11月9日¶

2023年11月30日¶

2024年1月5日¶

2024年1月15日¶

赛博测谎器¶

最佳平替 - 用更低价的搜索词购物¶

2024年1月17日¶

2024年1月22日¶

Soulogic 的推文¶

哄哄模拟器¶

锤子文档¶

2024年3月24日¶

2024年5月16日¶

2024年6月7日¶

2024年6月17日¶

2024年7月3日¶

2024年8月28日¶

2024年9月1日¶

2024年11月23日¶

2024年12月2日¶

缘起