多年的读者和老朋友吉姆·斯特恩最近写信给我,提出了一个问题:
亲爱的计算机迷,
我想开始出版通讯感兴趣的特定区域,使用最新的提要,机器人,刮刀和内容管理组织者为了使事情尽可能自动化,但仍然能够保持我的眼睛被公布,什么电子邮件,twitter和直接投射到狂热的眼角膜,潜在的读者。
现在外面有什么?
非常感谢,
吉姆斯特恩
互联网上又多了一个出版商
亲爱的Sterne先生,
所以,你正在寻找的是一个出版管道:多个输入的内容提要,想必以多种格式需要规范化创建提要的传入队列分析和分级过程,反过来,提要草案队列,您可以调整和提高结果并决定什么时公布。据我所知,在互联网上没有任何解决方案可以做我认为你想做的任何事情,所以要实现你的愿景,你可能需要将多个子系统连接在一起来创建我们今后称之为“科学出版社”的东西。
而且,科学出版社不仅仅是一个技术问题,还涉及一些严重的法律问题。让我们先解决法律问题吧……
通过从各种来源获取内容,你可能会玩弄文字和图像,如果你被判侵犯版权,你可能会花很多钱。例如,如果您的管道正在接收的RSS提要来自于,《好莱坞记者报》,你不重写等内容,明确自己的或者天堂防护,重新发布它没有改写,或者你重用他们授权的照片,说,盖蒂图片社,那么它几乎肯定你最终会收到他们的狗的法律,它将花费你得。受到版权侵犯指控的大型发行商通常只是为了避免诉讼成本而支付费用,所以除非你财力雄厚,否则一定要非常非常小心。
“等一下!你可能会想,“那谷歌是如何逃脱惩罚的?”谷歌指数和总结一切,包括好莱坞报道!”答案是,我的朋友,谷歌不受惩罚,因为他们是谷歌,而出现在谷歌结果中的PR价值是了不起的。
所以,你要小心了;现在,回到技术方面……在您可能想要获取的众多内容来源中,有RSS提要和抓取的Web内容。在解析内容并对其进行处理以减少发布前的工作量方面,每种来源都面临着不同的挑战。
如果你的读者喜欢对资源进行整理,而不是重新编写描述性文本,那么一种策略可能会奏效,并避免法律问题和校对和编辑机器生成的摘要的努力,就是简单地发布带有RSS提要链接的源标题,并加上标签和分类,但我猜你想要的是更有深度的内容。
你想要的是一个“自动博客”插件,但虽然有很多这样的插件,大多数被评为刚刚好,并专注于更多的销售导向的目标,如挖掘联盟链接。有一个我没用过但得到好评的插件是WP机器人该网站声称支持超过32个来源,三个网站每年的起价为99美元。如果你只是想获取RSS源,你应该考虑插件,比如RSSImport(免费的)或FEEDZY RSS提要(每年59美元起)。
您将面临的一个问题是如何将提取出来的内容变成您的内容,而不是简单地重新发布原始内容(可能会陷入法律地狱的外围)。WordPress有很多“旋转器”或“重写器”,但大多数都采用非常简单的方法重写,只是通过替换短语来改变内容,例如,“smart decision”可能会从“good move”或“smart move”等同义词列表中随机替换,正如你可能猜到的那样,结果可能不会给你留下深刻印象。
如果您想进入下一个“旋转”级别,您可以通过一个服务来处理提取的内容,例如Aylien它提供了非常复杂的文章提取、分类,以及——这可能会让你最终的内容编辑更容易——自动化摘要通过简单的REST api,但将这些服务与WordPress集成需要一些工程。
网络抓取吗?嗯,这涉及到一系列大而混乱的问题,比如Aylien(每月49美元起)Grepsr(每个网站129美元),或自动化能帮你做重活。如果你有非常具体的需求,你可能想要自己的刮土机(查看)第十一章-网络抓取的用Python自动化无聊的东西介绍)。一般来说,我不建议自己动手的方法,因为最终你会是一个刮板为每个单独的网站和每一个小网站变化会打破你的系统,你将会最终看起来像一个盘子纺纱在马戏团当你运行在修复代码。
至于宣传你新创建的博客内容,你可以考虑使用免费的WordPress Jetpack发布功能自动向Facebook、Twitter、LinkedIn、谷歌+、Tumblr和Path发布新的博客内容。
所以,让我们来总结一下:据我所知,没有一种解决方案能像你想的那样,利用多种多样的数据源自动创建真正专业的博客内容。正如我上面所讨论的,有很多工具可以接近你想要的东西,但最终的结果可能是一个国产的备件集合体飞行(如Frankenpress)和真正的自动化不干涉内容收集、分析和发布——不太可能产生高质量的博客文章;如果你想要一个专业的博客,至少到目前为止,你还得有人对最终输出进行润色。再过一两年,我肯定会有人工智能来帮你做这项工作,但现在这是人类的事情。