이 모든 것은 Lsjbot라는 프로그램 덕분이다.
요한슨의 소프트웨어는 특정 주제에 대한 데이터베이스의 정보를 패키지화하고 수집한다.
동물 종 또는 마을 프로파일 등 게시물의 대부분은 특정 주제에 초점을 맞추고있다.
최대 10,000개 항목의 글을 하루에 올릴 수 있는데, 요한슨과 그의 로봇들이 그런 일을 하고 있다.
로봇의 자동 생성 항목은 하나의 페이지 내에서 찾을 것을 구성 항목별로 올린다.
브리태니커 백과 사전 이라는 명시를 하는데, 예를 들어 봇은 웹에서 쉽게 사용할 수 있도록 편집 및
또는 추가 정보를 필요로하는 게시물을 올리기도 한다.
위키백과이기 때문에 다른 사람들이 정제된 지식으로 편집할 수 있다.
자부심을 가지고 아름다운 산문으로 편집한다.
위키백과가 Lsjbot 승인 여부에 상관없이 대량 기사를 생성 할 수있는 소프트웨어가 나와서
더 많은 지식을 올리고 있는 것이다. 데이터가 급증하고 있는 이유다.
지난 달 AP통신 발표로는 미국 기업의 분기기업실적에 대한 이야기를 생산하였고,
자동 인사이트에 의해 생성 되도록 만들 수 있다.
2011년 10월 이후 이 소프트웨어는 스포츠 포브스에이어 금융에 관한 기사도 생성하고 있다.
최근 LA기자는 3 분만에 지진 보고서를 게시하는 로봇을 이용했다.
또 다른 학문적 활용은 필립 파커가 만든 아마존의 10만 전자책이라는 소프트웨어를 통해
전자책 내용 줄거리를 올린다.
이 소프트웨어의 대부분은 데이터를 캡처하고 기사로 다시 포맷하는데, 매우 간단한 검색 기능을 사용한다.
아주 최소한의 인공 지능을 이용하는 것이다.
그러나 기계 학습 및 자연 언어 처리에 대한 관심은 앞으로 필연적으로 봇이 생성하는 콘텐츠의 품질이
증가할 것임을 예측할 수 있다.
아주 가까운 미래에 소프트웨어가 만든 기사는 인간의 기사보다 훨씬 더 많은 내용을 생산할 것임을 알 수 있다. 이것이 좋은 일이건 나쁜 일이건 특정 주제에 대한 위키백과의 문서가 더 빨리 올려지고 더 빨리 편집이 될 것임을 알 수 있다. 기계는 지칠 줄 모르고 새로운 기사를 올리기 때문이다.
[ 사진 제공 : STML/플리커 ]
While Internet trolls and members of Congress wage war over edits on Wikipedia, Swedish university administrator Sverker Johansson has spent the last seven years becoming the most prolific author…by a long shot. In fact, he’s responsible for over 2.7 million articles or 8.5% of all the articles in the collection, according to The Wall Street Journal.
And it’s all thanks to a program called Lsjbot.
Johansson’s software collects info from databases on a particular topic then packages it into articles in Swedish and two dialects of Filipino (his wife’s native tongue). Many of the posts focus on innocuous subjects — animal species or town profiles. Yet, the sheer volume of up to 10,000 entries a day has vaulted Johansson and his bot into the top leaderboard position and hence, the spotlight.
The bot’s automatically generated entries are not the beautifully constructed entries one would find within the pages of the Encyclopedia Britannica, for example. Many posts are simply stubs – short fragments of posts that require editing and/or additional information — because the bot is dependent on what’s readily available on the web. Being on Wikipedia, nothing stops someone from refining the stubs and editing them into the beautiful prose that would make any human proud.
Whether Wikipedia purists approve of Lsjbot or not, data scraping software that can mass produce articles is increasingly on the rise.
Just last month, the Associated Press announced that it would be using software called Wordsmith, created by startup Automated Insights, to produce stories on the quarterly corporate earnings from US companies. Since October of 2011, Narrative Science has been automatically generating sports and finance stories on Forbes without much fanfare.
It isn’t just companies getting into the automated content game. Recently, a LA journalist utilized a bot to post a report just three minutes after an earthquake. Another academic, Philip Parker, has created over 100,000 ebooks on Amazon through similar software.
Much of this software employs fairly simple search functions to capture the data and reformat it into articles. In other words, very minimal artificial intelligence. Yet, growing interest in machine learning and natural language processing will inevitably mean that the quality of bot-generated content will only increase.
In the very near future, software-created articles will be indistinguishable from a vast amount of human-produced content. Whether that’s a good or bad thing, you can be sure the Wikipedia article on the subject will be furiously edited over time.
[Photo credit: STML/Flickr]