상세 컨텐츠

본문 제목

하루에 1만개의 글을 위키피디어에 올릴 수 있는 소프트웨어 봇,

정치, 정책/미래정책과 정치 전략

by 소나무맨 2014. 7. 30. 08:12

본문

하루에 1만개의 글을 위키피디어에 올릴 수 있는 소프트웨어 로봇   

     

하루에 1만개의 글을 위키피디어에 올릴 수 있는 소프트웨어 봇,


Lsjbot 놀라운 프로그램으로 아마존의 다양한 e-북을 올리기도



위키피디어가 10년전에 나와서 학생들은 더 이상 교수들에게 묻지않고 위키에다 묻는다.

위키피디어는 집단지성으로 누구나 다 글을 올릴 수 있다.

항시 편집되면서 업데이트되는 글을 지식으로 우리는 손쉽게 가지고 간다.

그래도 지금까지는 사람들이 글을 올렸다.

위키피디어 초창기는 많은 사람들이 글을 올리지 않았고 지금은 모두 글을 올리지만,

몇년 전부터는 그 분야의 고수들이 글을 올려, 현재 브리타니카보다 더 정확한 정보를 우리들에게 가져다 준다. 그런데 이제는 로봇이 인간이 수십개 하루에 글을 올린다면 1만개의 글을 올리고 있다.

그 이름은 Lsjbot이라는 소프트웨어 로봇이다.

소프트웨어 로봇 하루에 10,000개 위키백과 글 올려

wikipedia_bots



이 모든 것은 Lsjbot라는 프로그램 덕분이다.

요한슨의 소프트웨어는 특정 주제에 대한 데이터베이스의 정보를 패키지화하고 수집한다. 

동물 종 또는 마을 프로파일 등 게시물의 대부분은 특정 주제에 초점을 맞추고있다. 

최대 10,000개 항목의 글을 하루에 올릴 수 있는데, 요한슨과 그의 로봇들이 그런 일을 하고 있다.

로봇의 자동 생성 항목은 하나의 페이지 내에서 찾을 것을 구성 항목별로 올린다.

 브리태니커 백과 사전 이라는 명시를 하는데, 예를 들어 봇은 웹에서 쉽게 사용할 수 있도록 편집 및

또는 추가 정보를 필요로하는 게시물을 올리기도 한다.

위키백과이기 때문에 다른 사람들이 정제된 지식으로 편집할 수 있다.

자부심을 가지고 아름다운 산문으로 편집한다.


위키백과가 Lsjbot 승인 여부에 상관없이 대량 기사를 생성 할 수있는 소프트웨어가 나와서

더 많은 지식을 올리고 있는 것이다. 데이터가 급증하고 있는 이유다.


지난 달 AP통신 발표로는 미국 기업의 분기기업실적에 대한 이야기를 생산하였고,

자동 인사이트에 의해 생성 되도록 만들 수 있다. 

2011년 10월 이후 이 소프트웨어는 스포츠 포브스에이어 금융에 관한 기사도 생성하고 있다.


최근 LA기자는 3 분만에 지진 보고서를 게시하는 로봇을 이용했다.

또 다른 학문적 활용은 필립 파커가 만든 아마존의 10만 전자책이라는 소프트웨어를 통해

 전자책 내용 줄거리를 올린다.


이 소프트웨어의 대부분은 데이터를 캡처하고 기사로 다시 포맷하는데, 매우 간단한 검색 기능을 사용한다. 

아주 최소한의 인공 지능을 이용하는 것이다.

그러나 기계 학습 및 자연 언어 처리에 대한 관심은 앞으로 필연적으로 봇이 생성하는 콘텐츠의 품질이

증가할 것임을 예측할 수 있다.


아주 가까운 미래에 소프트웨어가 만든 기사는 인간의 기사보다 훨씬 더 많은 내용을 생산할 것임을 알 수 있다. 이것이 좋은 일이건 나쁜 일이건 특정 주제에 대한 위키백과의 문서가 더 빨리 올려지고 더 빨리 편집이 될 것임을 알 수 있다. 기계는 지칠 줄 모르고 새로운 기사를 올리기 때문이다.


[ 사진 제공 : STML/플리커 ]




Written By:
Posted: 07/26/14 8:37 AM

wikipedia_bots



While Internet trolls and members of Congress wage war over edits on Wikipedia, Swedish university administrator Sverker Johansson has spent the last seven years becoming the most prolific author…by a long shot. In fact, he’s responsible for over 2.7 million articles or 8.5% of all the articles in the collection, according to The Wall Street Journal.

And it’s all thanks to a program called Lsjbot.

Johansson’s software collects info from databases on a particular topic then packages it into articles in Swedish and two dialects of Filipino (his wife’s native tongue). Many of the posts focus on innocuous subjects — animal species or town profiles. Yet, the sheer volume of up to 10,000 entries a day has vaulted Johansson and his bot into the top leaderboard position and hence, the spotlight.

The bot’s automatically generated entries are not the beautifully constructed entries one would find within the pages of the Encyclopedia Britannica, for example. Many posts are simply stubs – short fragments of posts that require editing and/or additional information — because the bot is dependent on what’s readily available on the web. Being on Wikipedia, nothing stops someone from refining the stubs and editing them into the beautiful prose that would make any human proud.

Whether Wikipedia purists approve of Lsjbot or not, data scraping software that can mass produce articles is increasingly on the rise.

Just last month, the Associated Press announced that it would be using software called Wordsmith, created by startup Automated Insights, to produce stories on the quarterly corporate earnings from US companies. Since October of 2011, Narrative Science has been automatically generating sports and finance stories on Forbes without much fanfare.

It isn’t just companies getting into the automated content game. Recently, a LA journalist utilized a bot to post a report just three minutes after an earthquake. Another academic, Philip Parker, has created over 100,000 ebooks on Amazon through similar software.

Much of this software employs fairly simple search functions to capture the data and reformat it into articles. In other words, very minimal artificial intelligence. Yet, growing interest in machine learning and natural language processing will inevitably mean that the quality of bot-generated content will only increase.

In the very near future, software-created articles will be indistinguishable from a vast amount of human-produced content. Whether that’s a good or bad thing, you can be sure the Wikipedia article on the subject will be furiously edited over time.

[Photo credit: STML/Flickr]



 (2017.7.28)  글: 박영숙기자


http://www.indaily.co.kr/client/news/newsView.asp?nBcate=F1002&nMcate=M1004&nScate=1&nIdx=24495&cpage=1&nType=1

태그 미래예측, 미래특강, 위키피디아, 유엔미래포럼

관련글 더보기